文章列表

开源软件 FFmpeg 生成模型使用图片数据集

, , ,
开源软件FFmpeg可将视频文件高效转换为高质量图片数据集,适用于构建机器学习训练数据或壁纸集合。通过调整帧率参数控制输出密度,配合图片压缩与缩放策略,能在保证画面代表性的同时显著降低存储占用。以电影《流浪地球2》为例,按每秒提取一帧可生成 阅读全文

探索开源:获取完整的 GitHub 社区数据集

, , ,
介绍通过 GHArchive 获取 2011 至 2022 年完整 GitHub 社区数据集的技术流程,涵盖使用 Node.js 批量生成超 10 万条小时级数据下载链接、采用 aria2 多线程高速下载、通过 diff 比对补全缺失文件、 阅读全文