编辑须知
- 这是wiki,可以公开编辑,有增补修订可以直接补充
- 未处理的原始数据集(如 wikipedia),和处理后的数据集(如 falcon-refinedweb)放置在不同的类目
- 专注于文本类数据集,图像、音视频、多模态数据集请另行创建话题
- 包含开放和专有许可,但专有许可需标注
:copyright:
,如许可不明确则标记为:question:
- 下载形式可能产生费用则标记为
:heavy_dollar_sign:
- 需可公开获取而不需要经任何实体审批或审核
说明
- 仅列举,并非任何形式的推广、推荐或引流
- 排名不分先后
- 欢迎补充
- 数据集很重要,但对训练更重要的是钱
原始数据集
名称 | 许可 | 语言 | 下载 |
---|---|---|---|
Wikipedia | CC BY-SA 4.0 | 多语言 | http |
多语言 | torrent | ||
StackExchange | CC BY-SA 4.0 | 多语言 | archive.org |
arXiv | English | s3 | |
Common Crawl | 多语言 | s3/http | |
Gutenberg | Public domain | 多语言 | wget rsync |
Libgen | 多语言 | torrent | |
Sci-Hub | 多语言 | torrent | |
Z-Library | 多语言 | torrent | |
Github | 代码/多语言 | http |
处理后的数据集
名称 | 许可 | 语言 |
---|---|---|
RedPajama-Data-1T | English | |
RedPajama-Data-V2 | English, German, French, Italian, Spanish | |
falcon-refinedweb | ODC-BY | English |
OpenHermes-2.5 | English | |
wikipedia | cc-by-sa-3.0 | 多语言 |
dolma | ODC-BY | English |
the-stack | 代码/多语言 | |
fineweb | ODC-BY | English |
ruozhiba | apache-2.0 | 中文 |
OSCAR-2301 | 多语言 |