AI文本类数据集

编辑须知

  1. 这是wiki,可以公开编辑,有增补修订可以直接补充
  2. 未处理的原始数据集(如 wikipedia),和处理后的数据集(如 falcon-refinedweb)放置在不同的类目
  3. 专注于文本类数据集,图像、音视频、多模态数据集请另行创建话题
  4. 包含开放和专有许可,但专有许可需标注 :copyright: :copyright:,如许可不明确则标记为 :question: :question:
  5. 下载形式可能产生费用则标记为 :heavy_dollar_sign: :heavy_dollar_sign:
  6. 需可公开获取而不需要经任何实体审批或审核

说明

  1. 仅列举,并非任何形式的推广、推荐或引流
  2. 排名不分先后
  3. 欢迎补充
  4. 数据集很重要,但对训练更重要的是钱

原始数据集

名称 许可 语言 下载
Wikipedia CC BY-SA 4.0 多语言 http
Reddit :question: 多语言 torrent
StackExchange CC BY-SA 4.0 多语言 archive.org
arXiv :question: English s3 :heavy_dollar_sign:
Common Crawl :copyright: 多语言 s3/http
Gutenberg Public domain 多语言 wget rsync
Libgen :copyright: 多语言 torrent
Sci-Hub :copyright: 多语言 torrent
Z-Library :copyright: 多语言 torrent
Github :copyright: 代码/多语言 http

处理后的数据集

名称 许可 语言
RedPajama-Data-1T :question: English
RedPajama-Data-V2 :copyright: English, German, French, Italian, Spanish
falcon-refinedweb ODC-BY English
OpenHermes-2.5 :question: English
wikipedia cc-by-sa-3.0 多语言
dolma ODC-BY English
the-stack :question: 代码/多语言
fineweb ODC-BY English
ruozhiba apache-2.0 中文
OSCAR-2301 :question: 多语言
5 个赞