最新消息:

图书数据集资源汇总

佳软 yeeach 918浏览 0评论

最近 Nexus_search 在其Telegram频道发布了一封名为 books4 的图书数据集,包括60万本小说和非小说类图书,600万本学术出版物。

AI Dataset libstc2 aka books4

磁力链接:magnet:?xt=urn:btih:a904e660355c49006b2e7d43893d31bf3c2be9cc

种子文件:https://t.me/nexus_search/220

图书数据集最有名的要数 Books3 AI training dataset ,但因版权原因从各大网站下架了 ,包括 AcademicTorrents.com上的 磁力资源 详情页也来个大大的提示(magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667 资源已经无人做种)。

Nexus 没有直接提Books4和Books3的关系,感觉Books4应该包含了Books3的内容。

图书数据集是大模型预训练中核心语料素材,能为模型输出高质量长文本提供参考。Nexus Search这一举措简直是大善人啊。

 

汇总一下图书数据集和图书类磁力资源/BTSync资源

AI Dataset libstc3

magnet:?xt=urn:btih:37504c50e6f318e8fee6e3f82a8150a888a4cdc8

https://t.me/nexus_search/226

Nexus 发布libstc3版本的AI数据集,包含

– 600,000 多种小说和非小说类图书全文
– 8,000,000 多份学术出版物、杂志和手册全文
– 5,000,000 多项美国专利
– 164,000,000 条元数据记录

Libgen

http://libgen.rs/repository_torrent/

 

Anna’s Archive

https://annas-archive.org/torrents

 

书格shuge.org Resilio Sync 共享2.54T

https://www.shuge.org/foryou/resilio_sync/

 

BookCorpus

https://huggingface.co/datasets/bookcorpus

magnet:?xt=urn:btih:0faf0c92abb0a4acd9af573ecb093ee0ab38a4f3

来源:https://hyper.ai/datasets/13642

 

备胎书屋60G小说资源

magnet:?xt=urn:btih:1bd4bebcfc74f63542eb7c9c887a3e5a3913321e

解压密码:beitai

 

12.7W本微力同步共享图书(800G)

同步密钥:B47SMCX6PG54T2OTORQRJFTLYWQEEZLIOQB4ZZRZN4A23C2CFL45FA

 

Z-library 的中文epub资料(800GB)

Resilio Sync共享密钥:EI6YGJFY7ARIH43QPOE3CS2N6GVFHIG5SZRH3DMOD7GL4B2SN2XUEMDNRGI

https://www.yeeach.com/post/2169

 

freembook.com 1.7TB共14万余本图书资源

同步密钥:B2MLLPYY77HBCGR4RQJOVIWUVELWD4W2U

https://www.yeeach.com/post/2163

 

书葵网共享计划

https://www.shukui.net/share/

 

更新日志

2024/07/11 新增 AI Dataset libstc3

2024/05/21 初始化

转载请注明:出家如初,成佛有余 » 图书数据集资源汇总

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址