最近 Nexus_search 在其Telegram频道发布了一封名为 books4 的图书数据集,包括60万本小说和非小说类图书,600万本学术出版物。
AI Dataset libstc2 aka books4
磁力链接:magnet:?xt=urn:btih:a904e660355c49006b2e7d43893d31bf3c2be9cc
种子文件:https://t.me/nexus_search/220
图书数据集最有名的要数 Books3 AI training dataset ,但因版权原因从各大网站下架了 ,包括 AcademicTorrents.com上的 磁力资源 详情页也来个大大的提示(magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667 资源已经无人做种)。
Nexus 没有直接提Books4和Books3的关系,感觉Books4应该包含了Books3的内容。
图书数据集是大模型预训练中核心语料素材,能为模型输出高质量长文本提供参考。Nexus Search这一举措简直是大善人啊。
汇总一下图书数据集和图书类磁力资源/BTSync资源
AI Dataset libstc3
magnet:?xt=urn:btih:37504c50e6f318e8fee6e3f82a8150a888a4cdc8
Nexus 发布libstc3版本的AI数据集,包含
– 600,000 多种小说和非小说类图书全文
– 8,000,000 多份学术出版物、杂志和手册全文
– 5,000,000 多项美国专利
– 164,000,000 条元数据记录
Libgen
http://libgen.rs/repository_torrent/
Anna’s Archive
https://annas-archive.org/torrents
书格shuge.org Resilio Sync 共享2.54T
https://www.shuge.org/foryou/resilio_sync/
BookCorpus
https://huggingface.co/datasets/bookcorpus
magnet:?xt=urn:btih:0faf0c92abb0a4acd9af573ecb093ee0ab38a4f3
来源:https://hyper.ai/datasets/13642
备胎书屋60G小说资源
magnet:?xt=urn:btih:1bd4bebcfc74f63542eb7c9c887a3e5a3913321e
解压密码:beitai
12.7W本微力同步共享图书(800G)
同步密钥:B47SMCX6PG54T2OTORQRJFTLYWQEEZLIOQB4ZZRZN4A23C2CFL45FA
Z-library 的中文epub资料(800GB)
Resilio Sync共享密钥:EI6YGJFY7ARIH43QPOE3CS2N6GVFHIG5SZRH3DMOD7GL4B2SN2XUEMDNRGI
https://www.yeeach.com/post/2169
freembook.com 1.7TB共14万余本图书资源
同步密钥:B2MLLPYY77HBCGR4RQJOVIWUVELWD4W2U
https://www.yeeach.com/post/2163
书葵网共享计划
更新日志
2024/07/11 新增 AI Dataset libstc3
2024/05/21 初始化