WorldCat 是世界上最大的在线图书目录库,图书资料涵盖了全球170个国家、72,000所图书馆的馆藏。由于有很多早期的图书资料并没有标准的ISBN号,因此WorldCat的图书信息比 ISBNdb 的信息更完整。因此如果要构建一个在线图书目录库,WorldCat 是最好的来源,此类高质量的行业数据也是当下大数据模型LLM所需要的。只不过WorldCat并未提供官方的API。
Anna’s Archive 项目爬取了WorldCat的所有图书信息数据,并以Torrent信息提供数据文件下载
官方说明:1.3B Worldcat scrape & data science mini-competition
下载地址:https://annas-archive.org/torrents
记录总数:
下载的压缩数据文件为220GB,解压缩后为2.2TB。
数据文件实际去重后的有效记录为7亿条。
WorldCat原始网站共有18亿 (1,888,381,236)条记录,有13亿条(1,348,336,870)有唯一ID,5.4亿条为重复记录,6亿条重定向 到404页面.
而 Open Library 有 4千7百万条记录,ISBNdb 有3千4百万条记录,Anna’s Archive 有1.25亿条记录。
另外一个提供AI LLM模型数据集的项目The Nose,强烈推荐。
The Nose:https://www.thenose.cc/
转载请注明:出家如初,成佛有余 » 全球最全的图书目录库WorldCat图书信息离线数据