最新消息:

全球最全的图书目录库WorldCat图书信息离线数据

产品 admin 739浏览 0评论

WorldCat 是世界上最大的在线图书目录库,图书资料涵盖了全球170个国家、72,000所图书馆的馆藏。由于有很多早期的图书资料并没有标准的ISBN号,因此WorldCat的图书信息比 ISBNdb 的信息更完整。因此如果要构建一个在线图书目录库,WorldCat 是最好的来源,此类高质量的行业数据也是当下大数据模型LLM所需要的。只不过WorldCat并未提供官方的API。

Anna’s Archive 项目爬取了WorldCat的所有图书信息数据,并以Torrent信息提供数据文件下载

官方说明:1.3B Worldcat scrape & data science mini-competition

下载地址:https://annas-archive.org/torrents

记录总数:

下载的压缩数据文件为220GB,解压缩后为2.2TB。

数据文件实际去重后的有效记录为7亿条。

WorldCat原始网站共有18亿 (1,888,381,236)条记录,有13亿条(1,348,336,870)有唯一ID,5.4亿条为重复记录,6亿条重定向 到404页面.

Open Library 有 4千7百万条记录,ISBNdb 有3千4百万条记录,Anna’s Archive 有1.25亿条记录。

 

另外一个提供AI LLM模型数据集的项目The Nose,强烈推荐。

The Nosehttps://www.thenose.cc/

更多行业数据库

转载请注明:出家如初,成佛有余 » 全球最全的图书目录库WorldCat图书信息离线数据

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址