最新消息:

免费网站爬取工具汇总

产品 admin 1754浏览 0评论

在线爬取工具

在线扒站工具:https://bazhan.wanghttps://bazhan.me 。只允许爬取单个页面。

Archivarix:https://archivarix.com/en/website-downloader-cms-converter/ 可以免费下载200个文件。

 

HTTrack类软件

对不懂编程的,推荐老牌的爬站工具HTTrack 。

HTTrack :https://www.httrack.com 支持Windows/Linux/OSX/Android。类似工具还有teleport ultra。

Cyotek WebCopy:https://www.cyotek.com/cyotek-webcopy

这些工具都只能处理静态页面内容,无法处理使用了Ajax动态数据展示的网站。

 

离线存档工具

定位于网站离线存档的工具,也可以作为爬取工具使用,功能更为强大,但需要一定技术基础。

ArchiveBox:https://archivebox.io

Kiwix:https://www.kiwix.org

Conifer:https://conifer.rhizome.org

这几个都支持Headless Chromium,因此可以爬取ajax动态数据的网站。

当然技术人员也可以基于万能的爬虫框架Scrapy 自己开发一个。

 

ArchiveBox的 Wiki 对各种 Web Archiving 工具及服务做了很好的总结,值得参考和挖掘:https://github.com/ArchiveBox/ArchiveBox/wiki/Web-Archiving-Community

聚BT已经新增“网站存档”子板块,访问路径:软件->网站存档

更多软件工具

转载请注明:出家如初,成佛有余 » 免费网站爬取工具汇总

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址