最新消息:

标签:爬虫

技术

PHP, Python, Node.js 哪个比较适合写爬虫?

admin 5年前 (2014-06-03)

我在知乎关于《PHP, Python, Node.js 哪个比较适合写爬虫? 》做的回答 主要看你定义的“爬虫”干什么用。 1、如果是定向爬取几个页面,做一些简单的页面解析,爬取效率不是核心要求,那么用什么语言差异不大。 当然要是页面结构复杂,正则表...

技术

微信公众平台账号内容搜索引擎爬取技术实现

admin 6年前 (2014-02-23)

有人问:游迹语音助手中的“微信精选”和www.lewuxian.com怎样实现对微信公众平台内容进行爬取的,不会是像诸多所谓的微信内容聚合站人工维护的吧。     首先可以肯定的是:游迹团队不是白富美,没有魅力与微信团队...

技术

htmlparser使用指南

admin 11年前 (2008-05-19)

需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比html...