最新消息:

标签:crawler,spider,python,scrapy,mechanize,beautifulsoup,twisted

技术

基于python的crawler

admin 15年前 (2009-05-16)

考虑到垂直爬虫及站内搜索的重要性,重新思考一下项目爬虫的技术架构及实现方案。以前的垂直爬虫曾经使用过heritrix、htmlparser、nutch等,各有优缺点。尤其是要做垂直网站的定向爬取时候,并没有太好的方案,只能够做指定页面的定向解析,因此...