<?phpxml version="1.0" encoding="utf-8"?>
<rss version="2.0" 
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
>
<channel>
<title>Yeeach.com掘客 / 话题 / web2.0-搜索引擎</title>
<link>http://www.yeeach.com/digg</link>
<description>Pligg Web 2.0 Content Management System  votes</description>
<pubDate>Sat, 19 Dec 2009 05:45:11 PST</pubDate>
<language>en</language>
<item>
<title><![CDATA[如何识别搜索引擎爬虫的真伪]]></title>
<link>http://www.yeeach.com/digg/story/12034</link>
<comments>http://www.yeeach.com/digg/story/12034</comments>
<pubDate>Sat, 19 Dec 2009 05:45:11 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/12034</guid>
<description><![CDATA[ 				相信不少网站对搜索引擎爬虫都是又爱又恨，因为其中不仅有些爬虫不守规矩，还有人冒充爬虫对网站进行疯狂的扫描。 做的比较好的爬虫抓取频率都比较合理，对网站资源消耗比较少，像Google Spider会根据网页的下载速度等因素进行抓取速度的动态调整，而且还能通过Webmaster Tools来调整Spider的抓取速度。  很多糟<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[Web Indexing]]></title>
<link>http://www.yeeach.com/digg/story/9498</link>
<comments>http://www.yeeach.com/digg/story/9498</comments>
<pubDate>Thu, 01 Oct 2009 05:28:28 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/9498</guid>
<description><![CDATA[  Web Indexing又稱為Internet? Indexing故名思義是一套索引機制，就好像是一本書的索引目錄，可以根據關鍵字來查詢網頁資源，應用領域不限於internet，可延申到 Intranet或Desktop Indexing，這樣的技術正是在實作搜尋引擎的索引資料庫，只要把常用的關鍵字搜集整理出來，然後再按照關鍵字去對映網頁地址，以及點閱率排名，再把 這些對映結果存放在可以快速搜尋的分散式資料庫中，就可以處理整個全球資訊網的網站索引；關於關鍵字的索引及對映工作，可以使用Map Reduce去做分散式批次處理比對工作，以全球資訊網的資訊量來說都是terabyte的容量起算，所以使用Map Reduce來做定期規律的分散式批次運算較合適，然後再將結果存放到Bigtable/Hypertable/HBase這一類的分散式數據資料庫裡提 供查詢程式讀取，這就成了搜尋引擎的索引資料庫。 <br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[互联网网站的反爬虫策略浅析]]></title>
<link>http://www.yeeach.com/digg/story/8000</link>
<comments>http://www.yeeach.com/digg/story/8000</comments>
<pubDate>Sat, 22 Aug 2009 10:27:13 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/8000</guid>
<description><![CDATA[因为搜索引擎的流行，网络爬虫已经成了很普及网络技术，除了专门做搜索的Google，Yahoo，微软，百度以外，几乎每个大型门户网站都有自己的搜索 引擎，大大小小叫得出来名字得就几十种，还有各种不知名的几千几万种，对于一个内容型驱动的网站来说，受到网络爬虫的光顾是不可避免的。  一些智能的搜索引擎爬虫的爬取频率比较合理，对网站资源消耗比较少，但是很多糟糕的网络爬虫，对网页爬取能力很差，经常并发几十上百个请求循环重复抓取，这种爬虫对中小型网站往往是毁灭性打击，特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强。曾经有一次我在JavaEye的 日志里面发现一个User-Agent是Java的爬虫一天之内爬取了将近100万次动态请求。这是一个用JDK标准类库编写的简单爬取网页程序，由于 JavaEye网站内部链接构成了回环导致程序陷入了死循环。对于JavaEye这种百万PV级别的网站来说，这种爬虫造成的访问压力会非常大，会导致网 站访问速度缓慢，甚至无法访<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[没人关心PageRank更新了吗？]]></title>
<link>http://www.yeeach.com/digg/story/2170</link>
<comments>http://www.yeeach.com/digg/story/2170</comments>
<pubDate>Mon, 06 Apr 2009 06:57:58 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/2170</guid>
<description><![CDATA[今天Google Page Rank又更新了，根据在twitter上的消息，很多博客的PR都降低了，可能吧首页依然是4，阿禅日记依然是3。 PR的更新从很久之前的一月一次，到后来一季一次，再到后来不定期更新。有时间隔时间达到150多天。然而，和以往不一样，以往PR一更新，很多博客都会第一时间报道，今天我等了一天，在我订阅的博客里，几乎没有一个博客写关于PR的文章。  关注PR的时代已经过去了吗？  <br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[Google vs. Twitter：实时搜索]]></title>
<link>http://www.yeeach.com/digg/story/1767</link>
<comments>http://www.yeeach.com/digg/story/1767</comments>
<pubDate>Wed, 04 Mar 2009 06:00:32 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1767</guid>
<description><![CDATA[ 最近 Twitter 可以说是互联网上最热的话题之一了，甚至已经超过了 Facebook。TechCrunch 之前有文章解释了为什么会反复的讨论有关 Twitter 的话题，这其中有讨论 Twitter 本身的，有讨论 Twitter 和 Faceboo<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[付搜索引擎2块钱和每次搜索的收入]]></title>
<link>http://www.yeeach.com/digg/story/1646</link>
<comments>http://www.yeeach.com/digg/story/1646</comments>
<pubDate>Sun, 22 Feb 2009 04:55:28 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1646</guid>
<description><![CDATA[在上一帖&amp;ldquo;搜索有多重要？&amp;rdquo;里，有个调查有点意思：如果象征性地每月收费2美元，会有超过一半（52%）的人愿意付给Google。如果也有一半的中国网络用户愿意每月付给百度2块钱，情况会怎样？粗略地描绘： 向用户收费 vs. 卖广告  Google向用户收费的收入：在美国市场占有率62.8%，美国网络用户2.2亿人，那么Google在美国大约有1.4亿用户。若一半人每月付<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[李开复-用户为先：谷歌做好三件事]]></title>
<link>http://www.yeeach.com/digg/story/1388</link>
<comments>http://www.yeeach.com/digg/story/1388</comments>
<pubDate>Mon, 02 Feb 2009 06:31:26 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1388</guid>
<description><![CDATA[ 搜索方便我们的生活，而实际上，它还在记录我们的生活。比如，在大年初五浏览谷歌&amp;ldquo;热榜&amp;rdquo;，你会发现最热门的搜索关键词是&amp;ldquo;初五迎财神&amp;rdquo;，搜索与民俗就这样达成了默契。或者，与之相对应的，在这个轻松的长假，&amp;ldquo;春晚、魔术&amp;rdquo;这个关键词一直高居搜索前列，因为大家一直对晚会上鸡蛋里变戒指的神奇魔术念念不忘。  今天的网页搜索深刻地植入每一个人的生活。它通常很轻松，比如搜搜&amp;ldquo;小沈阳&amp;rdquo;；有时很急迫，比如去年的&amp;ldquo;不合格奶粉名单&amp;rdquo;。只有在特别的情况下，搜索引擎才会与大家的生活无关&amp;mdash;&amp;mdash;国家哀悼日，我们看到 www.google.cn 的搜索在默哀三分钟的时候与中<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[百度赚钱的最新4个动作：贩卖流量与整合产品 分享]]></title>
<link>http://www.yeeach.com/digg/story/1385</link>
<comments>http://www.yeeach.com/digg/story/1385</comments>
<pubDate>Mon, 02 Feb 2009 06:31:26 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1385</guid>
<description><![CDATA[有关百度有4个最新的值得关注的动向，四点概括为两个类：贩卖流量与整合产品。 一、据Kissbaidu报道，百度日本之窗已于近日上线。登陆网站看了看，这是一个外包出去的、贩卖流量的购物频道，典型的坐收租子和地皮费的生意。绝不是某媒体报道的百度日本试水电子商务。一个外包给某网站的购物频道，明明是在大陆让别人卖日本货，怎么能和试水电子商务扯上关系&amp;hellip;&amp;hellip; <br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[齐宁：搜索引擎知识 网页查重技术]]></title>
<link>http://www.yeeach.com/digg/story/1357</link>
<comments>http://www.yeeach.com/digg/story/1357</comments>
<pubDate>Sun, 01 Feb 2009 04:34:12 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1357</guid>
<description><![CDATA[对于搜索引擎来说，重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库 里索引两份相同的网页。当有人查询时，在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。 &amp;nbsp; 网页查重技术起源于复制检测技术，即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。 &amp;nbsp; 1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具，寻找相似文件。1995年Stanford大学的 Brin(Sergey Brin，Google创始人之一)和Garcia-Molina等人在&amp;ldquo;数字图书观&amp;rdquo;工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995]。之后这种检测重复技术被应用到搜索引擎中，基本的核心技术既比较相似。 &amp;nbsp; 网页和简单的文档不同，网页的特殊属性具有内容<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[网络搜索智能化]]></title>
<link>http://www.yeeach.com/digg/story/1380</link>
<comments>http://www.yeeach.com/digg/story/1380</comments>
<pubDate>Sun, 01 Feb 2009 04:34:11 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1380</guid>
<description><![CDATA[是最令人沮丧的事了。网路搜索巨头谷歌对此自然是心中有数，他们很清楚，如果老是搜索不到预期的结果，用户也许就会感到烦躁而改用其他搜索引擎。本 周我试用了两款免费工具：谷歌公司的SearchWiki和Surf Canyon Inc.公司的Surf Canyon网页流览工具，这两款工具都能根据用户对搜索结果的操作做出相应的调整，使得后续的搜索结果更接近用户的预期。这两款工具彼此之间并无冲突， 甚至可以结合在一起使用。不过，在输入搜索条件后，SearchWiki还需要用户再做一些额外的工作，很多人也许不见得会乐意。而Surf Canyon则会根据用户对搜索结果所做操作自动将结果归类。使用SearchWiki搜索，用户必须自己将搜索结果依照自己的合意程度进行排列，越合意的越靠前。登录谷歌帐户的多数用户都可以使用SearchWiki，下一次用户进<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[阿拉丁神灯摸三下]]></title>
<link>http://www.yeeach.com/digg/story/1147</link>
<comments>http://www.yeeach.com/digg/story/1147</comments>
<pubDate>Sat, 20 Dec 2008 07:52:42 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1147</guid>
<description><![CDATA[百度高调推出的阿拉丁计划看似一个技术平台，其实质却比较像是营销秀。在CCAV羞辱了百度的竞价假结果之后，百度的商业模式一直受到质疑。现在既需要给网民一个交代，更重要的是也要给购买了竞价排名的商家一个交代，这分明是一个两难。既然从商业模式上已经无法自洽，只好在产品上做文章。广告放左边还是右边，注明是广告还是冒充一个结果，这些产品细节改起来很容易，但商家肯定不干。那么，现在推一个全新的阿拉丁平台，该是什么样的表现模式，是新的平台所决定的，这个新的平台不但能够给网民更好的搜索体验，把网络的黑暗面也全部搜出来，同时对于商家的展示也更加有利，实验证明了阿拉丁平台的展示模式使有效点击率上升了0.001%□□□□□（此处删除3000字）。&amp;nbsp;再者，转移注意力永远是危机公关的秘密武器，大家都来体验新的搜索平台，哪里还有什么注意力会去翻古代早已经OUT了多少世纪的搜索公正性问题。李一男这个低调的明星也难得地出来曝光，由这个技术天才来宣告一项全新的搜索技术，这完全满足了媒体的所有嗜好。有明星，有热点，有高科技，遗憾的是没有美女，当时没有顺便秀一下上海研发中心的前台，是个败<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[垂直搜索的归宿]]></title>
<link>http://www.yeeach.com/digg/story/1067</link>
<comments>http://www.yeeach.com/digg/story/1067</comments>
<pubDate>Fri, 05 Dec 2008 07:56:02 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1067</guid>
<description><![CDATA[早几年的互联网，大约是2005年的时候，垂直搜索引擎着实火了一把，那个时候百度爆发出了巨大的能量，业内都看到了搜索的威力，于是垂直搜索成为了投资界的宠儿。不只是酷讯的火车票搜索，房产类、汽车类、求职招聘类的、各行各业都大量涌现出来，可以说垂直搜索百花齐放。 &amp;nbsp;&amp;nbsp;&amp;nbsp; 而时间过去了3年，到现在2008年底，垂直搜索引擎并没有出现井喷的现象。而业内比较有名的酷讯，其两位创始人都离职了，垂直搜索可以说已经基本走到了尽头。究其原因，王英雄认为有以下几点： 1、大搜索已经可以完成大部分的事情，而垂直搜索的优势没有体现。 2、垂直搜索引擎面临的行业过窄。行业的用户有限、并没有出现行业的集聚效应。 3、垂直搜索引擎商业价值不容易体现，像百度、google这样的搜索引擎，他所面临的是多行业，所以他们的长尾理论发挥了效应。而行业搜索体现的太窄。 4、垂直搜索大部分面临者在前有狼群，后有虎豹的格局。前有狼群指的是专业门户在做更精细化的服务；后有虎豹指的是百度这样的通用搜索的吸取大量的网站流量。 &amp;nb<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[高效知识聚类的E-book系统]]></title>
<link>http://www.yeeach.com/digg/story/1025</link>
<comments>http://www.yeeach.com/digg/story/1025</comments>
<pubDate>Sun, 02 Nov 2008 02:53:15 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1025</guid>
<description><![CDATA[当今IT产业迅猛发展，信息流量急速增加，对于从事IT技术的新手来讲，如何快速、准备地获取自己想要的信息是一个亟待解决的&amp;ldquo;信息饥荒&amp;rdquo;问题。&amp;ldquo;高效知识聚类的E-book系统&amp;rdquo;是面向所有希望学习知识和共享知识的学生和工作人员编写的免费网络产品。E-book旨在通过整合用户上传的图书，结合优秀简洁的推荐算法为广大用户推荐自己最需要的优秀图书；结合先进的Web2.0技术，为大家提供一个友好便捷的知识搜索平台。同时通过论坛的管理宣传、手机订阅、邮箱推荐来推广某些优秀图书，增进网友之间的技术交流，增强知识和技能的传播与应用。<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[想开发搜索的人必读的文章]]></title>
<link>http://www.yeeach.com/digg/story/1024</link>
<comments>http://www.yeeach.com/digg/story/1024</comments>
<pubDate>Sun, 02 Nov 2008 02:53:15 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/1024</guid>
<description><![CDATA[其实搜索的这个核心就是分词与PageRank算法，择日和大家讨论具体的实现，依靠PR算法，sogou 3.0的搜索结果相当不错，如果融入人工智能、数据挖掘自然语言理解等最新信息技术成果的搜索引擎，将会给用户带来了一种方便、易用、灵活的检索方式，为用户提供的是详实、准确、直接的信息。 <br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[地方信息搜索为地方报业带来商机]]></title>
<link>http://www.yeeach.com/digg/story/963</link>
<comments>http://www.yeeach.com/digg/story/963</comments>
<pubDate>Mon, 06 Oct 2008 05:29:17 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/963</guid>
<description><![CDATA[阿尔&amp;middot;罗迪承认他对互联网了解不多。但是这位来自马萨诸塞州的电动器材供应商，却知道人们是如何发现其网上店铺的&amp;mdash;&amp;mdash;顾客发现他的网店并不是靠在谷 歌（google）上输入&amp;ldquo;罗迪动力服务&amp;rdquo;，然后点击&amp;ldquo;我觉得很幸运&amp;rdquo;按钮。地方报纸网站的本地商业链接是架起&amp;ldquo;罗迪动力&amp;rdquo;与谷歌搜索之间的桥梁。 　　当他通过互联网销售了一种工具而被网站评级为&amp;ldquo;最佳交易&amp;rdquo;之后，他的网店在从谷歌到雅虎、到由纽约&amp;ldquo;警卫传媒公司&amp;rdquo;提供的地方零售搜索引擎中的排名一下子升到了前面。&amp;ldquo;人们会在线搜索那种产品，&amp;rdquo;罗迪说，他的公司的口号是&amp;ldquo;真正的男人购买他们的工具的地方&amp;rdquo;。<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[科技博客TechCrunch：谷歌Gears前景展望]]></title>
<link>http://www.yeeach.com/digg/story/962</link>
<comments>http://www.yeeach.com/digg/story/962</comments>
<pubDate>Mon, 06 Oct 2008 05:29:17 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/962</guid>
<description><![CDATA[　导言：很多人都对谷歌下一代网络平台Gears存在着一种的误解，人们普遍认为谷歌Gears只是增强了网络应用程序的离线功能，但事实远非如此，谷歌还有更大的野心。谷歌Gears的功能要远远超出人们的想象。著名科技博客TechCrunch日前发表了文章对谷歌Gears的现状进行了分析同时展望了其发展前景。 　　现状分析 　　自2007年5月至今，Gears已经发布了一年多。在此期间，谷歌先后发布了四个版本的Gears，每次都会增加许多新的功能。最近两次发布是在今年8月和6月。 　　Gears的主要目的让网络应用程序拥有与桌面应用程序相同的功能。为了实现这一目标，他们针对不同的操作系统（包括Windows、 Windows Mobile、Mac OS和Linux）和浏览器（火狐、Safari和IE）推出了一系列插件。而随着谷歌Chrome浏览器的发布，用户甚至可以在不安装Gears插件的 情况下使用这些功能。<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[基于统计的中文网页正文抽取的研究]]></title>
<link>http://www.yeeach.com/digg/story/883</link>
<comments>http://www.yeeach.com/digg/story/883</comments>
<pubDate>Fri, 12 Sep 2008 15:54:09 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/883</guid>
<description><![CDATA[1.引言 随着互联网信息技术的不断发展，互联网的信息 量也日益膨胀。近年来，全球因特网上的信息数据正以爆炸式的速度在增长。据IDC报告称，从现在到2010年，预计信息量将以每年57%的速度增长，在 2010年信息总量将达到988EB （1EB=10亿GB），约为2006年的6倍，相当于有史以来所有书籍数字信息量的1800万倍。面对如此巨大的互联网信息库，如何快速、有效、经济地 检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题。这时，搜索引擎的出现无疑给人们带来了极大的方便。然而，随着互联网信息的不断巨增和搜 索引擎所覆盖网页范围的不断扩大，人们发现，即使是借助<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[泰晤士报：俄罗斯搜索引擎挑战谷歌]]></title>
<link>http://www.yeeach.com/digg/story/848</link>
<comments>http://www.yeeach.com/digg/story/848</comments>
<pubDate>Thu, 28 Aug 2008 04:23:53 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/848</guid>
<description><![CDATA[　导语：《泰晤士报》25日刊文指出，俄罗斯数学家阿卡迪&amp;middot;沃罗兹(Arkady Volozh)创办的互联网搜索引擎Yandex从默默无闻到今天深受欢迎，公司市值如今在25亿英镑左右，每日独立用户访问量达800万，开始挑战谷歌全球搜索市场统治地位。 　　异军突起 挑战谷歌 　　1984年，24岁的俄罗斯数学家阿卡迪&amp;middot;沃罗兹(Arkady Volozh)第一次接触到电脑，当时整个苏联的电脑数量不过十几台。20多年过去了，沃罗兹已成为俄罗斯最受欢迎的互联网搜索引擎Yandex的CEO 和联合创始人，这家公司的市值如今在25亿英镑左右。Yandex于8年前创建，目前每日独立用户访问量达800万。 　　更令人印象深刻的是，因率领Yandex挑战互联网搜索引擎巨头谷歌的统治地位，沃罗兹广受赞誉。谷歌如今在四个国家面临严峻挑战，除了俄罗 斯，另外三个国家分别是中国、韩国和捷克。尽管谷歌依旧在全球范围内占据着统治地位，但在俄罗斯，Yandex的<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[使用 Apache Solr 实现更加灵巧的搜索，第 1 部分: 基本特性和 Solr 模式]]></title>
<link>http://www.yeeach.com/digg/story/684</link>
<comments>http://www.yeeach.com/digg/story/684</comments>
<pubDate>Sun, 27 Jul 2008 02:32:13 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/684</guid>
<description><![CDATA[Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器，它支持层面搜索、命中醒目显示和多种输出格式。在这篇分两部分的文章中，Lucene Java&amp;trade; 的提交人 Grant Ingersoll  将介绍 Solr 并向您展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。               一旦用户需要某 种信息，就可以立即搜索到这些信息，这种要求再也不是可有可无的了。随着 Google 和类似的复杂搜索引擎的出现，用户希望得到高质量的搜索结果，帮助他们快速、轻易地找到所需的信息。经理对您的在线购物站点同样抱有很高的期望，要求它能 够提供一个可伸缩、高度可用且易于维护的搜索解决方案，并且安装这个解决方案不应太昂贵。对于您而言，只是希望事业进步，让老板和客户满意，以及保持头脑 清醒。             使用 Apache Solr 可以满足所有的这些要求，它是一种开放源码的、基于 Lucene Java 的搜索服务器，易于加入到 Web 应用程序中。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[使用 Apache Solr 实现更加灵巧的搜索，第 2 部分: 用于企业的 Solr]]></title>
<link>http://www.yeeach.com/digg/story/685</link>
<comments>http://www.yeeach.com/digg/story/685</comments>
<pubDate>Sun, 27 Jul 2008 02:32:12 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/685</guid>
<description><![CDATA[在本部分中，Lucene Java&amp;trade; 的提交人 Grant Ingersoll 通过对用于企业的特性（包括管理界面、高级配置选项）以及与性能相关的特性（比如缓存、复制和日志记录）的探究，完成了对 Solr 的介绍。               在本系列的 第 1 部分， 我为您介绍了 Apache Solr，一种基于 HTTP 的开源搜索服务器，它可以很容易地与多种 Web 应用程序集成。我展示了 Solr 最基本的功能，包括索引、搜索和浏览，介绍了 Solr 模式并解释了它在配置 Solr 功能方面的作用。在本部分中，我将通过列举 Solr 作为大型生产环境中理想的解决方案时所具备的特性来完成对 Solr 的介绍。涵盖的主题包括管理、缓存、复制和可扩展性。             请参阅 第 1<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[Online indexing - integrating Nutch with Solr]]></title>
<link>http://www.yeeach.com/digg/story/629</link>
<comments>http://www.yeeach.com/digg/story/629</comments>
<pubDate>Wed, 09 Jul 2008 08:38:53 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/629</guid>
<description><![CDATA[There might be times when you would like to integrate Apache Nutch crawling with a single Apache Solr index server - for example when your collection size is limited to amount of documents that can be served by single Solr instance, or you like to do your updates on &amp;quot;live&amp;quot; index. By using Solr as your indexing server might even ease up your maintenance burden quite a bit - you would get rid of<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[实现Ajax友好的搜索引擎爬虫-jrex,gecko]]></title>
<link>http://www.yeeach.com/digg/story/527</link>
<comments>http://www.yeeach.com/digg/story/527</comments>
<pubDate>Fri, 30 May 2008 23:21:15 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/527</guid>
<description><![CDATA[现在web2.0如火如荼，Ajax技术获得了广大的运用，比如咱网易博客，搜狐博客等，仔细研究下这些网站，你会发现他们对搜索引擎很不友好，因为什么 呢，因为这些网站都使用了后加载技术，就是说是在JS里面去动态加载内容的，最典型的就是个人博客的首页，那么多模块都是后加载进来的。对于一般的搜索引 擎来说，他只会抓取网页，然后分析网页的内容，如果搜索引擎来抓个人博客的首页的话，看到的除了head区域，其他的就没有内容了，因为搜索引擎不会执行 页面。 这样就提出了一个问题，怎么实现Ajax友好的爬虫呢，就是说虽然我这个网站引用了Ajax实现了后加载技术，也照样可以抓取我的内容。 可能大家有个疑问，既然这样，为什么在google百度，还能搜到我的日志内容呢，那是因为网易博客的日志页面是使用了静态页面的技术，日志的内容都在网 页内呢，呵呵，另外还有每个博客都有RSS地址，搜索引擎可以通过爬取RSS来获得内容。 &amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;如何爬取后加载的网页呢，简单点说我们爬取的网页应该是像firefox中的view genernated Source这<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[Nutch距离一个商业应用的搜索引擎还有多远]]></title>
<link>http://www.yeeach.com/digg/story/518</link>
<comments>http://www.yeeach.com/digg/story/518</comments>
<pubDate>Fri, 16 May 2008 08:28:00 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/518</guid>
<description><![CDATA[了解nutch的人基本上对这个开源的系统都是比较欣赏的，起码在国内是这样的，也很有多搜索网站是基于这个系统修改过来的，不过要做得好，做得真正是一个商业化的搜索，这个修改就不是一朝一夕的事情，也不是修修剪剪那么简单了。      作为一个通用的全网级别的搜索引擎架构，nutch(lucene)确实为广大人民群众提供了一块大大的蛋糕，为进入搜索这个行业大大降低了门槛。那么它距商业的搜索到底有多远呢？以我的个人观点来谈一下。<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[Scraping the web for fun and profit]]></title>
<link>http://www.yeeach.com/digg/story/524</link>
<comments>http://www.yeeach.com/digg/story/524</comments>
<pubDate>Fri, 16 May 2008 08:27:59 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/524</guid>
<description><![CDATA[ 				Crawling and scraping rarely get discussed in a security context because everyone is too busy creating cute mashups and messaging their MySpace friends. I recently read Webbots, Spiders, and Screen Scrapers from NoStarch Press.&amp;nbsp; The author uses PHP-CURL for all his examples, and provides interesting ideas for scrapers.&amp;nbsp; Most of these ideas can be <br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[Is Nutch appropriate for aggregation-type vertical search?]]></title>
<link>http://www.yeeach.com/digg/story/522</link>
<comments>http://www.yeeach.com/digg/story/522</comments>
<pubDate>Fri, 16 May 2008 08:27:59 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/522</guid>
<description><![CDATA[I get pinged all the time by people who tell me they want to build a vertical search engine with Nutch. The part I can&amp;rsquo;t figure out, though, is why Nutch? What&amp;rsquo;s vertical anyway? So let&amp;rsquo;s start from basics. Vertical search engines typically fall into 2 categories:  Whole-web search engines which selectively crawl the Internet for webpages re<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[Scraping Dynamic Websites Using JRuby and HtmlUnit]]></title>
<link>http://www.yeeach.com/digg/story/521</link>
<comments>http://www.yeeach.com/digg/story/521</comments>
<pubDate>Fri, 16 May 2008 08:27:59 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/521</guid>
<description><![CDATA[Scraping static web sites to verify functionality or to access data has been around as long as there has been a web (example of scraping of a static web&amp;nbsp;page with Ruby).&amp;nbsp; But with the advent of AJAX and other techniques that use JavaScript to dynamically insert HTML into a web page, scraping has gotten more challenging.<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[Hello, World! With Compass]]></title>
<link>http://www.yeeach.com/digg/story/444</link>
<comments>http://www.yeeach.com/digg/story/444</comments>
<pubDate>Sat, 05 Apr 2008 05:59:55 PDT</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/444</guid>
<description><![CDATA[In the I.T. world, we always start learning something in the same way, whether it is a language or a framework, the first thing we see is that Hello, World example. Compass is no different. In this tutorial we are going to do something very simple with the Compass framework. First of all we are going to configure Compass and our domain objects, we will see what an index is, and finally <br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[3 Top Programmer Professional Societies | The KnightKnetwork]]></title>
<link>http://www.yeeach.com/digg/story/356</link>
<comments>http://www.yeeach.com/digg/story/356</comments>
<pubDate>Thu, 06 Mar 2008 05:36:50 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/356</guid>
<description><![CDATA[IEEE Computer SocietyAssociation for Computing MachineryComputer Professionals for Social Responsibility If you are a programmer and are looking for a good programmer communi<br/><br/>1 投票人数 ]]></description>
</item>

<item>
<title><![CDATA[5 Great Code Search Engines! | The KnightKnetwork]]></title>
<link>http://www.yeeach.com/digg/story/355</link>
<comments>http://www.yeeach.com/digg/story/355</comments>
<pubDate>Thu, 06 Mar 2008 05:36:50 PST</pubDate>
<dc:creator></dc:creator>
<category>web2.0-搜索引擎</category>
<guid>http://www.yeeach.com/digg/story/355</guid>
<description><![CDATA[Happy Programmer Day! Are you still writing your own code or flailing around on Google to find a sample or snippet you need? Well kick back, relax and check out these great tools for finding code. Work smarter not harder! Krugle: Krugle is very impressive as a code search tool, it adds a touch of social aspect and allows searching for projects and tech pages as well as just code. Added t<br/><br/>1 投票人数 ]]></description>
</item>

</channel>
</rss>
