一、三种搜索引擎的概况
(一)Google 是由斯坦福大学计算机科学系LarryPage 和Sergey Brine博士于1998 年创建。支持30 多种语言检索,包括中文简体和繁体, 并有中文Google网页。当输入检索词后, Google每次可以检索30 多亿个网页, 从众多的网页中选取与检索式匹配的链接, 检索效率极高。Google富于创新的搜索技术和典雅的用户截面设计使Google 从当今的第一代搜索引擎中脱颖而出。2000 年9 月, Google开启中文搜索服务, 2004 年8 月在纳斯达克市, 开创了第二代搜索引擎技术。许多权威机构都将其评为最佳搜索引擎。
(二)百度是中国的两位海外留学生李彦宏和徐勇博士创建的中文搜索引擎, 它拥有目前世界上最大的中文信息库, 总量达到1 亿2千万页以上, 并且还在以每天几十万页的速度快速增长。2000 年1 月, 百度公司在中国成立了他的全资子公司百度网络技术( 北京)有限公司, 随后于同年10 月成立了深圳分公司, 2001 年6 月又在上海成立了上海办事处。2005年百度在美国纳斯达克上市,成为当年全球资本市场上最为引人注目的上市公司, 百度由此进入一个崭新的发展阶段。
(三)雅虎中国是网站分类目录导航的领头军, 它以分类目录、网站检索为主, 附带网页全文检索,也是目前最重要的搜索服务网站。雅虎有中文、英文等10余种语言版本, 每一版的内容互不一样。可以说,每一种不同的版本都是一种不同的、相对独立的搜索引擎。
二、Google、百度和雅虎中国的对比
(一)信息搜集方式比较
搜索引擎对网络信息资源的搜集方式有自动、人工和人工自动相结合三种。另外根据搜索时是否要依据相关主题内容分类,又分为一般搜索和分类主题搜索。百度是最典型的一种自动搜索引擎, Google 是一般典型的自动搜索引擎。它们是由一个称为蜘蛛(Spider) 的机器人程序, 由四部分组成的自动索引,以某种策略在互联网中搜集和发现信息, 然后由索引器把搜集到的信息建立索引,根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该搜索引擎的优点是信息量大、更新及时、不需要人的预, 缺点是搜到信息过多,许多无用信息需要用户从结果中筛选。雅虎是目录式搜索引擎, 它以人工方式或半自动方式搜集信息, 由编辑员查看信息,然后人工形成摘要信息, 并把信息放在事先准备的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因加入了人的智力, 所以信息准确、导航质量非常高,不足之处是需要人的介入、维护量大、信息量少、信息更新不及时。
(二)检索功能
检索功能的强弱是评价搜索引擎功能的一个很重要的指标。搜索引擎检索功能的评价指标主要包括:基本检索、高级检索、目录式浏览检索和其他功能检索。本文将选取其中最具代表性的指标以图标
形式进行比较如下:
检索功能比较
中文Google | 百度 | 中文雅虎 | |
检索方法 | 关键词检索,支持二次检索,全文检索 | 关键词检索,支持二次检索,全文检索 | 关键词检索,分类目录检索 |
逻辑检索检索符 | 与,或,非,空格 | 与,或,非,空格 | 否,或 |
精确检索 | 支持(用双引号) | 支持 | 支持 |
截词检索 | 支持 | 不支持 | 支持 |
限制检索 | 限制网域或网站,限制文件类型,限制检索语 种,限制网页更新时间,向某一网站的链接 | 限制网域或网站,指向某一网站的链接 | 在关键词前加“t”搜索 的是网站,加“u”搜索的 是网址 |
扩检功能 | 类似网页检索,网页类 别检索 | 提供网站中的更多内容 | 网址链接、文摘、网页快 照和类似网页 |
区分大小写(英语) | 字母无大小写之分,默认为小写 | 字母无大小写之分,默认为小写 | 不区分 |
语种限制 | 132种语言,包括简体 中文和繁体中文 | 中文(简/繁体) | 英文、中文、法文、德文、 俄文、韩文等38种语言 |
(三)检索结果
检索结果的显示内容与检索界面是否友好也是评价搜索引擎性能的重要指标。检索结果包括相关性排序、显示内容。
(1)相关性排序。Google 的检索结果按相关性由大到小排序输出, 其 相关性判断依据的是检索词在网页中的出现词频、位置,另外一个重要的依据是通过与该网页链接的网页与检索词的匹配程度来判断其相关度大小。百度采用了词频统计、超链分析和竞价排名相结合的方式对网页进行相关性评价,能够比较客观地分析网页所包含的信息, 从而在一定程度上保证了检索结果的相关性。雅虎检索结果的相关性按其相关度计算,一般的检索工具是通过计算检索词在每个结果中出现次数和出现位置来计算相关度的。对用户来说, 只要把网页本身优化好, 就能在Yahoo中取得很好的排名。
(2)显示内容。Google 搜索结果显示网页标题、内容简介、链接(URL) 及网页条目数,匹配的关键词以粗体显示。百度检索结果的输出除了显示网页标题、内容简介、链接和网页条目数外,还有日前显示、相关搜索显示、这样可以提高用户检全率。雅虎的检索结果显示包括网页属性, 如标题、网址、大小、摘要,并突出用户的查询字符串, 便于用户判断是否阅读原文。此外, 还包含快速链接, 网页快照。
(四)功能比较
(1)网页搜索服务。中文简体网页搜索方面, 不论Google 还是百度, 在搜索性能和效果方面都很好, 旗鼓相当。虽然Google开发了众多的搜索功能并最早推出中文搜索, 但由于不太专注中文搜索的开发,在汉语理解、中国人搜索习惯的掌握等方面均要落后于百度。与Google 相比, 百度更专注于中文搜索, 甚至可以说只重视中文简体搜索,所以, 提供的中文搜索服务是最全面、功能和性能是经得起长时间考验的。雅虎界面简洁, 使用方法也比较简单, 你只有输入想要查找的关键字,点击雅虎搜索在不到半分钟的时间内便可以得到多达数百万项的结果。雅虎默认的设置是搜索中文结果的网页,包括简体和繁体结果。所要检索的关键字可以是词语, 也可以是短语或句子。
(2)MP3 搜索服务。Google 和百度MP3 搜索服务包括各种音频文件、Flash 和歌词专辑等服务,目前使用最多的是搜索歌曲和音乐服务。刚开始,Google 和大多数国外门户网站还未开设专业音乐搜索频道,中国的搜索引擎公司得以抓住机会。其中, 百度是开设MP3 搜索服务的最大受益者, 许多人知道百度是从搜歌开始的,而且许多坚持使用Google 的早期网民还保持一个习惯, 找网页到Google, 搜歌到百度。雅虎MP3 是雅虎的音乐搜索道,具有海量的歌曲索引数据库。雅虎独有智能搜索引擎, 用户可以根据歌名、歌手、专辑名称、歌词来搜索歌曲。在搜索框中输入歌名,然后点击“歌曲搜索”按钮, 就可以找到自己想要的歌曲, 在搜索框中输入歌手名, 然后点“击歌曲搜索”按钮,就可以找到该歌手演唱的所有歌曲。雅虎不仅能搜索中文歌曲, 还有强大的搜索欧美歌曲的能力, 拥有超过1 000万的欧美歌曲链接数据。
(3)图片搜索服务。Google 较早推出图片搜索服务, 支持GIF、JPG、PNG 等图片格式搜索, 支持黑白、全彩形式图片选择,支持大、中、小型图片选择。其搜索结果页面4×5 幅图片, 同时配有一个针对儿童的不良图片的屏蔽功能,但中文版却未提供此功能。百度图片搜索结果页面有4×6 幅图片, 其中一个比较大的特点是支持新闻图片搜索, 而且,在搜索结果页面最后一行配有最新的4 张相关新闻图片。雅虎具有全球最大的图片搜索引擎。图片搜索的方法与网页搜索大体一致,搜索得到的结果是以缩略图形式显示的, 还有简单说明,单击缩略图即可看到原始的图片及图片的来源网址。同时雅虎图片搜索还设置了“人气搜索词”“美图精品区”“绝色倾
城”等类别, 用户可根据需要直接点击查找。
(五)检索效能
所谓检索效果,就是利用检索系统开展检索服务时产生的有效效果。它衡量了检索结果对用户需求的满足程度是检索系统性能的直接反映。相关评价指标包括检全率、检准率和响应时间。百度和Google是我们经常使用的, 在使用过程中我们可以得出结论: 百度和Google 两者都能较好地解决自动去重, 由于都引入网页快照(cache、百度快照) 从服务器里直接取出缓存的网页, 巧妙地解决了搜索用户经常遇到的死链接问题。而Google 查全率明显高于百度,百度特有的高效的搜索算法和本地服务器保证最快的响应速度, 响应时间短, 在中文
检索中检准率较高。雅虎作为指南型分类检索工具, 在相对查全率方面具有优势,检索功能及相对查准率方面还不够理想。
综上所述: 我们可以看出,这三大中文搜索引擎各具千秋, 如Google 的检索功能强大、灵活, 尤其是支持多种字段检索以及网页推荐功能,并可以按用户的习惯设置检索界面; 百度收录的中文信息覆盖面广、数量大, 更新快; 注重服务的本地化; 雅虎作为指南型分类检索工具,在相对查全率方面具有优势。我们可以根据各自的生活、工作、学习的需要, 选择一种适合自己的搜索引擎, 但是现有的搜索引擎也不是尽善尽美,它们也或多或少的存在些问题, 希望它们能互相取长补短、不断丰富、完善,更好地满足用户个性化的多元检索需求。
注:此文为转载。