新媒体概论
上QQ阅读APP看书,第一时间看更新

第二节 搜索引擎

一、搜索引擎的定义

搜索引擎(Search Engine)就是指根据一定的策略,运用特定的计算机程序搜集互联网上的信息,对信息进行组织和处理,然后通过网络将处理后的信息显示给用户,是为用户提供检索服务的系统。[41]站在用户的角度,搜索引擎是一个包含搜索框的页面,用户在搜索框输入字词后,通过浏览器向搜索引擎发出搜索请求,搜索引擎会返回用户输入内容相关的信息列表。

随着互联网上的信息越来越丰富,人们逐渐“淹没”在网上信息的海洋中,无法检索到自己真正想要的内容。在浩如烟海的网络世界中,用户想找到真正有价值的信息非常困难,常常会耗费掉大量的人力物力财力,搜索引擎的兴起与人们对资源的渴望程度是成正比的,因此,搜索引擎作为适应信息服务系统新需求的系统产生,并成为用户同所需特定信息之间沟通之桥梁,发挥着重要的作用。在这种情况下,特别是在Web2.0蓬勃发展的今天,搜索引擎的形态如何变化,用户如何最大化地利用搜索引擎找到对自己真正有用的资源,甚至搜索引擎如何能够帮助用户不仅找到其想找的信息,还能帮助用户找到其暂时不知道但确实又想知道的信息资源,都成为越来越多网络用户所关心的话题。

二、搜索引擎的发展历程

搜索引擎作为一种伴随着互联网产生而出现的重要技术,可以根据网页索引技术的不同划分为若干阶段。

第一阶段,这是搜索引擎的创始阶段,计算机中所谓的“机器人”是指某个能以人类无法达到的极高速度不断重复执行某项任务的自动程序。由于专门用于检索信息的“机器人”程序像蜘蛛(Spider)一样在网络空间爬来爬去,因此,搜索引擎的“机器人”程序被称之为Spider程序。研发世界第一个蜘蛛程序的人是一位麻省理工学院的在读大学生——马修·格雷(Matthew Gray),他开发的名为万维网(World Wide Web)的蜘蛛程序目的是追踪当时不断扩张的互联网规模。基于超文本传输协议(Http)的Web技术迅速发展,使得以超链接为基本浏览手段和沟通行为的Internet初具规模,Internet信息搜寻成为用户的迫切需求,Spider也发展为搜索引擎的核心。

第二阶段,这是处于搜索引擎的早期阶段,这个时期的代表系统是1994年出现的雅虎搜索引擎。因为这时的网络信息总量不大,爬虫(Crawlers)技术也不成熟,所以这时的搜索引擎广泛地采用人工标引等技术来对网页做标注,同时,在检索时也主要依据传统的信息检索算法。

第三阶段,伴随着互联网的飞速发展,搜索引擎技术也有了很大的发展,这个时期的代表系统是1998年出现的谷歌搜索引擎。1999年2月,谷歌完成了从Alpha版至Beta版转变,因为这时的网络信息总量剧增,所以谷歌推出了以网页超链分析为基础的PageRank算法,以此来表示网页的权重,同时对检索结果按照相关度排序。这个时期国内的百度等中文搜索引擎也采用了类似的技术。[42]

三、搜索引擎的分类

(一)全文搜索引擎

全文搜索引擎是目前广泛应用的主流搜索引擎,国外具有代表性的搜索引擎是谷歌,国内则有最大中文搜索百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,当用户查询时,检索程序会根据事先建立的数据库进行查找,按一定的排列顺序返回结果。全文搜索引擎的全文检索方式分为按字检索和按词检索两种。全文搜索引擎是一种“语形”搜索,在网页内容中只要看到关键词就会全部搜索出来,搜索结果的好坏往往用数量而不是质量来衡量。这样的搜索引擎搜索范围大,搜索出的信息量大,但同时也会出现大量的无用信息。用户需要自己进一步检查、筛选,延长了实际的搜索时间,提高决策的成本。

(二)目录搜索引擎

目录搜索引擎中最具代表性的是雅虎、新浪分类目录搜索。目录搜索引擎按照用户的要求,搜集Internet的资源,将互联网上的资源服务器的地址搜集起来,按照信息类型的不同划分成不同的目录,然后在原来的大目录下再进行一层层的分类,成为更详尽的目录,用户可以按照页面所提供的目录寻找自己所想要知道的信息。

(三)垂直类搜索引擎

垂直搜索引擎是一种专业化的搜索引擎,该类搜索引擎是为了满足不同用户的不同性质的需求而形成的一类搜索引擎。它将注意力集中在某一特定的领域和特定的用户需求上,为用户提供专业、全面和有深度的服务。垂直搜索引擎的范围很广泛,专业的图片搜索、音乐搜索、房产搜索、汽车搜索、小说搜索等都有涉及。

(四)元搜索引擎

元搜索引擎被称为“搜索引擎的搜索引擎”,“元”为“总的”“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(source engine)或“搜索资源”(searching resources),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(meta-searching technique),元搜索技术是元搜索引擎的核心。元搜索引擎是用户同时登录到多个搜索引擎进行信息检索的媒介,通过一个统一用户界面帮助用户在多个搜索中选择和利用合适的搜索引擎来实现检索操作。此类搜索引擎没有自己的网页采集机制和独立的索引数据库,而是基于网络中多个搜索引擎之上,将其他的搜索引擎所查询到的信息资源进行重新排序,重新排序后反馈给用户。

(五)网盘搜索引擎

网盘搜索引擎是用户通过搜索其他用户公开分享的网盘内容来寻找自己所想要的资源的一种搜索引擎类目。用户只需在搜索框中输入具体想寻找的资源名称,网盘的搜索界面就会出现对应的该资源的条目,用户只需选择任一条目,将该资源保存到自己的云盘即可。相较于其他几种搜索引擎,网盘搜索引擎用户所寻找的资源更为“固定化”和“实体化”,即通常是找某一书籍、电影、音乐等。另外,网盘搜索引擎有时会由于出现链接失效而无法检索到的情况。国内比较著名的网盘搜索引擎是百度云搜索,即资源分享者和接收者只需要注册百度云盘,通过百度云搜索,就能在云盘里保存自己想要的资源内容。

四、知名搜索引擎

(一)百度

百度由百度网络技术有限公司于1999年年底在美国硅谷创建,是目前全球最大的中文搜索引擎。搜索方式以关键词检索为主,同时可结合分类目录限定检索范围,分为基本检索和高级检索两种,支持布尔算符和字段限制符。特设百度快照功能,供用户迅速查看每条检索结果的内容。检索时不区分英文字母的大小写,检索结果依相关度排列。根据艾瑞咨询发布的《2015年Q2中国搜索引擎市场规模200.3亿(元)》[43]中指出,2015年Q2中国搜索引擎企业市场结构中,百度占比为82.7%。可见,在中国市场,百度的市场份额占绝对优势。

(二)谷歌

谷歌是目前世界上使用率和搜索精度最高的全文搜索引擎,谷歌公司由斯坦福大学计算机科学系拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brine)博士于1998年创建,曾获50项行业大奖,其中包括三项互联网界至高名奖:Webby奖、PC World’s World Class奖和Net Award奖,是为数不多的盈利公司之一,2001年被公认为世界上功能最强大、最受欢迎的互联网搜索引擎公司。除此之外,谷歌不断研发新技术,例如,2012年谷歌公司发布的一款“拓展现实”的谷歌眼镜,其具备和智能手机类似的功能,能够通过声音控制拍照、通话、辨明方向,以及上网、处理文字信息和电邮等。不过,尽管谷歌不断推出各种各样新式的项目,不得不承认的是其搜索业务仍是谷歌的基石。2015年10月,谷歌母公司Alphabet搜索业务主管艾米特·辛格尔(Amit Singhal)在Re/code移动大会上表示,谷歌全球移动设备搜索次数已在今夏首次超过PC搜索次数,但辛格尔称这些数据并未包含平板电脑上的搜索次数。[44]

(三)雅虎(Yahoo!)

雅虎是于1994年4月,斯坦福大学的两名博士生大卫·David Filo和美籍华人杨致远(Jerry Yang)共同创办的,最初放在斯坦福大学的一台服务器上,许多用户都纷纷进入斯坦福大学的校园网使用雅虎,造成了流量的压力。之后杨致远和David Filo放弃学业,融资后携手成立了雅虎公司。雅虎一进入市场就获得了巨大的成功,因为雅虎的实用性、高效性和导航能力,可帮助用户最大限度地挖掘可用资源。然而,互联网的时代瞬息万变,雅虎!战略方向不明晰,创新性不足,仍选择沿用旧有方式,使得市场份额不断被各大新出现的同类产品蚕食。2012年5月,阿里巴巴集团与雅虎联合宣布,双方已就股权回购一事签署最终协议。

五、搜索引擎的未来发展

(一)移动搜索模式的崛起

艾瑞咨询在2015年3月发布的数据显示,2014年中国搜索引擎市场规模599.6亿元,同比增长51.9%,预计到2018年市场规模将达到1676.4亿元,艾瑞分析认为,2014年中国搜索引擎企业收入增长的最大动力是来自于移动端收入的增长,2014年搜索企业收入规模相较于2013年增长了205.0亿元,其中来自移动端的增长贡献率占到55.2%。[45]由数据可见,移动端的搜索模式已成为新的盈利点。无独有偶,2015年10月,谷歌母公司Alphabet搜索业务主管艾米特·辛格尔(Amit Singhal)在加州半月湾(Half Moon Bay)召开的Re/code移动大会时说道,从手机到平板电脑再到汽车乃至可穿戴设备等新型设备意味着市场需要新的搜索方式。[46]传统的搜索方式是用户在搜索框内输入关键字进行的,而移动搜索则可以采用诸如二维码搜索和语音搜索,根据CNNIC《2013年中国搜索引擎市场研究报告》显示,使用二维码扫描输入和语音输入进行搜索的网民比例大幅度上升。其中,使用二维码扫描输入进行搜索的手机网民比例上升了17.2个百分点,使用过语音输入进行搜索的手机网民比例上升了9.4个百分点。[47]

移动设备的迅猛发展,使得移动搜索模式迅速崛起,用户渐渐不再像过去那样进行信息的检索,而移动设备的各类APP应用已开始满足用户的个性化需求,加之人们花费在手机上的时间越来越多,移动行为本身就是以应用为基础,人们逐渐减少对传统搜索功能的使用,转而更倾向于移动端搜索。

(二)垂直搜索与站内搜索

垂直搜索就是针对不同行业和领域进行的专业搜索,如用户想查找相关的旅游信息和旅游攻略,不同品牌的笔记本电脑性能和价格等,都可以通过垂直搜索获得相应的信息,所以垂直搜索提供的是针对用户某一特定需求的专、精、深的信息内容。其特色在于专注某一细分行业,个性鲜明,容易树立自己的品牌,提升用户的忠诚度。

站内搜索一般置于网站首页的醒目位置。其搜索与谷歌和百度的不同之处在于它的搜索范围控制在本网站内。在专业网站的长期经营中,数据积累越来越多,信息量不断扩大,如果按照网站自设的目录来层层查找一份文件,会冗长而耗时,如果网站购买专业搜索引擎来增加自身服务功能,既能便于用户迅捷有效地进行信息搜索,又能形成自身的特色化优势。

例如,Vurb就是一款基于网页端和移动端的内容搜索引擎,它的目标是通过向用户提供相关性更强的信息来改善移动网页浏览体验。如果使用Vurb搜索电影,它会在一个页面上展示附近上映的所有电影。点选相关电影后,用户可以看到来自多家评分网站的电影评分数据、是否在流媒体网站提供资源、附近上映这部影片的影院有哪些、影院的排片情况等一系列信息,用户甚至还能直接看到去影院的路径导航等。[48]除此之外,Vurb对搜索引擎的另一个改革之处在于Vurb增添了短信功能,可购物,叫车和付费,并且用户能够与朋友分享信息,将传统搜索引擎整合并融入现代的社交分享因素,满足人们发现及分享的需求。总体来说,Vurb做的事是将目前互联网上已有的数据进行再一次的归纳整合,相当于一个面向全网的垂直搜索,并且做到了将这些数据进行高度匹配,再在一个页面上进行呈现。

(三)博客式(微博式)搜索引擎

如今微博、博客已成为许多人进行知识的分享,信息的传播和交流的平台,微博上的信息知识呈现系统化态势,涵盖了各类有价值的网络资源供人们搜索和阅览。随着博客用户和博客数量的迅猛增长,必然要求有一种专门的检索工具帮助用户快速获取来自于博客、微博中的信息。

博客搜索引擎和传统搜索引擎的不同表现在:传统搜索引擎所建立的索引是全文索引,而博客搜索引擎除了可以自动扫描跟踪互联网上数千万个较常更新的博客站点之外,还可以提交自己的博客链接,在工作原理上增加了被动接受的成分,扩大了检索覆盖的资源,信息的更新也更为及时;传统搜索引擎的服务方式是面向网页的全文检索服务,而博客搜索引擎向用户提供的则是博客网页,在检索内容上将更加全面新颖,相关主题的内容也更加集中;传统搜索引擎多采用关键词检索方式,搜索引擎中的检索模块则是根据关键词进行查询匹配的,博客搜索引擎除了关键词检索方式外,还提供浏览检索的方式。