美国知名投资银行Bancorp Piper Jaffray的数据显示,2004年的全球收费搜索服务市场的规模约为29亿美元,接近整个网络广告市场25%的销售额,未来4年里,搜索市场每年将以35%的速度增长,到2007年,全球搜索市场的规模将达到70亿美元。iResearch也做出了几乎一致的预测。

  最近的调查显示,“利用搜索工具获取有用信息”业已成为互联网用户的上网的第二大选择,仅次于使用电子邮件。那么,是不是可以说,互联网搜索技术与应用、商业模式与用户需求已然臻于成熟了呢?答案是否定的。

  事实上,自上个世纪末至今,在互联网数据搜索与挖掘技术领域尚未出现那种足以彻底刷新用户体验的“革命性创新”。尽管当前网络搜索领域的竞争格局相对稳定,但在不久的将来,新技术将可能从根本上改变产业的发展趋向。

  超链接分析技术已成昨日黄花

  搜索引擎技术发展至今,不少实力强大的公司投身于互联网搜索领域,以各异的技术思路期望达到相近的目标,使互联网数据搜索的范围更广阔、数据定位更准确、用户应用更简便。

  为用户提供目录式搜索分类服务的第一代互联网搜索引擎,诞生于20世纪90年代初。

  1994年春,杨致远和大卫·费罗建立了自己的网络指南信息库,不久,他们又将“信息库”升级为允许用户自定制的“数据库”。经由这样的“搜索门户”,用户可以查询到科技、文化、政治、经济等各方面的信息。因此,一直被互联网上的庞杂信息所困扰着的用户得到了解放,而雅虎公司也获得了宝贵的发展动力。今天,雅虎已经是全球第一互联网公司,在门户网站及通信、电子商务等方面处于领先地位。

  以人工目录分类为基础的网站搜索开辟了一个时代,淬炼出了开启互联网海量信息宝库的钥匙。但随着互联网所承载的信息资源规模迅速扩展,第一代搜索引擎很快便无法满足人们查找信息的需要,于是,第二代搜索引擎应运而生。它是以超链分析技术为基础的大规模网页搜索,可根据“关键词”的分布情况对页面进行分类和排序,并尽可能优先呈现那些“重要的”结果。在这一领域的技术先驱包括Overture、Inktomi和AltaVista等公司。但是,因提供这种基于新技术的搜索服务而在世界范围内大获成功的企业却只有Google。

  凭借其“页面重要性分析”(PageRank)技术,还有成功的商业运作,Google避开了AltaVista等互联网搜索业务先驱者纷纷被收购的覆辙(Overture被雅虎收购),一跃而成为全球互联网公司的佼佼者。

  与第一代搜索引擎相比,第二代搜索工具能够为用户提供更广阔的搜索范围和更准确的结果,但这距离“完美的用户体验”依然很远。

  即便是结合了IR Score和PageRank网页重要性评估,今天的搜索引擎仍不足以满足日渐复杂的用户需求。

  例如,以页面文本为单位的数据搜索仍不够精确,如果把文本视作一维信号,那么网页所提供的则是有组织的二维信号。任何一个网页上的某些区块(像文章标题与内容区、图片及注释区、相关链接区)的重要性都要比其他一些区块(像广告链接区、网站信息区)高得多,而现有的搜索技术无法对此实现智能辨析,进而为用户提供更准确的查询结果。

  再如,PageRank是根据搜索引擎所“认定”的页面特性来区分网页的重要性,由此形成的“网页等级”往往不尽合理。当搜索引擎以链接指向的数量以及包含链接的网页的“重要性指数”作为某个网页重要与否的依据,肯定会遗漏或“轻视”一些可能对用户至关重要的网页及信息。而且,个别网站也可以通过作弊来改变页面的优先级。

  用户的反馈也证实了这一点。据CNNIC的报告,关于“在互联网上查询信息时遇到的最大问题”,四成以上的用户认为是“重复信息太多”,近三成用户认为“信息太陈旧、更新缓慢”,另外还有不少用户认为“查到的有用信息太少”或“信息查找不太方便”。

  换句话说,以超链分析技术为基础的第二代搜索引擎已成“昨日黄花”,网络搜索业的巨头们正在竞相对“第三代互联网搜索”展开研发。