驭繁于简的智能化搜索引擎将为用户带来更多的便捷体验。例如,新的购物引擎能够实时抓取电子商务网站页面的结构化信息,经分析和重组后在搜索结果中发布。下面分别介绍一下我们在搜索领域最新的十个研究成果。

  1. 音频/视频搜索

  在10年以内,个人电脑、电视和移动设备将不再是各自独立的设备。人们将会在互联网上观看视频,而互联网将成为一个巨大的电视节目库,包含了从主流媒体到终端用户所创建的各种内容。那个时候,视频搜索引擎将成为发现节目内容的主要方式。今天,大多数的视频搜索引擎技术仍然依赖于人工生成的文字信息对节目进行描述,如互联网网页上视频链接周围的文字信息。而在未来,用于语音识别和信息检索的最新的音频/视频搜索技术将大规模使用,可以通过直接搜索音频内容来找到所需的音频和视频。

  2. 企业内部网络搜索

  微软亚洲研究院和微软SharePoint Search组共同开发了一个Information Desk。这是关于企业内部网搜索的一个研究原型系统,现在已在微软企业内部网试用。Information Desk能自动地从网站中的文件中抽取领域信息和文件元数据。领域信息包括定义、缩写和主页;文件元数据则包括标题、作者以及关键词。文件格式有Word、PowerPoint和HTML等。Information Desk能利用抽取的信息帮助SharePoint用户搜索企业内部网信息,为用户提供更好的服务。它还能解答诸如“这是什么”、“这个产品组主页在哪里”,以及“谁了解这项技术”之类的问题。目前在微软内部网做实验,索引了4千万个以上的文件。这些技术以统计学习技术为基础,能够便捷地应用于其他领域。

  3. 学术搜索

  学术搜索引擎可用来获取在计算机科学领域内的各种关于论文、科学家、会议、期刊和学术兴趣圈的信息。与传统的页面级搜索引擎相比,学术搜索引擎使得对象级别的信息查询成为可能。它可以帮你:找到一个学术领域内的顶尖科学家,会议和期刊;了解一个学术兴趣圈的兴起与发展;更准确地找到你感兴趣的论文;发现正在崛起的学术之星和开始流行的论文。

  4. 图像搜索结果聚类

  搜索结果聚类技术可以对搜索引擎的查询结果进行在线分组,并为这些分组选取合适的名称。该技术把传统的搜索结果表达方式变得更加易于浏览。常规的聚类算法并不适合这个应用,因为搜索引擎反馈回的摘要比较短小,而且一般的聚类算法运算复杂度较高且难以实现实时计算。我们开发的技术从另一个角度解决了这个问题,基本做法是,首先找到典型的独立主题,然后再把已有的搜索结果按照一定规则分配到这些主题之下,从而实现了层次化的浏览界面。

  5. 移动搜索

  使用具有网页浏览功能的移动设备可以直接访问目前的搜索引擎。但是在这些设备上,信息并不像在桌面计算机上那样易于访问。我们通过计算,分析出网页中每个部分的功能或其重要性,然后提取并显示更加精炼的搜索结果。基于这样的网页分块和分类,我们设计了三种不同的显示模式。实验发现,这样可以帮助用户更加高效地浏览搜索结果。