在中文信息检索领域中,缺乏大规模测试数据集是制约我们研究和技术发展的重要因素。参考TREC多年的成功经验,本届SEWM2004会议开始包含一个中文Web检索竞赛项目。我们希望为这个领域的研究人员,用户,企业提供一个交流的机会,希望在国内外各个研究小组的共同参与下建立并完善以中文为主的Web测试集CWT100g(Chinese Web Test collection with 100GB web pages),一起推动中文Web信息检索技术的发展。依据TREC在Web Search评测方面多年的成功经验,主题提取(topicdistillation)和导航搜索(homepage/named page search)能够较好反映WebSearch中用户搜索需求,是现在评估Web Search系统的主要内容[1]。本届SEWM-2004中文Web检索竞赛基本参照TREC-2003 Web Track的模式[2][3]。包含两个具体目标:
文档集,根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页,包括网页内容和Web服务器返回的信息,容量为90GB。其中每个网页对应的服务器返回信息中的MIME类型都是text/html或者text/plain。
主题提取目的是对于一个特定主题发现一组关键资源。在今年的任务中我们将只注重以站点作为资源的查询。要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站首页面表示)。
被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断是否一个好的首页面,考查三个方面:
将根据在前十个结果(通常在的Web搜索系统返回的第一个页面)中有几个正确的答案来判断系统的性能。使用前10个结果的精确率和前10个结果的平均精确率(P@10)来评判。
用户有时候会用名称来查询特定的网页。在这种情况下,一个有效的搜索系统将在第一个或前几个返回结果中给出那个网页。
今年的任务包括两个任务的组合:主页查询和指定页面查询。这两种情况下,查询结果只有一个并且用户的查询需求常常是页面的名称。不同的是主页查询的目标是一个特定的主页,而指定页面查询所找到的可以不是一个主页,而是满足用户需求的特定页面。例如,主页查询时,查询词“内蒙古民族大学”对应的查询结果是“”;而指定页面查询时,查询词“2001年中国十大并购人物”对应的查询结果是“”。一些查询/排序策略对两种类型的查询都有效,而有的只对其中一种有效。我们提供混和的查询集合。评判为:判断参与者返回文档的URL是否为最初选定文档的URL。当然,如果页面有两个不同的URL,那么这两个都将被认为是正确的答案。通过第一个正确答案的位置对系统进行比较。以第一个正确答案出现位置的倒数平均值(MRR)为评估准则。在这项工作中,不允许人工的或者交互的修改查询。
主题提取:提交5组运行结果。对于每个查询,列出结果不超过1000个。主页/指定网页查询:提交5组运行结果。对于每个查询,列出结果不超过50个。结果的格式如下(一个结果一行):
3) 我们针对每个任务,接受每个参赛队的5组正式提交结果,但是否能够全部被评测依赖于提交数目、重叠度和可获得的判断资源。希望对于每个任务(主题提取和两个主页/指定网页查询), 每个参赛队提交的运行结果中有2组被评估。
6) 评估是基于文档内容完成的,此外,文档的URL也是评估的依据。特别的,对于主题提取,文档中包含的链接(特别是在同一个网站上)所指向的文档也是评估的依据。

