欢迎你加入百度网页搜索质量评估团队,作为百度搜索质量评测员,在接下来的日子里,你会参加众多类型的评测任务。本文主要介绍“Query-Url质量评估”的评估指南说明。
请你接下来花些时间仔细阅读如下内容,这将非常有助于你完成“query-url质量评估”的评测任务。同时,“Query-Url质量评估”是其他众多评测任务的基础,做好该评测类型也将有助于你很好完成其他类型评测任务。
浏览器是我们工作中最基本的软件。为了保证你正常的工作,请使用firefox浏览器,并且一般升级到最新的版本。可从此处下载:
但因为firefox对某些页面支持不够好,导致页面内容异常,如遇此情况请更换IE浏览器查看。常见的Firefox支持不够好的页面包括音乐播放页、视频播放页、软件下载页等。如下几个例子:
在评估中,你需要浏览打开各种各样的url网页,其中有些可能会含有病毒、损害你的电脑,所以建议你安装好杀毒软件。
下面一些类型在页面抓取中常常有问题,需要你实际点击url来重新下载查看,这些格式的文件一般安全的,不太可能有病毒,比如:
现在互联网上有很多网页,特别是含有视频、音乐等页面,需要已经安装了Adobe的flash player为最新版本,才可正常访问;部分视频需要安装qvod播放器等才能播放,举例说明:
有些评估需要确认下载链接是否有效,而且通常会限定使用特定软件来下载,所以您要安装迅雷、QQ旋风、快车等常用下载软件来验证是否为有效下载。比如:
本问说的query-url质量评估,核心是根据query需求,衡量搜索结果(即一个url页面)的好坏。评估的标准是看搜索结果是否能提供用户想找的信息,满足了用户的需求,以及在多大程度上满足了用户的需求。这里面包含两个层次:
(1)搜索结果是否可以提供用户想找的信息。如果结果正是用户所找,可以满足用户需求,则是好结果;如果结果里没有用户想要的信息,没有用户关心的内容,则是差结果。
(2)多大程度上满足了用户的需求。在能满足用户需求的前提下,用户获取信息越丰富、全面、权威越好;成本越低越好,成本包括花费的时间、操作的步骤、用户需要的信息是否可以明显的展现出来等。
百度的使命是“让人们最便捷地获取信息,找到所求”,目标是最大程度的满足用户需求,不断完善搜索质量,提升用户体验。
Query-url质量评估是提升搜索质量的一个基础且核心步骤,我们需要通过评估来发现目前的缺陷,从而提高搜索质量。搜索质量评估工作的成果,将影响到包括您在内的数亿百度用户的搜索体验。
也可称查询词、关键词、搜索词,指用户输入到搜索框想要查找的字、词、符号等。以后作为Query出现的词,一般都会用“【”、“】”括起来。
即组成一个query的字、词,如query【新浪微博】,拆开后的“新浪”、“微博”,我们称为Term。
简称“需求”,对于用户来说,来到搜索引擎是带着目的来的,他们键入搜索词是希望获得相应的满足,比如获得相应的信息、网上购物等,我们把用户query背后的这种诉求称为用户需求。
如搜索【新浪微博】,用户需求是找站点,进入微博查看信息、发微博等;搜【如何减肥】,是想减肥,找减肥的方法产品活动等。我们把用户输入的“query”背后表达的意图称为“用户需求”。
指搜索引擎(如百度、google等)根据Query返回的搜索结果,可以指具体某一条Url页面,也可以指所有的搜索结果。
也称为网页地址,简称网址。百度主页页面的url是“”。本文用url指就是我们需要评估的一个页面,但是需要注意,我们要评估的是这个url页面载入后这个页面上所提供的内容,而不是url本身。所以query-url评估打分,即根据query,对该url页面的打分。
我们也将网站的主页面称为网站首页,这是我们登入、浏览该网站时最先看到的主要页面。网站主页的url往往以.gov等结尾,如就是苹果电脑公司的网站主页,新浪网站的主页为,又例如是麦当劳的网站主页。
网站中凡是非主页的页面,我们都称之为该网站的子页面。比如说就是苹果公司网站的一个子页面,又例如麦当劳的一个子页面为: 。
也称为query表意,一个query的主题即query表达的意思是什么,用户输入一个query是想在搜索引擎中找到与该query主题相关的网页等内容。
在页面上,广告、赞助商链接等不作为页面内容来进行评估,我们需要评估的是页面的主体信息,如站长发布的内容,即网页自身上所能提供的信息,评分时不应该根据广告来进行评估,即使某些广告可能看上去是相关的。
也称需求满足、满足程度,即一个url页面对用户需求满足有多大帮助和价值的衡量,满足程度高的页面对用户非常有帮助,反之满足程度低的页面对用户价值很低。需求满足是衡量搜索引擎质量的最重要因素,是在评估打分中需要重点考虑的。
在评估网页时,资源有效性是非常重要的评估要素,如视频是否能播放、软件是否能下载。一个资源有效高质量网页才能满足用户的需求,一个实际失效的网页,对于用户来说是没用的。
Query-URL质量打分是最重要的一种打分方式,是评价各搜索引擎好坏的基本方式之一。这种评估是根据Query背后的需求,去评价某条结果(即URL页面)对用户需求的满足程度。
Query-Url质量评估,即评价结果的需求满足,看结果能给用户带来多少的帮助和价值。影响用户需求满足的因素很多,我们列出常见的七种。
相关性,是指结果主题跟用户需求的主题匹配程度,两者说的是不是一回事,有没有跑题。相关,是一个好结果最基本的要求。后面其它的因素都建立在其之上。如果不相关,那肯定是差的结果。
(2)拆散了Query,意思完全偏离。查【林字有多少笔画】,出来“爨字共有多少笔”。虽然query中的term在页面都有命中,但是因为拆散后主题完全偏离。
搜同一个Query,不同用户的需求可能不同。此时,要站在多数用户的角度来判断,越多人查找的需求越重要。主要需求是最多人找的,满足主要需求的结果,是最好的结果;满足冷门需求,则结果差些。
多数的查询,越详细的资料内容越好,例如文档、材料、介绍、评论、相关内容等泛需求、又或者一些本身有多种方法需求的query,举几个简单例子:
※ 但是要注意,但也有一些case,由于所求内容相对简单单一,可能一两句话就能满足的很好,这种情况不应当认为文字很少丰富度低,而做出降档打分。
用户需求的满足是完整的过程。一定要注意用户搜索的最终需求是什么,这个结果能不能满足最终的需求,只有能满足最终需求的结果才是好结果。
搜软件下载,不能看到页面上出现“下载”这几个字就到此为止。用户需求是下载安装使用该软件,要准确地评估,必须尝试下载,看其是否真实可用;若是冒牌伪装,或者有病毒木马,那么就不是好的结果。
搜【小学数学教学论文】,出来列表页,都是小学数字方面的论文,看起来很好,但是请再点击一两篇论文,看看其是否相关,能否查看阅读。
多数用户都希望直接、免费、快速地得到;装软件、注册、花钱,大大增加了用户的成本,不能算高质量。
有些查询,对时间有着较高的要求,期望得到最新的信息,常见的是突发新闻的搜索。哪怕没有明确指定什么新闻,给出最新的内容也是很好的。
如【上海大火】,自20101115后相当长一段时间,都是找20101115发生的胶州路大火;20120227前后几天搜索【奥斯卡】,主要需求是找84届奥斯卡金像奖。
招聘、交易等信息对时效性要求高,内容的生成时间极其重要。如果过期了,是陈旧的信息,那对用户通常没太大价值;找某方面的招聘信息,若招聘已结束,价值也很低。几个月前的物品交易信息,很可能交易已完成,现在找到没太大价值;找【电脑组装配置单】,两年前的配置单,给用户的帮助很小。【U盘价格】,一年前的价格对现在参考价值也不是很大。
便捷性,指从打开页面开始,到寻找到所需信息、达到最终目的,所要花费的时间和成本。如果页面有十来屏,所需信息不在第一屏,很多人可能会放弃。如果页面凌乱,或广告晃眼,或广告很多,同样影响用户。
好的结果应当让用户很方便的找到自己要的信息,比如在第一屏显著位置给出目标信息,用户可以轻易地看到。
同样的软件,都能下载,用户更倾向点击官网,以及自己熟知的的华军、天空等知名软件下载站上的结果;
这7个维度在不同特征的query下,关注的重点有不一样,不同维度适用的query范围说明如下:
作为评估人员,需要将自己当成实际输入这个query的用户,去评判各个结果能否满足自己的需求,从而判断各个结果的好坏,并给出适当的评分。
用户为满足自己某种需求而来到搜索引擎的,判断用户的需求是准确评估打分的必备基础。只有准确地判断出用户需求,了解用户搜索的目的,才能合理地衡量结果的质量好坏。
多数Query,本身表述清楚,含义明确,以其表达出来的意思为准。如【让子弹飞 剧情】、【繁体在线转换】、【舞蹈教学视频】等。
有些Query依靠个人的知识、经验能够理解,但还有一些可能需要通过查询相应的百科(如、用不同的搜索引擎进行搜索,通过其检索结果学习了解背景知识后,从而判断出搜索的目的。
如【bl怎么去诺森德】,如果你不玩魔兽世界,单看Query,很难弄明白其搜索意图。通过查看几个搜索结果后,知道用户是找“魔兽世界部落的玩家怎么去诺森德”。因此,建议遇到不了解的Query,先拿Query到百度、Google等搜索引擎上搜索了解一下。
※ 注意:当通过搜索引擎来确认用户需求时,千万不要直接将排在前面的结果当做好结果,将排在后面的结果当做差结果。这应当只作为你确认用户需求的方式之一,而非直接根据搜索引擎现有排序情况进行打分。
另外,当query需求多样时,我们比较难判断用户的主要需求有哪些方面,我们可以借助百度搜索建议提示,了解用户的主要需求。如:【天龙八部】有多个含义,游戏、小说、电视剧、佛教本义等,那到底哪个是主需求呢。看如下搜索建议提示,多是游戏相关,前两个“天龙八部3”、“天龙八部3官网”,其中多数是关于网游的,那么可以推断搜【天龙八部】的主要需求是找网络游戏。
在理解query本身的含义后,接着你应当考虑用户输入这个query时,他所需要得到实际满足的需求是什么,并以此来对所给的url做出打分。
例如【俄罗斯方块】,用户需求很可能是要在线玩这个游戏,也有可能是要下载它;【还珠格格第一部】,大多数输入这个query知道这是一部电视剧,需求意图是想看这个电视剧。下面是一些用户需求意图的例子:
除了需求非常明确的query,如【让子弹飞 剧情】、【横看成岭侧成峰的下一句】,不少query都存在多样的需求。针对query需求的多样,我们会从下面3个角度理解:
存在query主体表意是确定还是非确定的区分,如许多query表意多样,即同样的query,表达的意思却差别万分。如:
【苹果】,有苹果品牌(ipad、iPhone对应的品牌);有苹果这种水果;还有电影《苹果》,这些都可能是用户要找的东西;【土豆】,用户的需求可能指视频站点或者食物等。
存在需求维度单一还是多样的区分,如【QQ下载】需求维度单一,即软件下载的需求;而【步步惊心电视剧】存在多种需求维度,包括电视剧观看、电视剧剧情等;
即针对query不同主体表意和需求维度,存在需求强度大小之分,分为主要需求、泛需求、小众/冷门需求三类,后面详细介绍。
百度的用户数以亿计,搜索同一个Query,不同人可能有着不同的需求,搜索引擎无法同样程度满足所有人的需求,而是尽可能最大程度满足大多数用户的需求。这也要求我们评估时要尽量挣脱个人局限,站在大多数用户的角度来衡量,把握需求主次之分。
根据query不同表意下的需求强度,以及同样表意下不同需求维度的需求强度,需求强弱可能有以下几种情况:
如【windows】,当大多数用户键入这个query时,需求是微软的操作系统,而不是在墙上的玻璃窗户。在搜索引擎简单进行检索后,一般可以了解用户的主需求是什么。
(2)同义query下不同需求维度主次之分:除了利用搜索引擎、搜索引擎搜索提示等工具了解外,一般比较依赖你自身的常识判断,如:
即输入这个query的用户中,有部分用户存在的需求,根据需求的强度的略微差别,存在重要和次要之分。如2012年1月搜【城市猎人】,电影的需求即为次要需求;【亚马逊】,南美洲亚马逊河流的需求;
在某些query下,有的表意和需求维度比较冷僻,用户需求的比例比较低或非常低,并且根据强度上略微差异,称为小众或冷门需求。如【城市猎人】,绝大部分人都是找影视结果,很少有人的需求是一个blogid为“城市猎人”的博客。该博客在这个query下,就称之为冷门需求,认为用户在这个query下想找这个结果的需求很低。
在某些query下,几乎没有占绝对主导地位的表意或同义表意需求维度上绝对强弱之分,都有一定比例的用户需求,这样情况下根据需求强弱的差别打分,如【长沙】、【书籍】,以【倾国倾城】为例说明:
根据用户输入query时的需求意图不同,我们将用户需求大致分为3类:寻址需求、信息需求、交互操作需求。需要注意的是,有很多的query都会有多种需求,而每种需求可能是不同意图类型,所以需求意图都用来表达某个query下的某种需求是什么类型的。
Query某种需求的类型分为交互操作类、信息类、寻址类这3种,可以用“Do-Know-Go”这个来简单表示,这种分类方法有助于判断一个页面该怎么打分,具体介绍如下:
定义:寻址需求就是指,用户输入这个query,就是为了去某个特殊的页面,而且是用户已有确认的某个页面、或某个网站。用户希望通过搜索某query,来访问该页面。因此,在寻址需求中,最能满足用户需求的页面就是用户所求的那个url。
定义:用户的需求是获取信息,想了解某信息、某知识,搜索引擎的目标是让用户找到所求信息,给出相关的优质、权威、全面的信息。
定义:用户是要从事某项操作和活动,往往是需要在某个url上,与页面进行一定的交互,从而达到用户的目标、完成相应的操作。一般对资源是否有效从而完成操作有较高要求。
Query-url相关性打分提供了6种打分选项,包括0-4打分和抛弃。基于用户需求意图分析和Url页面对用户需求满足程度,进行4、3、2、1、0的打分。而对于特殊情况无法进行打分的页面,进行“抛弃”的标记。具体说明如下:
对query的基本要求是:主需求很明确,主要语义表意意图的网站页面才打4分,否则都不能打4分。如query【当当】,存在主要表意需求“著名电子商务网站”,所以可以打4分,而如果是某个“当当”的制鞋公司则不能给4分。
官方:Url是Query对应主要需求的官方网站、或官网上对应的页面,如人名、地名、机构、产品、公司等的官网等;
4分的定义中,我们并没有对结果的质量好坏提出非常明确的要求。当然,4分的结果往往都是非常有帮助的、排版良好的,但是这并非是绝对条件。对于某些query,官方结果可能并非互联网上最有帮助的页面,但由于其官方、原创性,标记4分是合理的。
)实体类query对于实体类query,如人名、机构、公司、电影、事件等。有些是寻址类需求,有些可能是找相关信息的,这些实体query的官网都认为是官方权威的结果,可以打4分。
)指定网站/网页query用户的需求是某个网站内的子站或子页面,那么对应的站点能很好满足需求的页面可以给4分。
)人名query所有的4分结果,都要求query主需求明确。对于人名query这一类相对特殊的query来说,根据query本身的特征做出一些分类,从而帮助判断是否可以有4分结果。如下:
注意:非人名的实体query,例如是品牌、公司所具有的和维护的博客、微博等社交类网站,即使确实是官方的,那么也认为不可以达到4分标准;范例:
※ 注意:有时候比较难以判定这个官网、博客、社交网站等是否是官方的,可以搜索看一下大家评论是否是官网;原创有些情况下比较难判断,如果你仔细分析后还是不能确定是否原创、首发,请不要打4分,而按照实际需求满足情况给予合适的打分。
虽然4分的要求是原创、官方,但有时候确实有些query下不但具有4分结果,而且可能具有多个4分结果,打分可以一致的典型类别:

