搜索引擎中的查全率和查准率概念浅析
查全率(Recall Rate)(召回率):是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。
查准率(Precision)(精度):是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。
对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用 11 种召回率下 11 种精度的平均值来衡量一个检索系统的精度。因为没有一个搜索引擎系统能够搜集到所有的 Web 网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。
影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。
从一个大规模数据集合中检索文档的时,可把文档分成四组:
系统检索到的相关文档(A)
系统检索到的不相关文档(B)
相关但是系统没有检索到的文档(C)
不相关也没有被系统检索到的文档(D)
相关 | 不相关 | |
---|---|---|
检索到 | A | B |
未检索到 | C | D |
直观的说,一个好的检索系统检索到的相关文档越多越好,不相关文档越少越好。
召回率 R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即 R=A/(A+C)。
精 度 P:用检索到相关文档数作为分子,所有检索到的文档总数作为分母,即 P=A/(A+B)。
例:一个数据库有 500 个文档,其中有 50 个文档符合定义的问题;系统检索到 75 个文档,但其中只有 45 个文档符合定义。
召回率:R=45/50=90%。
精 度:P=45/75=60%。
上例中:系统检索是比较有效的,召回率为 90%;但是结果有很大的噪音,有近一半的检索结果是不相关。在不牺牲精度的情况下,获得一个高召回率是很困难的;召回率越高,精度下降的很快,而且这种趋势不是线性的。
合理使用逻辑组配符 合理使用逻辑组配符AND、OR、NOT,优先顺序(NOT>AND>OR)。
利用AND组配检索词,提高查准率;
利用OR组检索词,提高查全率;
利用NOT组配检索词,提高查准率
调整检索策略,提高查准率、查全率:
提高查全率方法:
1、检索词的转换。常见的转换是同义词、近义词、相关词、单复数及缩写形式,如果是动词还有可能有不同的时态。每一个检索词都有可能有多种表达形式,如果是由英文翻译过来的还有可能有多种翻译方法,所以应该尽可能找全检索词的所有同义词、近义词。相关词指的是与检索词不是同一个意思但是有关联的词。如,META分析的同义词包括元分析、荟萃分析、meta-analysis,近义词包括系统综述,相关词为循证医学。前列腺癌的缩写可能是Pca等等。值得注意的是,在检索中文文献的时候,有必要把英文的全称和缩写也作为检索词,因为有些中文文章中是直接用英文词汇表示的。
2、使用截词符。虽然从理论上来说我们找到所有的同义词和近义词可以扩大检索结果,但是要想做到这一点是相当困难的。这时可以利用截词符来帮忙。一般用的截词符是“?”和“*”,在不同的数据库中表示的意思有所不同,常见的意思是“?”表示0-1个字符,而“*”表示多个字符。
3、使用上位词,即指代范围更广的词。有些检索系统有主题词途径,则可以选用上位主题词。例如水果是苹果的上位词,prostatic neoplasm的上位主题词是prostatic disease。
4、改变布尔运算符,即将连接两个或多个检索词的AND改为OR,即可提高检出数量。
5、改变检索项。如要求检索词位于标题中或为关键词或主题,检出记录数太少,则可改为要求位于摘要或全文中,检出记录数即可增加。
6、减少限制条件,增加副主题词。如果前面的检索中有限制条件,放宽或去掉限制条件;如果采用的是主题词和副主题词搭配的形式,看是否漏掉可能的副主题词。
提高查准率方法:
1、提高检索词的专指度,增加或换用下位词和专指性较强的自由词;
2、增加概念组面,用AND连接相关检索项;
3、限制检索词出现的可检字段,如限定在篇名和叙词字段中检索;
4、用位置算符控制检索词的词间顺序与位置;
5、利用限制符、前缀符限制文献的外表特征,如文献类型、出版年代、语种、作者等;
6、用逻辑非NOT来排除一些无关的检索项;
7、进行加权检索,从定量角度加以控制。
-
还没有Trackbacks
概率太低了如果处理的不好