主要内容:
这篇文章主要是讲元搜索中Score Normalization的,也就是有若干个独立的搜索引擎,对于一个query,每个搜索引擎给出一些doc列表以及每个doc的分数,为了使各个搜索引擎对doc的打分可以相互比较,做的Normalization的工作。
个人评论:刚开始看元搜索的一些细节性东西,发现元搜索的文章主要集中在2k年前后,再之后的文章就很少了。不知道学术界为什么转移了研究方向?是效果不很好、还是可以挖掘的研究点不多了?
具体内容:
1. 元搜索的应用点
(1)external usage:在某些成熟的商业引擎基础上,再建立元搜索引擎,并也应用在商业上面。
(2)internal usage:在某个搜索引擎内部,建立一些垂直、独立的搜索引擎,当query过来的时候,元搜素融合内部搜索的各个结果
2. 元搜索的三个子问题
注意,这时候本文作者的前提假设是:各个子搜索引擎结果独立、同时不仅能够获得子搜索引擎对doc的排序、而且能够获得子搜索引擎对doc的打分。这个打分不是概率,否则概率可以直接进行比较,本文的工作也就没有意义。
(1)Normalization问题:就是上面说的,对子搜索引擎对doc的打分进行归一化,目的是使得各个搜索引擎的打分可以相互比较
(2)estimation问题:这个文章上描述的是对那些搜索引擎没有retrieved到的doc进行打分预测,个人不太清楚对那些doc进行打分预测有什么用,是还想加到结果列表里面去、从而提升召回率?
(3)combination问题:就是将各个结果进行融合,形成一个序列
3. Normalization的步骤
其实只要稍有编程常识的人都能够想出来,不明白为什么这样的思路、结果还能够发一篇还算OK的文章。废话少说,说步骤:
3.1 shifting
说白了就是在原有打分的基础上都加(或者减去)一个常数,使得打分的范围“平移”到某个区域
3.2 scaling
再在上面的基础之上乘以一个常数,进一步将这个区域放大(或者缩小)。
当所有搜索引擎的结果都重合到一个区域的时候,这时候这些结果不就是可以直接比较的了么。
4. 几种Normalization方法
方法都很容易懂,zmuv的不太容易懂,不过从后来的实验效果上看,也没见得好到哪儿去。
转载请注明出处:http://blog.csdn.net/xceman1997/article/details/22524755
完。
【metasearch学习笔记】Relevance Score Normalization for Metasearch_Aslam_CIKM2001,布布扣,bubuko.com
【metasearch学习笔记】Relevance Score Normalization for Metasearch_Aslam_CIKM2001
原文:http://blog.csdn.net/xceman1997/article/details/22524755