还没读TFIDFSimilarity的代码,读了一下lucene的文档,没有特复杂,感觉还是很严谨的。
对于查询q和文档d,假设查询为纯token查询,套用向量空间模型(VSM),相似度度量使用余弦,另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(估计一般是m / n了)。cos直接用向量点积除以两个向量的模(euclidean norm)。
cos = v(q) * v(d) / (|v(q)| * |v(d)|)
sim = coord(q,d) * cos
其中:
v(q) = (idf(t),...)
v(d) = (tf,...)
其中tf并非简单的term freq,而是其平方根,这很可能是为了让其模刚好是doclen。
idf = 1 + log(numDocs / (1 + docFreq),因此这个公式里面,tf的数值被弱化了。
在文档的lucene practical scoring formula,其中对于|v(q)|的计算被归到queryNorm上(queryNorm = 1 / |v(q)|) ,对于|v(d)|的计算被归到norm(t, d)中(norm(t,d) = 1 / |v(d)|)。
queryNorm中有个query bootst值,偶觉得对于纯tf idf计算(不管query多长总是可以展开成一级)没什么意义,而且对最后总分没影响,只是可以对不同query的结果进行比较。
queryNorm中还有一个t.getBoost(),这个其实很重要,可以是一个主要调参的地方,因为term boost可以包含field boost的信息,所以可以在search时进行设置,有了term boost,v(q)变为:
v(q) = (idf(t) * t.getBoost(),...)
|v(d)|的计算归结到norm(t,d)中,其中引入field.getBoost另整个公式不严谨,因为点积中没有乘以这个数字,模也不是正常计算的了,再加上t.getBoost()就可以包含field boost信息,还有每个field保存的norm值只用一个字节表示,精度很差,我觉得这个norm值不实用,倒不如直接用lengthNorm(我倒是很好奇没有norm值,lucene怎么处理的)。
参考文献:
http://lucene.apache.org/core/4_0_0/core/org/apache/lucene/search/similarities/TFIDFSimilarity.html
Lucene TFIDF打分公式,布布扣,bubuko.com
原文:http://blog.csdn.net/jollyjumper/article/details/24179401