Solr高亮使用了很多Lucene的源码,在Lucene源码org.apache.lucene.search.highlight包的Highlighter.java里的方法:
public final TextFragment[] getBestTextFragments(
TokenStream tokenStream,
String text,
boolean mergeContiguousFragments,
int maxNumFragments)
会对text文本(document中一个field的文本),逐个token,逐个token 的判断是否应该高亮。而其中关键语句
String markedUpText=formatter.highlightTerm(encoder.encodeText(tokenText), tokenGroup);
这一句,对于解析的每一个tokenText,判断其是否应该高亮,返回给markedUpText。判断的依据就是tokenGroup里保存的一个score,只有当这个score大于0时,才返回高亮文本,而返回的高亮文本会通过预设的pre tag和post tag包起来,也就是默认的<em>和</em>标签。
原文:http://my.oschina.net/u/2242064/blog/497626