[摘自 维基百科]
统计式的语言模型是借由一个概率分布,而指派概率给字词所组成的字串:
语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的概率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。
在语音辨识和在资料压缩的领域中,这种模式试图捕捉语言的特性,并预测在语音串列中的下一个字。
当用于资讯检索,语言模型是与文件有关的集合。以查询字“Q”作为输入,依据概率将文件作排序,而该概率代表该文件的语言模型所产生的语句之概率。
gcc版本 >= 4.6
Boost版本 >= 1.45.0
错误解决见链接点击打开链接
cmake ../src
原文:http://blog.csdn.net/wangxinginnlp/article/details/44901589