数学之美 一
这本书是吴军所写,是一个大牛,我也看了这本书,就顺手总结的一下,如果你是自然语言处理,机器学习,数据挖掘,大数据这一方向的建议把这本书好好看一下,会很有帮助的,这本书呢,讲的都是很通俗但是有是很热门的知识,没有具体的细节,是一个框架,相信会让你受益匪浅的。
第1章 文字和语言 vs 数字和信息
我们先看看发展史吧!看看为什么语言和数学有关的前因后果!!
1. 文 字
声音 ----- 语言 ----- 词汇 ---- 多义词(歧义性)----- 文字
我们的祖先在初始交流的时候是含糊不清的声音,后来变成了语言,随着语言越来越丰富,越来越抽象出现了具体词汇,但是当单词数量达到5000个左右的时候,人们开始记不住了,达到了单词数量的瓶颈了。怎么解决呢?于是概念的第一次概括和归类开始了,就是一词多义,这样语言基本解决了单词多的缺点。这种聚类和今天机器学习的聚类有很大的相似性。但是一词多义带来的问题就是,处理文本时如何去除歧义性呢?这就要靠上下文也就是语境来处理了。随着后来语言的流传性不好,就出现了文字来保留信息,还有由于不同文明,会有不同语言,我们如何进行信息的翻译和破解呢?我们要记住一句很重要的话:不同的文字系统在记录信息上的能力是等价的。
比如罗塞塔石碑上 用3中不同语言:埃及象形文字,埃及拼音文字和古希腊文。最后前人通过其中两种把另外一种语言的秘密给破解出来了,这个故事对于长期从事自然语言处理的学者来说有2点指导:
1. 信息的冗余是信息的安全保障:因为只要有一份完好保留下来,原有信息就不会丢失
2. 语言的数据语料:在双语和多语对照翻译的时候 ‘对照语料库’ 至关重要。
这也是今天又很多翻译软件和服务都叫做 ‘罗塞塔’的原因
2. 数 字
数学之美 一,布布扣,bubuko.com
数学之美 一
原文:http://blog.csdn.net/lch614730/article/details/21457845