一.编码规范
本学期我将参考以下两个链接的编码规范:https://blog.csdn.net/aaaaa_alice/article/details/82144460
https://blog.csdn.net/p942005405/article/details/80282572
二.数学之美读后感
数学之美读后感
在读完吴军博士对自然语言处理的讲解报告后,我了解到自然语言处理这一领域的发展历程是由规则走向统计的。一开始研究人员让机器理解自然语言是用基于语法规则的方法,但长期的研究和实践后发现效果并不明显,翻译结果并不准确,。而研究人员后来提出的统计语言模型则给自然语言处理的相关研究指明了一个新的方向。研究人员对计算机处理自然语言的认识都不再局限在人类学习语言的方式上。
统计语言模型是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、汉字输入。而其原理也只是通过概率模型排查确定词汇、语句意思,最后达成翻译文段的目标。但只通过计算词汇间组成句子的概率的来翻译自然语言,准确性仍然是不够的。自然语言从它产生开始就逐渐演变成一种上下文相关的信息表达和传递方式,在词汇的二义性问题也得以解决。
概率一直是小学到大学的数学课程不会排除的教学内容,但本书第一次让我领悟到数学工具在实际工作、研究中的应用,机器对人类语言的理解竟可以由一个简单的概率公式开启。
信息熵等概念亦让我觉得惊奇。学者居然能用一个自然学科的热力学概念来对信息量化度量。信息熵也是对不确定性的衡量,可以用于衡量统计语言模型的好坏,但翻译还需考虑上下文条件来决绝二义性,所以对高阶语言模型还需用条件熵。如果再考虑到从训练语料和真实应用的文本中得到的概率函数有偏差,就需要再引入相对熵的概念。
除此之外,书中提及运用余弦定理和新闻分类关系,再次刷新了我对初中数学知识的认识。新闻分类在我看来是庞大复杂的工作,但经讲解和分析,瞬间对庞大项目技术的恐惧心理有所消减。分析新闻的特征向量要求我们先把文字新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性。数学中向量的夹角是衡量两个向量相近程度的度量,因此可以用向量模型来亨利新闻的相似度。之后再通过计算夹角的余弦值,确定一个比较的指标。余弦定理就这样通过新闻的特征向量和新闻分类联系在一起了。
关于图论和网络爬虫的感想:我之前所接触的爬虫只是爬取几个简单网页的数据,且在学完数据结构和离散数学两门课后,我并不知道其中图论有何用途,深度遍历和广度遍历在实际运用中对项目又能有何影响。而书中将图论和网络爬虫联系在一起,图论中的深度优先原便成为了爬取全互联网网站的篮图,让人体会到图论这种数学工具的奇妙用图用途。
本学期我计划实践书中的余弦算法,实现文章相似度的判断软件,并筛选关键词。
原文:https://www.cnblogs.com/gdufsczg/p/11438392.html