首页 > 其他 > 详细

《数学之美读后感》

时间:2019-09-08 16:24:24      阅读:83      评论:0      收藏:0      [点我收藏+]

在阅读了《数学之美》的统计语言识别和隐马尔可夫模型后,我想起了自己之前了解过的语音识别系统,本次读后感权当是一次简单的回忆或者笔记吧!

  运用sphinx4进行构建连续语音识别系统包含五大方面:

    1、预处理模块:

      处理原始语音,滤除不重要部分,语音信号的端点检测,语音分帧(10~30ms被认为是短时平稳),预加重(提高加帧部分);

    2、特征提取:

      提取出反映语音信号特征的关键参数,形成特征矢量序列(sphinx用用帧frame分割语音波形,每帧10ms,每帧提取该帧语音39个数字,是该帧的MFCC特征)

          ps:MFCC用FTT将时域转化为频域,对其对数能量谱用依照Mel刻度分布的三角滤波器进行卷积后,对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前n个系数。

    3、声学训练模型:

      主流语音识别系统用隐马尔可夫模型HMM进行声学建模

        建模单元:音素、音节、词等各个层次;

           (1)词汇量偏小,音节建模;

           (2)词汇量偏大,音素即声母、韵母建模;

           识别模型越大,识别单元越小。

          ps:HMM用从左向右单向,带自环。带跨的拓扑结构来对识别基元建模,一个音素就是三五个状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,连续语音识别

            的整个模型就是词和静音组合起来的HMM。

    4、语言模型训练:

      语言模型用于约束单词的搜索,定义哪些词跟在上一个已经识别的词语后面(匹配是一个顺序处理的过程)。

      语言建模结合汉语语法和语义知识,描述词之间的内在关系,从而提高识别率,减少搜索范围,分三个层次:字典知识,语法知识,句法知识。

      语言建模方法:规则建模,统计模型。

             N-Gram:第n个词出现只与前n-1个词相关,与其他任何词都不相关,整句的概率就是各词出现率的乘积。这些概率可通过直接从语料中统计N个词同时出现的次数得到。常用

             二元Bi-Gram和三元Tri-Gram。

             ps:sphinx采用二元语法和三元语法的统计语言概率模型,也就是通过前一个或两个单词来判断当前单词出现的频率。{P(w2|w1),P(w3|w1,w2)}

    5、语言解码和搜索算法:

      解码器:语音技术中的识别过程。

      由已训练好的HMM声学模型,语音模型及字典建立一个识别网络,根据搜索算法在网络中寻找最佳的一条路径,此径能以最大概率输出该语音信号的词串。

      sphinx用基于Viterb搜索算法:

        基于动态规划的Viterb算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,在每节点记录下相应的状态信息最后反向获取词解码。

        Viterb,动态规划算法,遍历HMM状态网络,保留每一帧语音在某个状态下的最优路径得分。

本文仅代表本人学习sphinx过程中对sphinx、统计语音识别和HMM的一些理解与认知,不喜勿喷!

《数学之美读后感》

原文:https://www.cnblogs.com/cmh2969/p/11486789.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!