详解CTC

算法菜鸡

本文主要参考自Hannun等人在distill.pub发表的文章（https://distill.pub/2017/ctc/），感谢Hunnun等人对CTC的梳理。

简介

在语音识别中，我们的数据集是音频文件和其对应的文本，不幸的是，音频文件和文本很难再单词的单位上对齐。除了语言识别，在OCR，机器翻译中，都存在类似的Sequence to Sequence结构，同样也需要在预处理操作时进行对齐，但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时，由于人的语速的不同，或者字符间距离的不同，导致模型很难收敛。

CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式，是非常适合语音识别或者OCR这种应用的。

图1：CTC用于语音识别

给定输入序列 $技术分享图片$ 以及对应的标签数据 $技术分享图片$ ,例如语音识别中的音频文件和文本文件。我们的工作是找到 $技术分享图片$ 到 $技术分享图片$ 的一个映射，这种对时序数据进行分类的算法叫做Temporal Classification。

对比传统的分类方法，时序分类有如下难点：

$技术分享图片$ 和 $技术分享图片$ 的长度都是变化的；
$技术分享图片$ 和 $技术分享图片$ 的长度是不相等的；
对于一个端到端的模型，我们并不希望手动设计 $技术分享图片$ 和 $技术分享图片$ 的之间的对齐。

CTC提供了解决方案，对于一个给定的输入序列 $技术分享图片$ ，CTC给出所有可能的 $技术分享图片$ 的输出分布。根据这个分布，我们可以输出最可能的结果或者给出某个输出的概率。

损失函数：给定输入序列 $技术分享图片$ ，我们希望最大化 $技术分享图片$ 的后验概率 $技术分享图片$ , $技术分享图片$ 应该是可导的，这样我们能执行梯度下降算法；

测试：给定一个训练好的模型和输入序列 $技术分享图片$ ，我们希望输出概率最高的 $技术分享图片$ :

$技术分享图片$

当然，在测试时，我们希望 $技术分享图片$ 能够尽快的被搜索到。

算法详解

给定输入 $技术分享图片$ ，CTC输出每个可能输出及其条件概率。问题的关键是CTC的输出概率是如何考虑 $技术分享图片$ 和 $技术分享图片$ 之间的对齐的，这种对齐也是构建损失函数的基础。所以，首先我们分析CTC的对齐方式，然后我们在分析CTC的损失函数的构造。

1.1 对齐

需要注意的是，CTC本身是不需要对齐的，但是我们需要知道 $技术分享图片$ 的输出路径和最终输出结果的对应关系，因为在CTC中，多个输出路径可能对应一个输出结果，举例来理解。例如在OCR的任务中，输入 $技术分享图片$ 是含有“CAT”的图片，输出 $技术分享图片$ 是文本[C, A, T]。将 $技术分享图片$ 分割成若干个时间片，每个时间片得到一个输出，一个最简答的解决方案是合并连续重复出现的字母，如图2.

图2：CTC的一种原始对齐策略

这个问题有两个缺点：

几乎不可能将 $技术分享图片$ 的每个时间片都和输出Y对应上，例如OCR中字符的间隔，语音识别中的停顿;
不能处理有连续重复字符出现的情况，例如单词“HELLO”，按照上面的算法，输出的是“HELO”而非“HELLO”。

为了解决上面的问题，CTC引入了空白字符 $技术分享图片$ ，例如OCR中的字符间距，语音识别中的停顿均表示为 $技术分享图片$ 。所以，CTC的对齐涉及去除重复字母和去除 $技术分享图片$ 两部分，如图3。

图3：CTC的对齐策略

这种对齐方式有三个特征：

$技术分享图片$ 与 $技术分享图片$ 之间的时间片映射是单调的，即如果 $技术分享图片$ 向前移动一个时间片， $技术分享图片$ 保持不动或者也向前移动一个时间片；
$技术分享图片$ 与 $技术分享图片$ 之间的映射是多对一的，即多个输出可能对应一个映射，反之则不成立，所以也有了特征3；
$技术分享图片$ 的长度大于等于 $技术分享图片$ 的长度。

1.2 损失函数

CTC的时间片的输出和输出序列的映射如图4：

图5：CTC的流程

也就是说，对应标签 $技术分享图片$ ，其关于输入 $技术分享图片$ 的后验概率可以表示为所有映射为 $技术分享图片$ 的路径之和，我们的目标就是最大化 $技术分享图片$ 关于 $技术分享图片$ 的后验概率 $技术分享图片$ 。假设每个时间片的输出是相互独立的，则路径的后验概率是每个时间片概率的累积，公式及其详细含义如图5。

图6：CTC的公式及其详细含义

上面的CTC算法存在性能问题，对于一个时间片长度为 $技术分享图片$ 的 $技术分享图片$ 分类任务，所有可能的路径数为 $技术分享图片$ ，在很多情况下，这几乎是一个宇宙级别的数字，用于计算Loss几乎是不现实的。在CTC中采用了动态规划的思想来对查找路径进行剪枝，算法的核心思想是如果路径 $技术分享图片$ 和路径 $技术分享图片$ 在时间片 $技术分享图片$ 之前的输出均相等，我们就可以提前合并他们，如图6。

图6：CTC的动态规划计算输出路径

其中，横轴的单位是 $技术分享图片$ 的时间片，纵轴的单位是 $技术分享图片$ 插入 $技术分享图片$ 的序列 $技术分享图片$ 。例如对于单词“ZOO”，插入 $技术分享图片$ 后为：

$技术分享图片$

我们用 $技术分享图片$ 表示路径中已经合并的在横轴单位为 $技术分享图片$ ，纵轴单位为 $技术分享图片$ 的节点。根据CTC的对齐方式的三个特征，输入有9个时间片，标签内容是“ZOO”， $技术分享图片$ 的所有可能的合法路径如下图

图7：CTC中单词ZOO的所有合法路径

上图分成两种情况

Case 1：

如果 $技术分享图片$ ，则 $技术分享图片$ 只能由前一个空格 $技术分享图片$ 或者其本身 $技术分享图片$ 得到，如果 $技术分享图片$ 不等于 $技术分享图片$ ，但是 $技术分享图片$ 为连续字符的第二个，即 $技术分享图片$ ，则 $技术分享图片$ 只能由前一个空格 $技术分享图片$ 或者其本身 $技术分享图片$ 得到，而不能由前一个字符得到，因为这样做会将连续两个相同的字符合并成一个。 $技术分享图片$ 表示在时刻t输出字符 $技术分享图片$ 的概率。

$技术分享图片$

Case 2:

如果 $技术分享图片$ 不等于 $技术分享图片$ ，则 $技术分享图片$ 可以由 $技术分享图片$ ， $技术分享图片$ 以及 $技术分享图片$ 得来，可以表示为：

$技术分享图片$

从图7中我们可以看到，合法路径有两个起始点，合法路径的概率 $技术分享图片$ 是两个final nodes的概率之和。

现在，我们已经可以高效的计算损失函数，下一步的工作便是计算梯度用于训练模型。由于 $技术分享图片$ 的计算只涉及加法和乘法，因此其一定是可导函数，进而我们可以使用SGD优化模型。

对于数据集 $技术分享图片$ ，模型的优化目标是最小化负对数似然

$技术分享图片$

1.3 预测

当我们训练好一个RNN模型时，给定一个输入序列 $技术分享图片$ ，我们需要找到最可能的输出，也就是求解

$技术分享图片$

求解最可能的输出有两种方案，一种是Greedy Search，第二种是beam search

1.3.1 Greedy Search

每个时间片均取该时间片概率最高的节点作为输出：

$技术分享图片$

这个方法最大的缺点是忽略了一个输出可能对应多个对齐方式.

1.3.2 Beam Search

Beam Search是寻找全局最优值和Greedy Search在查找时间和模型精度的一个折中。一个简单的beam search在每个时间片计算所有可能假设的概率，并从中选出最高的几个作为一组。然后再从这组假设的基础上产生概率最高的几个作为一组假设，依次进行，直到达到最后一个时间片，下图是beam search的宽度为3的搜索过程，红线为选中的假设。

图8：Beam Search

CTC的特征

条件独立：CTC的一个非常不合理的假设是其假设每个时间片都是相互独立的，这是一个非常不好的假设。在OCR或者语音识别中，各个时间片之间是含有一些语义信息的，所以如果能够在CTC中加入语言模型的话效果应该会有提升。
单调对齐：CTC的另外一个约束是输入 $技术分享图片$ 与输出 $技术分享图片$ 之间的单调对齐，在OCR和语音识别中，这种约束是成立的。但是在一些场景中例如机器翻译，这个约束便无效了。
多对一映射：CTC的又一个约束是输入序列 $技术分享图片$ 的长度大于标签数据 $技术分享图片$ 的长度，但是对于 $技术分享图片$ 的长度大于 $技术分享图片$ 的长度的场景，CTC便失效了。

参考文献

[1] Connectionist Temporal Classification : Labelling Unsegmented Sequence Data with Recurrent Neural Networks. Graves, A., Fernandez, S., Gomez, F. and Schmidhuber, J., 2006. Proceedings of the 23rd international conference on Machine Learning, pp. 369--376. DOI: 10.1145/1143844.1143891

[2] Sequence Modeling with CTC. Hunnun, Awni, Distill, 2017

编辑于 08-30

文章被以下专栏收录

深度学习前沿算法学习

基于CTC的语音识别基础与实现

范汝超

MCNN-CTC：将语音识别错误率再降12%

zahet发表于AI柠檬

《Almost Unsupervised TTS&ASR》阅读笔记

星辰漫游者

无痛理解GMM-HMM语音识别算法

自动语音识别ASR并不是一个单纯的算法，而是是一个包含很多部分的复杂框架，其中有声学模型Acoustic model，语音模型Language model等等。虽然近年来基于神经网络的算法越来越流行，然而基…

MaybeSheWill

写下你的评论...

Jack2019-03-06

我在我的博客最近也写了一篇CTC的详细介绍，包括算法原理、理论推导、代码Demo实现等各个方面都有，希望对你有帮助。链接：https://xiaodu.io/ctc-explained/
大师兄 (作者) 回复Jack2019-03-06

简单过了一遍，非常优秀的文章
siggb回复Jack2019-03-07

看了一样，文章写的很好，待细读，看起来一共要有五个部分，目前是只写完第一部分吗？

Freewavs2019-09-03

"对于一个时间片长度为 T的 N分类任务，所有可能的路径数为 T^N"
路径总数不应该是N^T吗？每个时刻有N个可能，N*N...*N
袁小方回复Freewavs01-16

对，既然假定各个时间片独立，连乘的肯定是时间片，每个时间片输出N个类，输出空间是N^T
李凤伟回复袁小方03-09

不是这样的，并不是每个时间片都有N种可能，就比如第一个时间片就不能取第N个值

荔枝骏2019-10-31

上面只算了前向α，没有算后向β，训练的时候优化的目标函数应该是前项和后项的结合吧

Neeze01-16

图7的所有合法路径，我有点小疑问，为什么不能在t1的‘z‘和t2的‘空‘之间连线

林海雪原05-14

这个不是已经是语言模型了吗，各时间片不是独立的吧

详解CTC

详解CTC

简介

算法详解

1.1 对齐

1.2 损失函数

1.3 预测

1.3.1 Greedy Search

1.3.2 Beam Search

CTC的特征

参考文献

文章被以下专栏收录

推荐阅读

基于CTC的语音识别基础与实现

MCNN-CTC：将语音识别错误率再降12%

《Almost Unsupervised TTS&ASR》阅读笔记

无痛理解GMM-HMM语音识别算法

13 条评论