跳转至

第9章:语音应用中的动态模型

Pedro A. Torres-Carrasquillo


9.1 语音信号建模

语音处理是指计算机或自动化系统对人类产生的语音信号进行分析以提取感兴趣信息的过程。从语音信号中提取信息通常通过对信号进行短时频率分析,并对信号的频率分量进行建模来实现的。这些分量可以直接建模并由动态模型(如HMM)使用,或者作为构建更具语言学意义单元(如音素)的基本构建块。然后,这些具有语言学意义的组件可用于对更高层次的单元(如单词或句子)进行建模。表9.1展示了不同应用所使用的语音单元层次结构及其典型时间跨度。

从高层次来看,语音产生机制通常遵循源-滤波器范式(source-filter paradigm)。激励信号驱动滤波器,对输入信号进行整形并产生语音信号。产生的语音信号具有高度动态特性,具有局部和非平稳统计特性。语音信号的非平稳特性导致建模时需要一些假设。例如,短时分析被用来利用信号的短时平稳性。

表9.1 语音单元层次结构

单元 时间跨度
频谱(基于倒谱) 10-20 ms
韵律 50-100 ms
音素 100 ms
特发声(音素) > 200 ms
单词 > 200 ms
特发声(单词) > 400 ms
语义 > 1s

语音信号在不同层面上传递信息,从最小的单元——音素——到单词和句子层面。此外,信号还携带节奏信息和个体说话者特征信息。在以下部分中,我们将描述语音信号的统计建模通常如何进行,以及利用这些不同层面信息的应用。

语音处理领域有许多应用,包括语音信号编码、从语音信号中提取信息以及语音到语音翻译。在本节中,我们仅限于讨论语音识别和信息提取。进行语音识别和信息提取的过程包括特征提取、分类和决策。

9.1.1 特征提取

尽管语音处理领域已使用了许多特征,但讨论所有这些特征超出了本书的范围。我们专注于语音识别领域最广泛使用的特征集——倒谱特征(cepstral features)。倒谱特征定义为语音信号傅里叶变换对数的逆傅里叶变换。对于语音信号,我们通常指的是信号加窗版本或短时傅里叶变换。最常见的倒谱特征集变体是梅尔刻度倒谱特征集(mel-scale cepstral feature set)。

9.1.2 隐马尔可夫模型

隐马尔可夫模型(HMM)如第2.1.7节所定义,是允许包含时间信息的随机模型。HMM已广泛用于语音处理领域的众多应用,特别是识别系统。

HMM非常灵活,允许对语音信号中观察到的高度可变分量进行建模。在语音识别的情况下,通常使用从左到右的三状态HMM架构。这种架构允许返回当前状态或转换到当前状态右侧的状态。观测的产生通常由具有高斯分布或混合模型的概率分布建模。HMM需要定义状态间的转移概率集、与每个状态相关的观测分布以及初始状态分布。

一旦决定了定义HMM的架构和参数集,我们通常关注数据建模的三个基本问题:

  • 调整参数:相对于训练数据调整参数
  • 状态序列:计算最可能的状态序列
  • 似然计算:计算给定模型下观测序列的似然

这些问题的详细描述超出了本章范围,但通常有多种算法可以最大似然意义或判别技术来获得解。

9.1.3 高斯混合模型

如第2.1.2节所介绍,高斯混合模型(Gaussian Mixture Model, GMM)是表示由M个正态分量组成的连续概率分布。密度函数为:

\[ p(x | \mu_1, \Sigma_1, \ldots, \mu_M, \Sigma_M, \alpha_1, \ldots, \alpha_M) = \sum_{i=1}^{M} \alpha_i \mathcal{N}(x | \mu_i, \Sigma_i) \tag{9.1} \]

模型的参数定义为 \(\theta = (\mu_{1:M}, \Sigma_{1:M}, \rho_{1:M})\)。从GMM生成样本的一种方法是根据参数 \(\rho_{1:M}\) 定义的分布选择M个分量之一,然后从与该分量关联的分布中采样。

GMM在语音处理的识别组件中起着重要作用。首先,GMM通常是HMM中观测集的分布选择。此外,GMM技术十多年来一直是说话人识别领域的主流方法。最近,基于GMM的语言识别也表现出色。在过去几年中,基于GMM的识别已用于进行抑郁分类和语音活动检测。

9.1.4 期望最大化算法

GMM的训练通常通过期望最大化(Expectation-Maximization, EM)算法进行。EM算法广泛应用于多个领域和各种问题。EM算法具有许多理想特性,包括收敛到至少局部最大值和计算简单性。其他方法(如梯度下降)往往计算成本较高。

EM通常涉及在存在缺失数据或未观测变量时估计概率模型的参数。在学习GMM参数的背景下,缺失数据可能是用于生成样本的分量。如果观测数据集为X,未观测数据集为Y,则EM旨在找到使 \(P(X, Y | \theta)\) ——或者由于计算便利性,更常见的是 \(\log P(X, Y | \theta)\) ——最大化的模型参数 \(\theta\)。算法9.1概述的过程从 \(\theta\) 的初始猜测(记为 \(\hat{\theta}\))开始。给定 \(\hat{\theta}\),算法计算:

\[ \hat{\theta} \leftarrow \arg\max_{\theta} \sum_{Y} P(Y | X, \hat{\theta}) \log P(Y, X | \theta) \tag{9.2} \]

并将 \(\hat{\theta}\) 设置为下次迭代使用的值。该过程重复直到收敛。

算法9.1 期望最大化估计

1:  function ExpectationMaximization
2:      Initialize θ̂
3:      loop
4:          θ̂ ← arg maxθ ΣY P(Y | X, θ̂) log P(Y, X | θ)
5:      until convergence
6:      return θ̂

如果涉及的分布来自指数族(如GMM的情况),则公式(9.2)存在闭式解。EM应用于GMM时,每个混合分量的协方差矩阵通常被假设为对角的。对角矩阵适用于大多数语音应用并简化了计算。参数 \(\hat{\theta}\) 可以通过不同方式初始化,例如随机分配或k-means聚类。


9.2 语音识别

语音识别是计算机分析语音信号并产生口语信号转录的单词序列的过程。输入语音信号被转换为特征向量流,如前所述。然后生成的特征向量流通常被解码为一组具有语言意义的单元或标记。这些标记通常是音素或通过声学解码获得的子词单元。通常,声学解码与关于目标语言的其他语言知识相结合,以约束可能的声学序列集。

语音识别涉及将各种信息(包括单词集(也称为语言词汇)和为语音信号产生的特征向量流X)应用于贝叶斯规则的各个部分。语音识别从输入声学序列 \(X = x_{1:n}\) 生成单词集 \(W = w_{1:m}\) 的映射,其中n通常远大于m。

HMM是用于语音识别的首选模型。通常,为给定语言中的所有音素创建一个HMM,并通过前向后向估计将音素HMM组合产生单词HMM。将观测X解码为单词在计算上非常昂贵,有多种算法可用于执行此过程。Viterbi算法通常用于此任务。声学模型通常在跨越不同单词和音素的多种发音的数小时数据上进行训练。

解码过程通过两种方式纳入语言知识。首先,建立发音模型以约束目标语言中单词可以发音的不同替代方案。这步在搜索过程中至关重要,因为它减少了可行的解码替代方案数量并减少了所需的计算。发音模型通常通过包含目标语言中单词的所有可能规范发音来构建。此模型也称为发音词典。

其次,语言模型约束可能在语言中观察到的潜在单词序列。语言模型在搜索过程中也起着重要作用,以确定假设的单词序列。语言模型通过在大型语料库上计算单词序列的概率来进行训练。传统上,使用三元组(三个单词的序列)作为在鲁棒估计序列统计所需的训练数据量和语言模型的区分潜力之间的权衡。在语言模型的情况下,使用数百甚至数千小时来训练语言模型。从数学上讲,这个过程通常如下进行:

\[ \arg\max_W p(W | X) = \arg\max_W \frac{p(X | W) p(W)}{p(X)} = \arg\max_W p(X | W) p(W) \tag{9.3} \]

发音模型和语言模型使用以下方式结合:

\[ \arg\max_W p(W | X) = \arg\max_W p(X | A) p(A | W) p(W) \tag{9.4} \]

其中 \(p(X | A)\) 是对语言声学建模的HMM集,\(p(A | W)\) 是给定所有可能发音的声学序列的发音模型,\(p(W)\) 是约束语言中可能观察到的序列的语言模型。

语音方面的进步来自多个研究领域的知识整合。心理学、语言学、计算机科学和模式识别的多学科思想在过去几十年中对提高性能至关重要。通常,通过约束问题解决的条件然后随着性能提高而放松这些条件来获得进步。语音识别领域的常见性能指标是单词错误率(Word Error Rate, WER)。单词错误率通常通过计算观察到的三种可能错误类型的加权和来衡量。这些错误包括与参考相比被删除的单词、被添加到参考中的单词以及与参考相比被替换的单词。通过动态规划将参考(已知)转录本与系统获得的转录本对齐来获得错误。

自动语音识别研究目前有几个趋势。首先,随着额外计算能力的可用,趋势是包含具有大量参数的更复杂模型。例如,许多最先进的系统涉及具有数百万参数的观测分布的HMM。其次,使用判别技术训练模型是典型的。在判别技术的情况下,重点通常是优化决策区域而不是专注于最大化模型的似然。第三,处理神经网络的新技术正在兴起。该领域正在研究的最新替代方案之一是使用深度神经网络(deep neural networks)。深度神经网络利用复杂的神经网络架构和训练技术来解决语音识别问题。第四个感兴趣领域是扩展到其他语言。鉴于系统需要在大量转录数据上训练,目前正在进行工作以获取可用于低资源语言应用的数据驱动单元。在低资源语言的情况下,可用的训练数据量有限,兴趣是探索从更丰富的语言引导数据。


9.3 话题识别

话题识别是识别口语文档中主题的过程。多年来,已经考虑了多种进行话题识别任务的替代方案。目前,大多数技术在提取单词或子词单元的语音识别预处理阶段都有类似的方法。每种方法都有其优缺点。对于基于单词的系统,我们通常能够使用可能对特定应用感兴趣的专门词汇,代价是更高的计算复杂性和有限的语言覆盖范围。对于语音系统,我们在适应更新条件和语言方面具有更好的灵活性,代价是更易出错的分词。

系统的输出(以单词或音素序列的形式)在预处理阶段然后被处理以获得可用于话题识别的一组特征。使用语音识别输出的广泛方法是词袋方法(bag-of-words approach)。词袋表示解码语音中观察到的单词(或标记)的向量化计数。通常,过滤单词集以消除对口语文档内容不具描述性的单词。过滤后的单词集包括填充停顿(如ah、uh、um)或非描述性单词(如the、of、that)。

最终分类阶段包括测量解码输入语音向量与感兴趣主题的一组代表向量之间的距离。在这个阶段,技术范围从简单的距离度量(如余弦距离)到更复杂的方法(如逆文档频率和潜在语义分析)。逆文档频率技术依赖于最频繁的单词或标记可能不具有与不那么频繁观察到的单元相同区分力的概念,而这些不那么频繁单元的组合可能是主题的良好指标。潜在语义分析试图将特征空间的变异性约束到更少的维度。

最近,话题识别中的一个新兴研究领域涉及可以无监督训练的系统,使得使用的子词单元是从数据而非先前转录数据导出的。不需要转录进行训练的这种方法的系统的优势包括扩展到新语言。将语音识别和话题识别扩展到仅可获得少量未转录数据的语言是一个活跃的话题。这些技术的另一个优势是在适应新的声学和环境条件方面的灵活性。


9.4 语言识别

语言识别是识别语音话语中所说的语言的过程。多年来,已经提出了多种语言识别应用。提议的第一组应用包括将语言识别过程用作未来自动处理预处理步骤的应用程序。这类应用的例子包括语音识别系统的初始阶段,其中假设的语言用于确定用于解码信号使用哪些模型,同样地,在机器翻译中,语言识别用于确定用于将源语音翻译成已知目标集的整套模型。

过去十年算法发展迅速。在大部分前十年中,主要技术基于音素n元语法(phone n-grams)。音素n元语法系统(也称为音位学)是研究解码语音信号获得的音素序列的过程。基本原理是这些序列在语言之间会有所不同,便于区分。通常,这些系统分三个阶段构建。

第一阶段是音素解码阶段。在这个阶段,输入语音信号被解码成一串音素。此解码步骤类似于语音识别系统中的第一阶段,但有一些细微差别。在这种情况下,与语音识别情况一样,\(p(X | A)\) 也是HMM,但它以开环方式解码,而不是受发音或语言模型约束。结果是输入语音被标记成一串音素,而没有使用任何语言知识来减少搜索。具体来说,观测 \(X = x_{1:n}\) 使用在音素上训练的HMM集映射到音素序列 \(P = p_{1:m}\)。这个过程可以是特定语言的或通用的。需要指出的是,构建音素库的语音或语言列表与我们感兴趣识别的目标语言列表之间不需要存在关系。

第二阶段是语言模型阶段。与前面针对语音识别提出的想法类似,此阶段训练的语言模型基于特定语言的数据。训练的语言模型数量通常与目标语言集相关。这个阶段是跨语言区分的关键。语言模型利用的区分能力基于观察到的标记序列频率在语言之间差异很大,在某些情况下几乎特定于给定语言。多年来,研究人员已经研究了从二元语法到5元语法的序列,其中三元语法通常是大多数系统使用的。例如,各种研究人员(包括Zissman)广泛使用的语言建模技术是插值语言模型。插值二元语法(n=2)语言模型的示例如下所示。在这种情况下,序列建模如下:

\[ P(p_t | p_{t-1}) = \alpha_2 P(p_t | p_{t-1}) + \alpha_1 P(p_t) + \alpha_0 P_0 \tag{9.5} \]

其中 \(P(p_t | p_{t-1})\) 是在观察到音素 \(p_{t-1}\) 的情况下观察到音素 \(p_t\) 的条件概率,\(\alpha_{0:2}\) 是与我们对给定n元语法置信度相关的权重。

音位学系统的最后阶段是后处理组件,有时称为后端。后端可以是简单的分数归一化过程,或者可以在保留集上训练(如线性分类器),用于模拟不同类别上语言模型分数的分布。在这种情况下,决策只是所有感兴趣类别上的最大语言模型分数。通常通过组合多个特定语言音位学组件来获得额外的性能提升。

最近关于声学或频谱系统的工作利用了语音层次结构中较低层次的信息。该类别中的系统包括GMM、支持向量机(SVM)或两者的组合。在GMM系统的情况下,过去十年中性能大大提高,主要得益于三个因素:

  • 偏移增量倒谱特征,用于考虑时间信息
  • 更高阶模型,系统包括多达2048个混合分量
  • 判别训练的引入

过去几年中,判别训练系统在该领域一直占主导地位。最近,结合GMM和SVM的系统比纯GMM系统产生了额外收益。例如,基于GMM的语言识别系统通常假设有关于语言标记的大量观测集的知识。在这种情况下,我们为每种感兴趣的语言构建一个GMM,并按照以下方式计算每个类的似然:

\[ \ell = \arg\max_\ell \log p(X | \theta_\ell) \tag{9.6} \]

其中

\[ \log p(X | \theta_\ell) = \frac{1}{T} \sum_{t=1}^{T} \log p(x_t | \theta_\ell) \tag{9.7} \]

其中 \(\ell\) 是其参数集 \(\theta_\ell\) 为观测X产生最高似然的语言。

该领域的最新性能是通过采用子空间补偿方法获得的,特别是称为i向量(i-vectors)的技术。i向量算法是将因子分析方法扩展到语言识别的结果。在这种方法是,训练语言无关的GMM并用于为每个输入训练语音话语创建超向量(均值向量的串联)。然后使用从所有可用训练数据获得的矩阵T将每个超向量投影到低维空间。矩阵T与通过训练数据的协方差矩阵的主成分分析获得的特征向量矩阵相关。通常,i向量子空间的维度为200到600维。一旦数据被投影到i向量子空间,就可以使用简单的距离度量或常规分类器(如SVM或GMM)进行分类。

尽管音位学和声学(基于频谱)算法一直是语言识别中的主要技术,但其他技术已以更有限的成功使用。最值得注意的想法包括韵律和单词n元语法。基于韵律的系统试图利用跨不同语言类别观察到的节奏差异。这些系统通常查看基于基频(音高)及其导数以及音节率的特征。单词n元语法系统表现出色,但通常仅限于可以获得训练良好的系统的目标语言。在大量语言上提供完整训练有素的系统可用性有限导致限制了该技术的可能应用范围。

在语言识别领域,美国国家标准与技术研究院(NIST)自1990年代中期以来一直在进行语言识别评估。动机是通过提供统一的数据集来评估技术状态,不同的系统可以在该数据集上进行比较。评估范式基于创建以前看不见的数据集,并让参与站点在不知道数据真实标签的情况下提供分类决策。图9.1显示了这些年来的林肯实验室系统结果。这些系统通常是组合各种系统的结果,例如音位学系统与各种基于倒谱的系统的组合。


9.5 说话人识别

说话人识别是通过声音识别说话人的过程。有两个主要应用感兴趣。第一个是说话人验证,其中有一个语音样本和声称的身份。在这种情况下,处理语音样本并根据声称的说话人模型进行评分,如果产生的分数高于某个阈值,则授予验证。第二个应用是识别情况,它给这个一般领域命名。在识别情况下,有两种典型场景:

  1. 闭集场景:说话人确定在预定模型集内。选择的说话人通常是在模型集内得分最高的那个。
  2. 开集或集外场景:说话人不能保证在预定模型集内。在这种情况下,只有当分数高于某个阈值时才选择模型集中的说话人。

在过去的20年里,说话人识别领域一直由基于GMM的算法主导,这些算法对说话人的显著特征进行概率建模。该领域的基础工作依赖于使用通用背景模型来建模一般说话人群体,并作为假设检验的竞争假设。此外,通用背景模型允许在考虑多个说话人时获得计算优势。

基于常规GMM方法的性能改进最初是通过将基于GMM的系统与其他提供互补信息的系统相结合获得的。第一个这样的系统是基于使用分类器(如SVM)来建模说话人特征。后来,基于GMM和SVM的系统与另一类不仅依赖不同分类器集而且专注于完全不同的特征集的系统相结合。新的高级特征依赖于从常规倒谱特征提取到更长单元(如音素、单词和单词使用)的信息提取。总体思路是,如果有足够的说话人数据来训练模型,则可以在音素和单词使用层面观察到说话人特定行为。此外,通过将SVM的能力与从语音识别系统导出的特征相结合,开发了另一种类型的系统。

最近,提出了一类新系统,解决了影响说话人识别性能的主要原因之一,即通道变异性。众所周知,说话人识别的性能受到注册数据(用于训练说话人模型)来自与用于评估系统性能的测试数据不同的来源的不利影响。特别是,基于因子分析和 nuisance 属性投影的系统专门利用大量说话人的多个注册话语的可用性来提取需要补偿的通道信息。在nuisance属性投影的情况下,基本思想是将说话人话语建模为基于说话人话语与通用背景模型对齐的通用说话人分量和与通道信息相关的偏移量的加性组合。这种通道信息被约束到一个小子空间,然后从原始语音中消除。最初用于使用因子分析的系统提议已进一步扩展到一种称为联合因子分析(Joint Factor Analysis, JFA)的技术,该技术试图不仅缓解通道变异,还缓解不同说话人之间的变异性。

JFA框架的最新扩展产生了一种名为i向量的新方法。i向量的概念依赖于JFA方法背后的相同基本原理,但却是不同的哲学变异性观点。在i向量方法中,潜在假设是所有与说话人相关的变异(而非通道差异)都可以捕获在一个小子空间中。这种类型的系统目前提供说话人识别领域的最新性能。

9.5.1 法医说话人识别

法医说话人识别是说话人识别的一个应用,在过去十年中重新引起了人们的兴趣。经典场景是确定未知语音样本是否来自说话人身份已知的语音样本。近年来,已经开发了满足法医社区需求的多种原型。其中一种原型是Vocalinc,它建立在NIST说话人识别评估的经验基础上。图9.2是当前Vocalinc图形用户界面的屏幕截图。在法医分析的情况下,像Vocalinc这样的工具预计将以交互方式由法医从业者使用,遵循所谓的"人在环"类型的操作。

用户界面允许选择要用于分析的说话人识别算法。该工具包含的算法包括GMM、SVM、JFA、IPDF和i向量。内积判别函数(IPDF)是混合GMM和SVM的混合系统的推广。所有这些算法可以单独使用或组合使用。用户可以决定以1对1模式操作该工具(前面概述的过程,其中有一个已知和一个质疑的语音样本),或者以列表模式运行两个音频文件列表。列表模式允许进行n×m组比较。

该工具允许使用音频文件,并允许用户指示与性别、通道类型、通道侧(对于立体声文件)和段落标记相关的元数据。算法使用这些元数据来选择在分析期间使用哪些模型。在段落标记的情况下,标记指示要分析的语音信号部分。如果使用标记,则通常从听信号并标记感兴趣说话人可能存在的相关区域的分析中获得这些部分。

界面向用户显示音频信号和比较结果。它显示两个语音话语的匹配概率。还有一张表格,显示每个用户选择的分类器的单独结果。在列表或矩阵操作的情况下,列表操作的结果可通过结果部分中的结果选项卡获得。

该原型将在多个领域扩展。随着新算法的开发,它们将被纳入系统。消除对用户元数据输入的需求并允许系统自动确定性别和通道等信息可以提高性能。未来,系统将纳入有关说话人的内在信息,如情绪、健康状况和压力。了解说话人的内在信息如何影响说话人识别系统的性能目前尚不完全清楚,预计这将成为未来几十年的研究重点。


9.6 机器翻译

机器翻译(也称为自动机器翻译)是将一种语言的音频或文本转换为另一种语言的音频或文本的过程。多年来,已经提出了两种主要类型的系统来解决翻译问题。首先,提出了基于规则的系统,专注于基于词的翻译,然后使用语言学规则重新排序单词或标记。第二类系统基于统计技术,其中两种感兴趣语言的训练数据可用,观测使用关于单词和短语出现的基本统计信息从一种语言映射到另一种语言。

基于规则的系统通常依赖三个基本组件。词典组件将输入语言的单词映射到输出语言。这些系统的第二和第三个组件通常是源语言和目标语言的一组语言学规则。这些语言学规则通常包括关于每种语言的句子结构和语法的规则。

统计机器翻译在过去的二十年中一直是机器翻译的主流方法。尽管统计系统在1950年代就被提出,但IBM在1980年代后期进行的工作开始了向统计技术的现代转变。现代统计方法的核心是平行语料库的概念,即源语言和目标语言中的语料库,其中目标语言数据代表源语料库中可用数据的人工翻译。提出的模型示例包括基于单词和基于短语的模型。对于基于单词的模型,典型步骤包括将源语言中的每个单词(或标记)转换为目标语言中的单个单词(或标记)。这类系统的第二步重新排列目标语言中的单词,以最大化单词序列的概率。

对于基于短语的系统,方法与基于单词的系统类似,但使用短语作为感兴趣的单元。在这里,源语言中的句子通常被解析成短语(简单地定义为标记序列),然后这些短语被转换成目标语言中的短语。然后使用与基于单词的系统类似的方法对目标语言中获得的一组短语进行重新排序。

评估翻译系统的性能并非易事,并为该领域的研究人员提供了困难的挑战。对生成输出的人工评估往往不能提供衡量翻译质量的一致指标。机器翻译领域需要自动测量来提供一致、自动和无偏见的系统性能估计。一个众所周知的广泛接受的指标基于称为双语评估助手(Bilingual Language Evaluation Understudy, BLEU)的方法。BLEU度量基于精确度的概念。该度量使用假设翻译与高质量人工参考翻译之间的单词和单词序列匹配。

在过去的十年中,研究一直集中在机器翻译的人文因素方面。尽管机器翻译性能存在错误,但当前状态的系统可能有机会被用于某些应用。过去,评估指标侧重于简单地减少翻译错误。然而,衡量系统的有效性很重要。不完美或不准确的系统对于某些应用仍然对用户有用。最近的工作涉及开发新的指标和有效性衡量标准,可以帮助我们了解当前系统如何使用。


9.7 小结

在本章中,我们讨论了专注于活跃研究领域的语音处理系统。特别地,我们讨论了自动语音识别、语言识别、说话人识别和机器翻译领域的应用。我们描述了每个领域的最新算法,并讨论了相关的应用。语音处理系统仍然是一个活跃的研究领域,我们相信在未来的岁月里,许多领域可以取得进一步的改进,并开发新的应用。


表9.2 各节核心概念总结

章节 核心主题 关键技术
9.1 语音信号建模 倒谱特征、HMM、GMM、EM算法
9.2 语音识别 Viterbi算法、语言模型、发音模型
9.3 话题识别 词袋模型、TF-IDF、潜在语义分析
9.4 语言识别 音素n元语法、i向量、GMM-SVM
9.5 说话人识别 通用背景模型、JFA、i向量、法医识别
9.6 机器翻译 统计翻译、规则翻译、BLEU评估