当前位置:论文网 > 论文宝库 > 数学教育类 > 数学建模论文 > 正文

优化高斯混合模型参数估值的算法

来源:UC论文网2015-12-27 22:51

摘要:

导读::本文针对EM算法这种局部收敛特性。高斯混合模型(GaussianMixtureModels。也是最近几年语音转换领域用于频谱包络的转换[5]使用最多的方法。 论文关键词:EM算法,高斯混合模型,语

导读::本文针对EM算法这种局部收敛特性。高斯混合模型(GaussianMixtureModels。也是最近几年语音转换领域用于频谱包络的转换[5]使用最多的方法。
论文关键词:EM算法,高斯混合模型,语音转换

  0 引言
  语音识别和转换技术是比较新的研究领域,也逐渐成为研究重点和热点,在多媒体、配音、多语言交互、保密通信等方面得到了广泛应用[1,2,3]。高斯混合模型(Gaussian Mixture Models,GMM)被广泛应用于语音识别领域[4],也是最近几年语音转换领域用于频谱包络的转换[5]使用最多的方法。基于高斯混合模型的识别方法的基本原理是对说话人集合中的每一个体建立一个概率模型,将说话人的个性特征在特征空间的分布抽象为该概率模型随机产生的结果。相对于其他转换算法的对频谱特征进行量化然后对应,GMM模型是基于对频谱包络特征进行软分类对应,克服了矢量量化的不连续性,得到比较好的语音转换质量。高斯混合模型的参数估计问题有很多方法,其中EM算法[6]是建立在最大似然估计基础上的一种针对不完全数据可实现的迭代算法。其收敛问题依赖于初始值的设定,不能估计模型的阶数,容易陷入局部收敛值。本文针对EM算法这种局部收敛特性,结合常用的遗传算法(GA)[7]的全局搜索特性,对其加以改进。
  1 基于EM的高斯混合模型参数估值
  1.1高斯混合模型
  一个M阶的混合高斯模型的概率密度函数可以表示为
  EM算法(1)
  式(1)中为P维随机矢量,=1,2,…,M为混合加权重,且满足约束条件为每个子分布的P维联合高斯概率分布,由下式表示 
   EM算法(2)
  式(2)中是均值矢量,是协方差矩阵,通常情况下完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为
  (3)
  语音特征通常有着平滑的概率密度函数,因此有限数目的高斯密度函数就足以对语音特征的密度函数形成平滑逼近。适当地选择GMM和均值、协方差和概率权重语音转换,就可以完成对一个概率密度函数的建模。对角化的协方差矩阵,就可以形成较好的近似,减少需要估计的未知变量的数目。
  1.2 EM估值算法
  GMM模型的参数估计通过给定的一组语音训练数据,依据某种准则求出模型的参数,使确定的GMM模型能最佳的描述给定语音训练数据的概率分布。最常用的估计方法是最大似然(Maximum Likelihood,简称ML)估计,设一组给定的用于训练的语音特征矢量序列为,GMM的似然度可以表示为 ,训练的目的就是找到一组参数,使的最大,即 。式(3)是关于的非线性函数,通常很难直接求得其参数。 一般采用EM(Expectation Maximization)算法来估计的值。EM算法是一种递归最大似然算法,是ML算法的一种替代算法,用于从一组训练数据序列中估计模型的参数。它的计算是从参数的一个初值开始,采用EM算法估计出下一个新的参数,使得新的模型参数下的似然度。新的模型参数再作为新的初始模型参数进行训练,这样迭代运算进行下去直到模型收敛。EM算法的迭代过程(第n+l步)表示如下:
  (1)混合权值的重估迭代公式
  EM算法
  (2)均值的重估公式 
  
  (3)方差的重估公式 
  
  以上三个公式中的后验概率,表示为
  
  以上公式同时执行了求期望值(E步)和最大化(M步)。对EM算法中E步、M步重复迭代,当找到似然函数的极大值时停止迭代。 
  2 遗传算法对EM估值算法的优化 
  2.1 EM估值算法的局限
  EM算法因具有宽广的使用范围和可以移植到各种不同的问题而被广为应用,EM算法假设任一帧语音是出自模型的哪个高斯分量这一信息是可知的,来简化极大似然的优化目标函数,分别经过E步求出期望值,和M步调整模型参数最大化目标函数来逐步收敛,E步骤和M步骤隐含确定每一步的方向和距离。因此,EM算法对初始条件是敏感的,选择不同的初始条件会得到不同的局部最大值。容易想到的方法是,在实验过程中使用不同的初始值设置多次运行EM算法,从多个局部最优中选择一个最优值,这样可以降低最终只得到一个相当差的局部最优值的可能性。但是考虑到EM算法的复杂度是由两个因素共同决定的:收敛所需迭代的次数及每个E和M步骤的复杂度,实践中经常发现当EM算法接近解时,它收敛的相当慢,所以上述设置多个初值运行多次再在其中择优的方法,大大的增加了转换函数训练的代价,常常是无法接受的,所以需要寻找一种可以接受的优化算法和传统的EM算法结合到一起使用。 
  2.2 采用遗传算法进行优化
  近年来,遗传算法已经在国际上许多领域得到了应用,在语音技术领域,已出现很多结合遗传算法的研究。作为一种自适应全局优化搜索算法,遗传算法具有一些独特的优点语音转换,首先,在求解问题时,遗传算法首先要选择编码方式,它直接处理的对象是参数的编码集而不是问题参数本身,搜索过程既不受优化函数连续性的约束,也没有函数导数必须存在的要求。通过优良染色体基因的重组,遗传算法可以有效地处理传统上非常复杂的优化函数求解问题。其次遗传算法具有很高的并行性,具有明显的搜索效率。最后,遗传算法具有较好的普适性和易扩充性,针对某一问题的遗传算法经简单修改即可适应于其他问题,与已有算法相结合,能够较好地解决一类复杂问题。本文将EM算法与遗传算法相结合,以提高算法的收敛速度。
  用遗传算法优化的EM算法基本流程如图1所示。 
  
  图1 GAEM算法流程图
  算法的构成要素有:编码方式,初始种群,适应度函数等,简要描述如下:
  (1)编码方法:一个GMM的参数可以用混合权值矢量、均值矩阵和协方差矩阵来加以描述,对于协方差矩阵类型,采用对角阵型式也可以获得同样的建模能力,并具有简化计算的效果。假设M为高斯混合模型分量个数,D是提取的特征矢量的维数,则GMM的参数形式为:权值C[m],m=l,2,…M,均值矩阵Mean[M][D],协方差矩阵Covar[M][D],由于在语音转换中,GMM的参数值都是实数值,因此在遗传算法中用实数串作为染色体的描述。借鉴文献[8]中的做法,定义遗传算法中的染色体结构定义如下: 
  

 

C[1]Mean[1][1]…Mean[1][D]Covar[1][1]…Covar[1][D]C[2]Mean[2][1]…Mean[2][D]

Covar[2][1]…Covar [2][D]…C[M]Mean[M][1]…Mean[M][D]Covar[M][1]…Covar [M][D]

(2)种群的初始化:初始的种群可以由样本随机产生,也可以先由K-means算法[9]从样本数据中得到一个初始的模型。本文采用由k-means初始化的方法,先产生一个初始的GMM模型参数,在此基础上,对其相应的参数分别乘以一个均值为1,方差为0.2,0.2和0.3的高斯随机数,即:C*G(1.0,0.2),Mean*G(1.0语音转换,0.2),Covar*G(1.0,0.3),重复K次产生K个人口做为初始种群,这里取K的值为10。 
  (3)适应度函数:在遗传算法中,适应度值由目标函数得出,本文参考了文献[10]中的模式选择函数,将目标函数定义为由第n个GMM模型λ。产生联合观察矢量序列{Z1,Z2…Z3}的条件概率的对数平均值:,其中N为观察矢量的数目。
  (4)混合操作:也称交叉操作,是遗传算法中产生新个体的主要方法,它决定了遗传算法的全局搜索能力。这里的交叉是从P(t)’中,随机选择两个入口,采用单点交叉方式,依照一定的交叉概率,随机选择一个交叉点,然后互换交叉点右侧的染色体结构中的基因,产生后代个体P(t)”,其数量H由交叉概率来控制H=Pc×K,本文Pc设置为0.5。 
  (5)选择操作:对包含K个个体的P(t)’和H个个体的P(t)”,分别对他们进行适应度计算后,按照最优保留的原则,从中选择适应度最高的前K个个体,保留形成下一代种群杂志网。选择操作使得适应度强的个体以较大概率为下一代提供一个或多个个体,体现适者生存的原则。 
  (6)变异操作:为了寻找不同的解空间和保持种群的多样性,采用变异操作,它恢复了在初始化阶段丢失的信息,使遗传算法避开初始化模型参数的影响,有利于发现最优模型参数集。为了减少计算的代价,在本文中使用的变异操作只用于对均值的变异,且以一个非常低的概率Pm=O.02进行,通过产生一个在数据集的上下界之间正态分布的随机数,用它乘以要变异的染色体的均值。 
  以上算法中,将遗传算法和EM过程交叉进行,使用最优保留策略,将当前种群中最优的个体直接复制到下一代,保证了第t+l代种群中的个体不比第t代中的个体差。整个算法由最大进化次数来控制,达到最大的进化次数之后,从中选择适应度最优的一个个体,解码其参数语音转换,进一步利用EM算法进行最大似然估计,直到算法收敛,即两次迭代得到的似然函数差值小于预设的门限阈值为止。这样,就得到了利用遗传算法优化的一个高斯混合模型。
  3 实验结果分析 
  为检验算法效果,进行改进EM算法和传统EM算法的对比实验,实验采用matlab仿真工具,借助voicebox中的工具函数对语音信号进行读入,使用相对的谱失真百分比测度来进行评价。实验分为男声转女声和女声转男声两种情况,每种情况下分别对比了不同高斯分量数目下使用上述算法前后的谱失真测度变化情况。实验主要参数设置为:初始种群大小为10,交叉概率Pc=O.5,变异概率Pm=O.02,最大进化代数为20。 
  
  图2 男声转女声失真度比值
  
  图3 女声转男声失真度比值
  从图2图3可以看出使用优化算法得出的高斯混合模型所转换出来的语音,相对于一般EM估计算法得出的高斯混合模型所转换出来的语音,具有较小的失真测度值,证明使用遗传算法对高斯混合模型的参数进行估计,能够一定程度上改善的语音质量。
  4 结束语
  采用遗传算法的全局搜索特性与EM算法相结合,实验证明这样的优化算法对高斯混合模型的参数估计有所改进。在提高转换后语音的质量方面,本文的算法是可行的。付出的代价是算法复杂度的提高和运算时间的增加,实验中上述算法对模型参数进行估计时,训练时间经常会成倍的增加,与获得的质量改善相比,这是一个需要权衡考虑并加以进一步研究的问题。

参考文献:
[1]ReynoldsD A. An overview of automatic speaker recognition technology[J]. IEEE Trans onipeech and Audio Processing, 2002, 10(4): 472-475. 
[2]Kain.High resoulation voice transformation[D]. Computer Science and Mathematics,Rockford College, 1995, 47-52.
[3]ZHANGKai, ZHU Lixin, ZHAO Yizheng. Research on modified GMM based voice conversionmethod[J]. Technical Acoustics,2008, 27(3. Pt.2): 392-397.
[4]张凯,朱立新,赵义正.基于重训练高斯混合模型的语音转换方法[J]. 声学技术,2010,29(1):52-55
[5]赵义正.改进GMM谱包络转换性能的语音转换算法研究[J]. 科学技术与工程,2010,10(17):4172-4174
[6]游源,齐欢,胡祥恩.树状模型中EM算法的矩阵形式[J].计算机工程与应用,2011,47(5):32-34
[7]Tang,K.S.,Man,K.F.,Kwong,S.,He,Q.“Genetic algorithm and their applications”.IEEE Signal ProcessingMagazine 13(6),PP.22-37,1996. 
[8]Hong,Q.Y.,Kwong,S,“A genetic classification method for speaker recognition”,Engineering Applications of Artificial Intelligence,V01.18,Issue:1,pp.13-19,February,2005. 
[9]田生文,王伊蕾,李阿丽.一种应用复杂网络特征的K-means初始化方法[J].计算机工程与应用2010,46(6):127-129
[10]Franz Pernkopf,and Djamel Bouchafff如“Genetic-Based EM Algorithm for LearningGaussian Mixture Models“,IEEE Transactions PatternAnalysis and Machine Intelligence,Vol.27,No.8,ppl344-1348.August 2005 

核心期刊推荐