Firechecking

GMM-HMM

参考链接

  1. http://blog.csdn.net/abcjennifer/article/details/27346787
  2. http://blog.csdn.net/wbgxx333/article/details/20479825
  3. http://blog.csdn.net/wbgxx333/article/details/18516053
  4. http://blog.csdn.net/wbgxx333/article/details/3900688

HMM

  1. 一个具有隐藏状态和可视表象的马尔科夫模型
  2. 在语音识别识别中,隐藏状态是音素序列;从录音中提取MFCC特征后,使用混合高斯模型进行特征拟合,可视表象就是混合高斯模型的均值方差
  3. 初始化时,手动设置HMM的参数。训练HMM时,给定n个时序信号y1…yT(训练样本),用MLE(typically implemented in EM)估计参数:
    1. N个状态的初始概率
    2. 状态转移概率a
    3. 输出概率b
  4. 在语音处理中
    • 一个word由若干phoneme(音素)组成;
    • 每个HMM对应于一个word或者音素(phoneme)
    • 一个word表示成若干states,每个state表示为一个音素

GMM

  1. 高斯混合模型是几个高斯模型的叠加

  1. 每个state有一个GMM,包含k个高斯模型参数,如”hi“(k=3):

其中,每个GMM有一些参数,就是我们要train的输出概率参数

语音识别过程

  1. 将音频文件切分成等长(如20ms)的frames,对每frame提取特征(如MFCC)
  2. 对每个frame运行GMM,得到每个frame属于每个状态的概率
  3. 根据每个单词的HMM状态转移概率计算每个状态生成该frame的概率
  4. 哪个词的HMM序列跑出来概率最大,就判断这段语音属于改词