参考链接

为什么使用决策树

Kaldi在语音识别时，最小识别单位是音素。在单音素(monophone)识别时，不考虑音素所处的位置，因此单音素模型不能反映音素在不同位置时不同的发音情况，因此还需要使用三音素(triphones)模型。
在使用三音素时，如果但音素总数为40，则三音素最多有40x40x40种情况，但其中只有很少一部分音素在单音素和三音素中具有不同发音，因此为了更好的利用训练数据，需要对三音素模型进行决策，将三音素模型中发音相似的聚类在一起。这个工作就由使决策树来完成（注意:在建立决策树时，是对每个音素的每个状态都建立一个决策树，而不是只对某一个音素来建立。这里，我们以音素ih的首状态为例，详细说明决策树的建立过程。）