<span class="" style="font-size:14px"><font face="arial, helvetica, sans-serif" style="font-family:arial,sans-serif">Hi, I'm training LMs for Mandarin Chinese ASR task with two different vocabularies, vocab1(<span style="line-height:16px">100635 vocabularies</span>) and vocab2(<span>102541 vocabularies</span>). In order to compare the performance of two vocabularies, the training corpus is<span style="line-height:16px"> the same, the test corpus is the same, and t</span>he word segmentation method is also the same, which is<span style="line-height:16px"> Forward Maximum Match.</span> The only difference is the segmentation vocabulary and LM training vocabulary. I trained LM1 and LM2 with vocab1 and vocab2, and evaluate them on test set. <span style="line-height:16px">The result is as follows:</span></font><div style="font-family:arial,sans-serif">
<span style="line-height:16px"><font face="arial, helvetica, sans-serif"><br></font></span></div><div style="font-family:arial,sans-serif"><font face="arial, helvetica, sans-serif"><span style="line-height:16px">LM1: logprobs = </span><span>-84069.7, PPL = </span><span>416.452.</span></font></div>
<div style="font-family:arial,sans-serif"><font face="arial, helvetica, sans-serif"><span style="line-height:16px">LM2: logprobs =<font color="#000000"> </font></span><font color="#000000"><span lang="EN-US">-82921.7, PPL = </span><span lang="EN-US">189.564.</span></font><span style="line-height:16px"><font color="#000000">  </font> </span></font></div>
<div style="font-family:arial,sans-serif"><span style="line-height:16px"><font face="arial, helvetica, sans-serif"><br></font></span></div><div style="font-family:arial,sans-serif"><span style="line-height:16px"><font face="arial, helvetica, sans-serif">It seems LM2 is much better than LM1, either by logprobs or by PPL. However, when I am doing decoding with the corresponding Acoustic Model. The CER(Character Error Rate) of LM2 is higher than LM1. So I'm really confused. What's the relationship between the PPL and CER?  How to compare LMs with different vocabularies? Can you give me some suggestions or references? I'm really confused.</font></span></div>
<div style="font-family:arial,sans-serif"><span style="line-height:16px"><font face="arial, helvetica, sans-serif"><br></font></span></div><div style="font-family:arial,sans-serif"><span style="line-height:16px"><font face="arial, helvetica, sans-serif">ps: There is a mistake in last mail, so I sent it gain. </font></span></div>
<div style="font-family:arial,sans-serif"><span style="line-height:16px"><font face="arial, helvetica, sans-serif"><br></font></span></div><div style="font-family:arial,sans-serif"><span style="line-height:16px"><font face="arial, helvetica, sans-serif">Thanks!</font></span></div>
<div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><span class="Apple-style-span" style="line-height:16px"><br></span></font></div><div style="font-family:arial,sans-serif"><span style="line-height:16px"><font face="arial, helvetica, sans-serif">Meng CHEN</font></span></div>
</span>