Luis,<br><br>I wouldn't say there is one absolute good recipe to build a language model (though there are some good practices).<br>Regarding the smoothing, many papers have been studying different techniques and have highlight their respective strenghs and weakness. Especially, it has, for instance, recently been shown that KN smoothing does not well behave along with strong entropy-based pruning (even if you don't seem to use it).<br>
As for the other parameters, this may depend on your target task.<br><br>Thus, I just would say :<br>- read papers about smoothing techniques, eg:<br>[1] Chen, S. F. & Goodman, J. An Empirical Study of Smoothing Techniques for Language Modeling Harvard University, 1998<br>
[2] Chelba, C.; Brants, T.; Neveitt, W. & Xu, P. Study on Interaction Between Entropy Pruning and Kneser-Ney Smoothing Proc. of Interspeech, 2010, 2422-2425<br>- and compare the effect of different parameters/options (see the manual) in terms of perplexity or what ever measure you're seeking to minimize in the end. Especially, try to toggle on/off -interpolate, -gtnmin N (cutoff) as well as pruning options.<br>
<br>Best regards,<br>Gwenole.<br><br><div class="gmail_quote">2011/8/9 Luis Uebel <span dir="ltr"><<a href="mailto:lfu20@hotmail.com">lfu20@hotmail.com</a>></span><br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">




<div><div dir="ltr">
I am producing some language models (3-grams) for HTK.<br>What is the best configuration for produce the best language models using SRILM?<br>My configuration is:<br>$SRILM/ngram-count -memuse -order ${trigram} -interpolate -kndiscount -unk -vocab $wordlist -limit-vocab -text ${training} -lm ${train}-lm<br>
${trigram}<br><br><br>The script line is above and I am using -kndiscount<br>Is there a better type of discount or parameters to produce better language models using SRILM?<br><br>Number of words (unique): 38k<br>Size: 93Mbytes<br>
Number of lines: 550656<br>Number of words (total): 17166049 (17M)<br><br>Thanks.<br><font color="#888888"><br><br>Luis<br><br><br>                                         </font></div></div>
<br>_______________________________________________<br>
SRILM-User site list<br>
<a href="mailto:SRILM-User@speech.sri.com">SRILM-User@speech.sri.com</a><br>
<a href="http://www.speech.sri.com/mailman/listinfo/srilm-user" target="_blank">http://www.speech.sri.com/mailman/listinfo/srilm-user</a><br></blockquote></div><br>