<html><body bgcolor="#FFFFFF"><div>To get lower and more relevant perplexities I d recommend getting rid of the -order 3 and adding the kneser ney smoothing. Also make sure the corpora are not too small. <br><br>Sent from my iPad</div><div><br>On Dec 27, 2011, at 1:58 PM, Saman Noorzadeh <<a href="mailto:saman_2004@yahoo.com">saman_2004@yahoo.com</a>> wrote:<br><br></div><div></div><blockquote type="cite"><div><div style="color:#000; background-color:#fff; font-family:times new roman, new york, times, serif;font-size:12pt"><div>Yes both of my texts are 1 sentence per line, (but some sentences are a little long!)</div><div>I used gtmax options but the result were almost the same</div><div>the commands I use are as following:</div><div><br></div><div>to count:<br></div><div>ngram-count -order 3 -write-vocab language.voc -text language_tain.txt -write language.bo</div><div><br></div><div>to make the model:<br></div><div>ngram-count -order 3  language.bo -lm language.BO -gt2min 1 -gt3min 2<br></div><div><br></div><div>testing Perplexity:<br></div><div>ngram -lm language.BO -ppl language_test.txt <br></div><div><br></div><div>Thank you</div><div>Saman<br></div>  <div style="font-family: times new roman,new york,times,serif; font-size: 12pt;"> <div style="font-family: times new roman,new york,times,serif; font-size: 12pt;"> <font face="Arial" size="2"> <hr size="1">  <b><span style="font-weight: bold;">From:</span></b> Burkay Gur <<a href="mailto:burkay@MIT.EDU">burkay@MIT.EDU</a>><br> <b><span style="font-weight: bold;">To:</span></b> Saman Noorzadeh <<a href="mailto:saman_2004@yahoo.com">saman_2004@yahoo.com</a>> <br><b><span style="font-weight: bold;">Cc:</span></b> Srilm group <<a href="mailto:srilm-user@speech.sri.com">srilm-user@speech.sri.com</a>> <br> <b><span style="font-weight: bold;">Sent:</span></b> Tuesday, December 27, 2011 12:56 AM<br> <b><span style="font-weight: bold;">Subject:</span></b> Re: [SRILM User List] big difference between ppl and ppl1<br> </font> <br>
<div id="yiv1749806114"><div><div>Is your Dutch model arranged so that there is one sentence on each line? Also which command are you using? I recommend using -gt1max 1 -gt2max 1 -gt3max 1 and -ukndiscount for kneser ney smoothing. These will give you more accurate perplexities.</div><div><br></div><div>-Burkay<br><br>Sent from my iPad</div><div><br>On Dec 27, 2011, at 6:26 AM, Saman Noorzadeh <<a rel="nofollow" ymailto="mailto:saman_2004@yahoo.com" target="_blank" href="mailto:saman_2004@yahoo.com"><a href="mailto:saman_2004@yahoo.com">saman_2004@yahoo.com</a></a>> wrote:<br><br></div><div></div><blockquote type="cite"><div><div style="color: rgb(0, 0, 0); background-color: rgb(255, 255, 255); font-family: times new roman,new york,times,serif; font-size: 12pt;"><div><br></div><div><span>I  made 2 models of 2 languages, Dutch and English, to make a language recognition.</span></div><div><span>I got the following perplexities:</span></div><div><span><br></span></div><div><span>Model:
 Dutch</span><span class="yiv1749806114tab">    Test: English</span><span class="yiv1749806114tab">    ppl:55</span><span class="yiv1749806114tab">    ppl2: 2* 10^18</span></div><div><span>Model: Dutch</span><span class="yiv1749806114tab">    Test: Dutch</span><span class="yiv1749806114tab">    ppl:303</span><span class="yiv1749806114tab">    ppl2: 400</span></div><div><span>Model: English</span><span class="yiv1749806114tab">    Test: Dutch</span><span class="yiv1749806114tab">    ppl: 600</span><span class="yiv1749806114tab">   ppl2: 3122ses n<br></span></div><div><span>Model: English</span><span class="yiv1749806114tab">
   Test: English</span><span class="yiv1749806114tab">    ppl: 227</span><span class="yiv1749806114tab">    ppl2: 1897</span></div><div><br></div><div>I think it is reasonable if I have a large perplexity when my model and test are different but why ppl=55 <span class="yiv1749806114tab">when having a Duch model and an English test?</span></div><div><span class="yiv1749806114tab">and<br></span></div><div><span class="yiv1749806114tab">Why is there a BIG difference in their ppl and ppl1 ?</span></div><div><br><span class="yiv1749806114tab"></span></div><div><span class="yiv1749806114tab">Thanks in advance<br></span></div><div><span class="yiv1749806114tab"><br></span></div><div><span class="yiv1749806114tab"><br></span></div>


</div></div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>SRILM-User site list</span><br><span><a rel="nofollow" ymailto="mailto:SRILM-User@speech.sri.com" target="_blank" href="mailto:SRILM-User@speech.sri.com"><a href="mailto:SRILM-User@speech.sri.com">SRILM-User@speech.sri.com</a></a></span><br><span><a href="http://www.speech.sri.com/mailman/listinfo/srilm-user">http://www.speech.sri.com/mailman/listinfo/srilm-user</a></span></div></blockquote></div></div><br><br> </div> </div>  </div></div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>SRILM-User site list</span><br><span><a href="mailto:SRILM-User@speech.sri.com">SRILM-User@speech.sri.com</a></span><br><span><a href="http://www.speech.sri.com/mailman/listinfo/srilm-user">http://www.speech.sri.com/mailman/listinfo/srilm-user</a></span></div></blockquote></body></html>