Hi people.<br>1. The LM is strange because of the filtering options since in the training corpus the setences begin with &lt;s&gt; and end with &lt;/s&gt;,<br>perhaps it is because of this.<br>2. The training corpus has 224884192 words.<br>
3.<br>reading 2534558 1-grams<br>reading 5070525 2-grams<br>reading 514318 3-grams<br>4.You suspect of what in the training data.<br>5.I am working in a translation system and i want to know if it makes sense to have a word that has zeroprob(prob=0) just because the word does not exists in the training corpus but exist in the test corpus and if the -unk tag in the ngram-count command solves the problem?<br>
6. If the -unk tag and the discount methods do not solve this problem tell me how do i do to solve it?<br><br><br>Best Regards,<br>Manuel.<br><br><br><br><div class="gmail_quote">On Thu, Jan 14, 2010 at 6:01 PM, Andreas Stolcke <span dir="ltr">&lt;<a href="mailto:stolcke@speech.sri.com">stolcke@speech.sri.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="im">On 1/14/2010 8:49 AM, Manuel Alves wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
    p( &lt;/s&gt; | . ...)     =  0.999997 [ -1.32346e-06 ]<br>
</blockquote>
<br></div>
You have a very strange LM since almost all the probability mass in your LM is on the end-of-sentence tag.<br>
How many words are in your training corpus?<br>
How many unigrams, bigrams, and trigrams are in your LM?<br>
I suspect some basic with the preparation of your training data.<br><font color="#888888">
<br>
Andreas<br>
<br>
</font></blockquote></div><br>