Hello,<div><br></div><div>is there a reason why the unigram count of the auto-prepended sentence start tag <s> is always zero? As can be seen from the output below, the log probabilities are calculated counting the sentence send tags </s> but not the start tags. Or have I just missed something horribly obvious?</div>
<div><br></div><div>Thanks,</div><div>James</div><div><br></div><div>----</div><div><br></div><div><div>[jkirby@Markov]$ more sentence.txt </div><div>Sentence number 1.</div><div>Sentence number 2.</div><div>Sentence number 3.</div>
</div><div><br></div><div><div>[jkirby@Markov]$ ngram-count -order 1 -text sentence.txt -tolower -lm sentence.lm</div><div>warning: count of count 2 is zero -- lowering maxcount</div><div>GT discounting disabled</div></div>
<div><br></div><div>[jkirby@Markov]$ more sentence.lm </div><div><br></div><div>\data\</div><div>ngram 1=7</div><div><br></div><div>\1-grams:</div><div>-1.079181       1.</div><div>-1.079181       2.</div><div>-1.079181       3.</div>
<div>-0.60206        </s></div><div>-99     <s></div><div>-0.60206        number</div><div>-0.60206        sentence</div><div><br></div><div>\end\</div><div> </div>