Hi, the<b> -prune-lowprobs</b> option in<b> ngram</b> will  "prune N-gram probabilities that are lower than the corresponding backed-off estimates". This option would be useful especially when the back-off-weight (bow) value is positive. However, I want to ask if I could simply replace the positive bow value with 0 instead of using prune-lowprobs. Are there any differences? Or replace simply is not correct?<br>
<div><br></div><div>Another question:</div><div>When training LM, we could use<b> -text-has-weights</b> option for the corpus with sentence frequency. I want to ask what we should do with the<b> duplicated sentences</b> in large corpus. Should I delete the duplicated sentences? Or should I calculate the sentence frequency first and use the -text-has-weights option instead? Or do nothing, just throw all the corpus into training? </div>
<div><br></div><div>Thanks!</div><div><br></div><div>Meng CHEN</div>