<font face="'trebuchet ms', sans-serif">Hi, I met a question when training class-based language model by replace-words-with-classes command. My commands are as follows:</font><div><font face="'trebuchet ms', sans-serif"><br>
</font></div><div><ul><li><span style="font-family:'trebuchet ms',sans-serif">ngram-class -vocab wlist -text training_set -numclasses 200 -incremental -classes output.classes</span></li><li><span style="font-family:'trebuchet ms',sans-serif">replace-words-with-classes classes=</span><span style="font-family:'trebuchet ms',sans-serif">output.classes</span><span style="font-family:'trebuchet ms',sans-serif"> training_set > training_set_classes</span></li>
</ul><div><font face="'trebuchet ms', sans-serif">After these two steps, I found that there are both words and classes in training_set_classes. These words are OOVs in wlist, however, I don't need them at all. Shouldn't these words belong to <unk> in CLASS-00001? So I wonder to know how to process this situation? Does SRILM support some scripts to map these OOVs to CLASS-00001? Or Do I need to write a script by myself?</font></div>
</div><div><font face="'trebuchet ms', sans-serif"><br></font></div><div><font face="'trebuchet ms', sans-serif">Thanks!</font></div><div><font face="'trebuchet ms', sans-serif"><br></font></div><div>
<font face="'trebuchet ms', sans-serif">Meng Chen</font></div>