<div style>Hello, I tried to make the language model from some non-native spontaneous speech transcription. However, there are lots of "strange words" in the corpus because the transcriber tried to transcribe as close as the real pronunciation.</div>
<div style><br></div><div style>For example, some transcriptions are as follows:</div><div style><br></div><span style><s> she taught english there and she gave english lesson to a secondary school students in </span><b style>boli bolivi  bolivia</b><span style></s></span><div style>
<s> <b>er</b> what's wrong <b>er </b>he asked she asked </s></div><div style><s> her her mother would <b>em er</b> her she took her mother in her own house and the baby <b>em</b> <b>moven bester</b></s></div>
<div style><br></div><div style>So I want to ask how should I process these "strange words" that don't exist such as boli, bolivi, er, em, moven, bester etc.</div><div style>If I replace them with the correct words, the language model will be unsuitable for the non-native spontaneous speech task.  </div>
<div style>If I keep them, their counts and probability are too small. And the dictionary is also hard to generate.</div><div style><br></div><div style>Are there any suggestions?</div><div style><br></div><div style>Thanks!</div>