Hi, suppose I have trained three big LMs: LM1 LM2 and LM3, each of which has more than billions of ngrams. I wonder to know how to interpolate such big LMs together. I found that the ngram command in SRILM would load all the LMs in memory firstly, so it will reach the limitation of server's memory. In such situation, how can I get the interpolation of big LMs?<div>
<br><div>Another question about training LM with large corpus. There are two methods:</div><div>1) I can pool all data to train a big LM0. </div><div>2) I can split the data into several parts, and train small LMs (eg. LM1 and LM2). Then interpolate them with average weight (eg. 0.5 X LM1 + 0.5 X LM2 ) to get the final LM3.</div>
<div>All the cut-offs and smoothing algorithm are the same for both methods. So does LM3 the same with LM0?</div><div><br></div><div>Thanks!</div><div><br></div><div>Meng CHRN</div></div>