<div>Hi, I am using the <b>select-vocab</b> command to choose vocabulary from corpus A and B in a Chinese speech recognition task, the command is as follows:</div><div><b>select-vocab -heldout dev A B > vocab_with_weight</b></div>
<div>Then I saw the prompts below:</div><div><i><b>Iter 0: lambdas = (0.5 0.5)</b></i></div><div><i><b>Iter 1: lambdas = (0.443075 0.556925) log P(held-out) = -374805.0047 PPL = 6937.8495</b></i></div><div><i><b>Iter 2: lambdas = (0.399799 0.600201) log P(held-out) = -374319.5890 PPL = 6858.8301</b></i></div>
<div><i><b>Iter 3: lambdas = (0.366822 0.633178) log P(held-out) = -374032.9165 PPL = 6812.5869</b></i></div><div><i><b>Iter 4: lambdas = (0.341533 0.658467) log P(held-out) = -373860.8231 PPL = 6784.9764</b></i></div><div>
I want to ask what's the meaning of PPL. Does the command train a LM with corpus A and B first, then calculate the PPL of heldout data with the LM?</div><div>If corpus A and B are 10GB each, how much the heldout data should be at least in order to choose a reasonable vocabulary?</div>
<div><br></div><div>Thanks!</div><div>Meng CHEN</div><div><br></div>