<html>

  <head>

    <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">

  </head>

  <body bgcolor="#FFFFFF" text="#000000">

    <div class="moz-cite-prefix">Hi Siva,<br>

      <br>

      Thanks a lot, with these arguments the perplexity is very close to

      the reported 141.2 (still not entirely the same though):<br>

      <br>

      <jpeleman@spchcl23:~/exp/025> ngram-count -order 5 -text

      data/penn/ptb.train.txt -lm models/ptb.train_5-gram_kn.arpa7

      -kndiscount -interpolate -unk -gt3min 1 -gt4min 1<br>

      <jpeleman@spchcl23:~/exp/025> ngram -ppl

      data/penn/ptb.test.txt -lm models/ptb.train_5-gram_kn.arpa7 -order

      5 -unk<br>

      file data/penn/ptb.test.txt: 3761 sentences, 78669 words, 0 OOVs<br>

      0 zeroprobs, logprob= -177278 ppl= <b>141.464</b> ppl1= 179.251<br>

      <br>

      I wonder about the value of experiments that include <unk>

      in the perplexity calculation. Does it not make the problem a lot

      easier (predicting a huge class is not hard - imagine mapping all

      words to <unk>) and as such yield misleading results?<br>

      <br>

      Joris<br>

      <br>

      <br>

      On 07/09/14 16:24, Siva Reddy Gangireddy wrote:<br>

    </div>

    <blockquote

cite="mid:CAL6CX2n5VOWzoCYKf8gxXFXsiN-ia3eSWrH6-HpM9boT+gQycw@mail.gmail.com"

      type="cite">

      <div dir="ltr">Hi Joris,

        <div><br>

        </div>

        <div>Use the count cut-offs like this. </div>

        <div><br>

        </div>

        <div>

          <div>ngram-count -order 5 -text <span

              style="color:rgb(0,0,0);font-family:arial,sans-serif;font-size:13px">ptb.train.txt</span> -lm

            templm -kndiscount -interpolate -unk -gt3min 1 -gt4min 1</div>

        </div>

        <div>ngram -ppl <span

            style="color:rgb(0,0,0);font-family:arial,sans-serif;font-size:13px">ptb.test.txt</span> -lm

          templm -order 5 -unk<br>

        </div>

        <div><br>

        </div>

        <div>By default SRILM uses different count cut-offs.<br>

        </div>

        <div><br>

        </div>

        <div>---</div>

        <div>Siva</div>

        <div><br>

        </div>

      </div>

      <div class="gmail_extra"><br>

        <br>

        <div class="gmail_quote">On Wed, Jul 9, 2014 at 11:03 PM, Joris

          Pelemans <span dir="ltr"><<a moz-do-not-send="true"

              href="mailto:Joris.Pelemans@esat.kuleuven.be"

              target="_blank">Joris.Pelemans@esat.kuleuven.be</a>></span>

          wrote:<br>

          <blockquote class="gmail_quote" style="margin:0 0 0

            .8ex;border-left:1px #ccc solid;padding-left:1ex">

            <div bgcolor="#FFFFFF" text="#000000"> Hi all,<br>

              <br>

              I'm trying to reproduce some reported N-gram perplexity

              results on the Penn Treebank with SRILM, but somehow my

              results are always different by a large degree. Since I

              will be interpolating with these models and comparing the

              interpolated model with others, I would really prefer to

              start on the same level :-).<br>

              <br>

              The data set I'm using is the one that comes with

              Mikolov's RNNLM toolkit and applies the same processing of

              data as used in many LM papers, including "Empirical

              Evaluation and Combination of Advanced Language Modeling

              Techniques". In that paper, Mikolov et al report a KN5

              perplexity of 141.2. It's not entirely clear (1) whether

              they ignore OOV words or simply use the <unk>

              probability; and (2) whether it's a back-off or

              interpolated model, but I assume the latter as this has

              been reported as best many times. They do report using

              SRILM and no count cut-offs.<br>

              <br>

              I have tried building the same model in many ways:<br>

              <br>

              <b>regular:</b> ngram-count -order 5 -text

              data/penn/ptb.train.txt -lm

              models/ptb.train_5-gram_kn.arpa2 -kndiscount -interpolate<br>

              <b>open vocab:</b> ngram-count -order 5 -text

              data/penn/ptb.train.txt -lm

              models/ptb.train_5-gram_kn.arpa3 -kndiscount -interpolate

              -unk<br>

              <b>no sentence markers:</b> ngram-count -order 5 -text

              data/penn/ptb.train.txt -lm

              models/ptb.train_5-gram_kn.arpa4 -kndiscount -interpolate

              -no-sos -no-eos<br>

              <b>open vocab + no sentence markers:</b> ngram-count

              -order 5 -text data/penn/ptb.train.txt -lm

              models/ptb.train_5-gram_kn.arpa5 -kndiscount -interpolate

              -unk -no-sos -no-eos<br>

              <b>back-off (just in case</b><b>):</b> ngram-count -order

              5 -text data/penn/ptb.train.txt -lm

              models/ptb.train_5-gram_kn.arpa5 -kndiscount -unk<br>

              <br>

              None of them however, give me a perplexity of 141.2:<br>

              <br>

              <jpeleman@spchcl23:~/exp/025> ngram -ppl

              data/penn/ptb.test.txt -lm

              models/ptb.train_5-gram_kn.arpa2 -order 5<br>

              file data/penn/ptb.test.txt: 3761 sentences, 78669 words,

              4794 OOVs<br>

              0 zeroprobs, logprob= -172723 ppl= 167.794 ppl1= 217.791<br>

              <br>

              <jpeleman@spchcl23:~/exp/025> ngram -ppl

              data/penn/ptb.test.txt -lm

              models/ptb.train_5-gram_kn.arpa3 -order 5 -unk<br>

              file data/penn/ptb.test.txt: 3761 sentences, 78669 words,

              0 OOVs<br>

              0 zeroprobs, logprob= -178859 ppl= 147.852 ppl1= 187.743<br>

              <br>

              <jpeleman@spchcl23:~/exp/025> ngram -ppl

              data/penn/ptb.test.txt -lm

              models/ptb.train_5-gram_kn.arpa4 -order 5<br>

              file data/penn/ptb.test.txt: 3761 sentences, 78669 words,

              4794 OOVs<br>

              0 zeroprobs, logprob= -179705 ppl= 206.4 ppl1= 270.74<br>

              <br>

              <jpeleman@spchcl23:~/exp/025> ngram -ppl

              data/penn/ptb.test.txt -lm

              models/ptb.train_5-gram_kn.arpa5 -order 5 -unk<br>

              file data/penn/ptb.test.txt: 3761 sentences, 78669 words,

              0 OOVs<br>

              0 zeroprobs, logprob= -186444 ppl= 182.746 ppl1= 234.414<br>

              <br>

              <jpeleman@spchcl23:~/exp/025> ngram -ppl

              data/penn/ptb.test.txt -lm

              models/ptb.train_5-gram_kn.arpa5 -order 5 -unk<br>

              file data/penn/ptb.test.txt: 3761 sentences, 78669 words,

              0 OOVs<br>

              0 zeroprobs, logprob= -181381 ppl= 158.645 ppl1= 202.127<br>

              <br>

              So... what am I missing here? 147.852 is close, but still

              not quite 141.2.<span class="HOEnZb"><font color="#888888"><br>

                  <br>

                  Joris<br>

                </font></span></div>

            <br>

            _______________________________________________<br>

            SRILM-User site list<br>

            <a moz-do-not-send="true"

              href="mailto:SRILM-User@speech.sri.com">SRILM-User@speech.sri.com</a><br>

            <a moz-do-not-send="true"

              href="http://www.speech.sri.com/mailman/listinfo/srilm-user"

              target="_blank">http://www.speech.sri.com/mailman/listinfo/srilm-user</a><br>

          </blockquote>

        </div>

        <br>

      </div>

      <br>

      <fieldset class="mimeAttachmentHeader"></fieldset>

      <br>

      <pre wrap="">The University of Edinburgh is a charitable body, registered in

Scotland, with registration number SC005336.

</pre>

    </blockquote>

    <br>

  </body>

</html>