The output of the comand <u>ngram -lm ../$a -order 3  -ppl $ficheiro -debug 2</u> was:<br><br>   reading 2534558 1-grams<br>reading 5070525 2-grams<br>reading 514318 3-grams<br>Entretanto , gostaria - como também me foi pedido por um berto número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
    p( Entretanto | &lt;s&gt; )     = [2gram] 8.49107e-05 [ -4.07104 ]<br>    p( , | Entretanto ...)     = [1gram] 3.21842e-06 [ -5.49236 ]<br>    p( gostaria | , ...)     = [1gram] 7.06302e-11 [ -10.151 ]<br>    p( - | gostaria ...)     = [1gram] 8.13218e-08 [ -7.08979 ]<br>
    p( como | - ...)     = [1gram] 2.85049e-07 [ -6.54508 ]<br>    p( também | como ...)     = [1gram] 4.05163e-09 [ -8.39237 ]<br>    p( me | também ...)     = [1gram] 8.49376e-10 [ -9.0709 ]<br>    p( foi | me ...)     = [1gram] 4.47088e-08 [ -7.34961 ]<br>
    p( pedido | foi ...)     = [1gram] 4.05975e-10 [ -9.3915 ]<br>    p( por | pedido ...)     = [1gram] 2.5038e-07 [ -6.6014 ]<br>    p( um | por ...)     = [1gram] 2.56193e-08 [ -7.59143 ]<br>    p( berto | um ...)     = [1gram] 4.86698e-14 [ -13.3127 ]<br>
    p( número | berto ...)     = [1gram] 5.96197e-05 [ -4.22461 ]<br>    p( de | número ...)     = [1gram] 5.85878e-07 [ -6.23219 ]<br>    p( colegas | de ...)     = [1gram] 1.32781e-10 [ -9.87686 ]<br>    p( - | colegas ...)     = [1gram] 4.35755e-08 [ -7.36076 ]<br>
    p( que | - ...)     = [1gram] 2.0885e-06 [ -5.68017 ]<br>    p( &lt;unk&gt; | que ...)     = [OOV] 0 [ -inf ]<br>    p( um | &lt;unk&gt; ...)     = [1gram] 0.00380802 [ -2.4193 ]<br>    p( minuto | um ...)     = [1gram] 8.6097e-11 [ -10.065 ]<br>
    p( de | minuto ...)     = [1gram] 7.52106e-06 [ -5.12372 ]<br>    p( silêncio | de ...)     = [1gram] 1.464e-10 [ -9.83446 ]<br>    p( por | silêncio ...)     = [1gram] 5.40085e-07 [ -6.26754 ]<br>    p( todas | por ...)     = [1gram] 1.00466e-09 [ -8.99798 ]<br>
    p( as | todas ...)     = [1gram] 7.24361e-08 [ -7.14005 ]<br>    p( vítimas | as ...)     = [1gram] 2.70164e-10 [ -9.56837 ]<br>    p( , | vítimas ...)     = [1gram] 4.01984e-06 [ -5.39579 ]<br>    p( nomeadamente | , ...)     = [1gram] 4.20626e-10 [ -9.3761 ]<br>
    p( das | nomeadamente ...)     = [1gram] 1.19202e-07 [ -6.92372 ]<br>    p( tempestades | das ...)     = [1gram] 1.25367e-11 [ -10.9018 ]<br>    p( , | tempestades ...)     = [1gram] 8.7829e-05 [ -4.05636 ]<br>    p( nos | , ...)     = [1gram] 4.62879e-09 [ -8.33453 ]<br>
    p( diferentes | nos ...)     = [1gram] 7.62e-10 [ -9.11804 ]<br>    p( países | diferentes ...)     = [1gram] 1.3381e-08 [ -7.87351 ]<br>    p( da | países ...)     = [1gram] 1.71119e-07 [ -6.7667 ]<br>    p( União | da ...)     = [1gram] 5.95701e-10 [ -9.22497 ]<br>
    p( Europeia | União ...)     = [1gram] 3.99405e-09 [ -8.39859 ]<br>    p( que | Europeia ...)     = [1gram] 5.50769e-07 [ -6.25903 ]<br>    p( foram | que ...)     = [1gram] 2.21802e-09 [ -8.65403 ]<br>    p( afectados | foram ...)     = [1gram] 7.34577e-11 [ -10.134 ]<br>
    p( . | afectados ...)     = [1gram] 1.17651e-05 [ -4.92941 ]<br>    p( &lt;/s&gt; | . ...)     = [2gram] 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 1 OOVs<br>0 zeroprobs, logprob= -304.197 ppl= 2.62685e+07 ppl1= 4.02644e+07<br>
<br>$<br>    p( &lt;unk&gt; | &lt;s&gt; )     = [OOV] 0 [ -inf ]<br>    p( &lt;/s&gt; | &lt;unk&gt; ...)     = [1gram] 0.510709 [ -0.291827 ]<br>1 sentences, 1 words, 1 OOVs<br>0 zeroprobs, logprob= -0.291827 ppl= 1.95806 ppl1= undefined<br>
<br>Entretanto , gostaria - como também me foi pedido por um perto número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
    p( Entretanto | &lt;s&gt; )     = [2gram] 8.49107e-05 [ -4.07104 ]<br>    p( , | Entretanto ...)     = [1gram] 3.21842e-06 [ -5.49236 ]<br>    p( gostaria | , ...)     = [1gram] 7.06302e-11 [ -10.151 ]<br>    p( - | gostaria ...)     = [1gram] 8.13218e-08 [ -7.08979 ]<br>
    p( como | - ...)     = [1gram] 2.85049e-07 [ -6.54508 ]<br>    p( também | como ...)     = [1gram] 4.05163e-09 [ -8.39237 ]<br>    p( me | também ...)     = [1gram] 8.49376e-10 [ -9.0709 ]<br>    p( foi | me ...)     = [1gram] 4.47088e-08 [ -7.34961 ]<br>
    p( pedido | foi ...)     = [1gram] 4.05975e-10 [ -9.3915 ]<br>    p( por | pedido ...)     = [1gram] 2.5038e-07 [ -6.6014 ]<br>    p( um | por ...)     = [1gram] 2.56193e-08 [ -7.59143 ]<br>    p( perto | um ...)     = [1gram] 4.29592e-10 [ -9.36694 ]<br>
    p( número | perto ...)     = [1gram] 1.18038e-08 [ -7.92798 ]<br>    p( de | número ...)     = [1gram] 5.85878e-07 [ -6.23219 ]<br>    p( colegas | de ...)     = [1gram] 1.32781e-10 [ -9.87686 ]<br>    p( - | colegas ...)     = [1gram] 4.35755e-08 [ -7.36076 ]<br>
    p( que | - ...)     = [1gram] 2.0885e-06 [ -5.68017 ]<br>    p( &lt;unk&gt; | que ...)     = [OOV] 0 [ -inf ]<br>    p( um | &lt;unk&gt; ...)     = [1gram] 0.00380802 [ -2.4193 ]<br>    p( minuto | um ...)     = [1gram] 8.6097e-11 [ -10.065 ]<br>
    p( de | minuto ...)     = [1gram] 7.52106e-06 [ -5.12372 ]<br>    p( silêncio | de ...)     = [1gram] 1.464e-10 [ -9.83446 ]<br>    p( por | silêncio ...)     = [1gram] 5.40085e-07 [ -6.26754 ]<br>    p( todas | por ...)     = [1gram] 1.00466e-09 [ -8.99798 ]<br>
    p( as | todas ...)     = [1gram] 7.24361e-08 [ -7.14005 ]<br>    p( vítimas | as ...)     = [1gram] 2.70164e-10 [ -9.56837 ]<br>    p( , | vítimas ...)     = [1gram] 4.01984e-06 [ -5.39579 ]<br>    p( nomeadamente | , ...)     = [1gram] 4.20626e-10 [ -9.3761 ]<br>
    p( das | nomeadamente ...)     = [1gram] 1.19202e-07 [ -6.92372 ]<br>    p( tempestades | das ...)     = [1gram] 1.25367e-11 [ -10.9018 ]<br>    p( , | tempestades ...)     = [1gram] 8.7829e-05 [ -4.05636 ]<br>    p( nos | , ...)     = [1gram] 4.62879e-09 [ -8.33453 ]<br>
    p( diferentes | nos ...)     = [1gram] 7.62e-10 [ -9.11804 ]<br>    p( países | diferentes ...)     = [1gram] 1.3381e-08 [ -7.87351 ]<br>    p( da | países ...)     = [1gram] 1.71119e-07 [ -6.7667 ]<br>    p( União | da ...)     = [1gram] 5.95701e-10 [ -9.22497 ]<br>
    p( Europeia | União ...)     = [1gram] 3.99405e-09 [ -8.39859 ]<br>    p( que | Europeia ...)     = [1gram] 5.50769e-07 [ -6.25903 ]<br>    p( foram | que ...)     = [1gram] 2.21802e-09 [ -8.65403 ]<br>    p( afectados | foram ...)     = [1gram] 7.34577e-11 [ -10.134 ]<br>
    p( . | afectados ...)     = [1gram] 1.17651e-05 [ -4.92941 ]<br>    p( &lt;/s&gt; | . ...)     = [2gram] 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 1 OOVs<br>0 zeroprobs, logprob= -303.954 ppl= 2.59133e+07 ppl1= 3.97064e+07<br>
<br>$<br>    p( &lt;unk&gt; | &lt;s&gt; )     = [OOV] 0 [ -inf ]<br>    p( &lt;/s&gt; | &lt;unk&gt; ...)     = [1gram] 0.510709 [ -0.291827 ]<br>1 sentences, 1 words, 1 OOVs<br>0 zeroprobs, logprob= -0.291827 ppl= 1.95806 ppl1= undefined<br>
<br>Entretanto , gostaria - como também me foi pedido por um certo número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
    p( Entretanto | &lt;s&gt; )     = [2gram] 8.49107e-05 [ -4.07104 ]<br>    p( , | Entretanto ...)     = [1gram] 3.21842e-06 [ -5.49236 ]<br>    p( gostaria | , ...)     = [1gram] 7.06302e-11 [ -10.151 ]<br>    p( - | gostaria ...)     = [1gram] 8.13218e-08 [ -7.08979 ]<br>
    p( como | - ...)     = [1gram] 2.85049e-07 [ -6.54508 ]<br>    p( também | como ...)     = [1gram] 4.05163e-09 [ -8.39237 ]<br>    p( me | também ...)     = [1gram] 8.49376e-10 [ -9.0709 ]<br>    p( foi | me ...)     = [1gram] 4.47088e-08 [ -7.34961 ]<br>
    p( pedido | foi ...)     = [1gram] 4.05975e-10 [ -9.3915 ]<br>    p( por | pedido ...)     = [1gram] 2.5038e-07 [ -6.6014 ]<br>    p( um | por ...)     = [1gram] 2.56193e-08 [ -7.59143 ]<br>    p( certo | um ...)     = [1gram] 4.45119e-10 [ -9.35152 ]<br>
    p( número | certo ...)     = [1gram] 1.13921e-08 [ -7.9434 ]<br>    p( de | número ...)     = [1gram] 5.85878e-07 [ -6.23219 ]<br>    p( colegas | de ...)     = [1gram] 1.32781e-10 [ -9.87686 ]<br>    p( - | colegas ...)     = [1gram] 4.35755e-08 [ -7.36076 ]<br>
    p( que | - ...)     = [1gram] 2.0885e-06 [ -5.68017 ]<br>    p( &lt;unk&gt; | que ...)     = [OOV] 0 [ -inf ]<br>    p( um | &lt;unk&gt; ...)     = [1gram] 0.00380802 [ -2.4193 ]<br>    p( minuto | um ...)     = [1gram] 8.6097e-11 [ -10.065 ]<br>
    p( de | minuto ...)     = [1gram] 7.52106e-06 [ -5.12372 ]<br>    p( silêncio | de ...)     = [1gram] 1.464e-10 [ -9.83446 ]<br>    p( por | silêncio ...)     = [1gram] 5.40085e-07 [ -6.26754 ]<br>    p( todas | por ...)     = [1gram] 1.00466e-09 [ -8.99798 ]<br>
    p( as | todas ...)     = [1gram] 7.24361e-08 [ -7.14005 ]<br>    p( vítimas | as ...)     = [1gram] 2.70164e-10 [ -9.56837 ]<br>    p( , | vítimas ...)     = [1gram] 4.01984e-06 [ -5.39579 ]<br>    p( nomeadamente | , ...)     = [1gram] 4.20626e-10 [ -9.3761 ]<br>
    p( das | nomeadamente ...)     = [1gram] 1.19202e-07 [ -6.92372 ]<br>    p( tempestades | das ...)     = [1gram] 1.25367e-11 [ -10.9018 ]<br>    p( , | tempestades ...)     = [1gram] 8.7829e-05 [ -4.05636 ]<br>    p( nos | , ...)     = [1gram] 4.62879e-09 [ -8.33453 ]<br>
    p( diferentes | nos ...)     = [1gram] 7.62e-10 [ -9.11804 ]<br>    p( países | diferentes ...)     = [1gram] 1.3381e-08 [ -7.87351 ]<br>    p( da | países ...)     = [1gram] 1.71119e-07 [ -6.7667 ]<br>    p( União | da ...)     = [1gram] 5.95701e-10 [ -9.22497 ]<br>
    p( Europeia | União ...)     = [1gram] 3.99405e-09 [ -8.39859 ]<br>    p( que | Europeia ...)     = [1gram] 5.50769e-07 [ -6.25903 ]<br>    p( foram | que ...)     = [1gram] 2.21802e-09 [ -8.65403 ]<br>    p( afectados | foram ...)     = [1gram] 7.34577e-11 [ -10.134 ]<br>
    p( . | afectados ...)     = [1gram] 1.17651e-05 [ -4.92941 ]<br>    p( &lt;/s&gt; | . ...)     = [2gram] 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 1 OOVs<br>0 zeroprobs, logprob= -303.954 ppl= 2.59133e+07 ppl1= 3.97064e+07<br>
<br>$<br>    p( &lt;unk&gt; | &lt;s&gt; )     = [OOV] 0 [ -inf ]<br>    p( &lt;/s&gt; | &lt;unk&gt; ...)     = [1gram] 0.510709 [ -0.291827 ]<br>1 sentences, 1 words, 1 OOVs<br>0 zeroprobs, logprob= -0.291827 ppl= 1.95806 ppl1= undefined<br>
<br>file final.txt: 6 sentences, 126 words, 6 OOVs<br>0 zeroprobs, logprob= -912.981 ppl= 1.7615e+07 ppl1= 4.05673e+07<br><br><br><br><br>******<br>It seems diferent.<br>Can you help me?<br><br><div class="gmail_quote">On Mon, Jan 11, 2010 at 11:49 AM, Manuel Alves <span dir="ltr">&lt;<a href="mailto:beleira@gmail.com">beleira@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hi  Andreas.<br>The output of the ngram-count was:<br>                                               [root@localhost Corporas]# ../srilm/bin/i686/ngram-count -order 3 -text CETEMPublico1.7 -lm LM<br>
                                               warning: discount coeff 1 is out of range: 1.44451e-17<br>
<br>I dont know if there is any problem with GT discount method.<br><br><br><div class="gmail_quote"><div><div></div><div class="h5">On Fri, Jan 8, 2010 at 9:52 PM, Andreas Stolcke <span dir="ltr">&lt;<a href="mailto:stolcke@speech.sri.com" target="_blank">stolcke@speech.sri.com</a>&gt;</span> wrote:<br>

</div></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div><div></div><div class="h5">


  

<div bgcolor="#ffffff" text="#000000"><div>
On 1/8/2010 3:57 AM, Manuel Alves wrote:
</div><blockquote type="cite"><br>
  <br>
  <div class="gmail_quote"><div>---------- Forwarded message ----------<br>
From: <b class="gmail_sendername">Manuel Alves</b> <span dir="ltr">&lt;<a href="mailto:beleira@gmail.com" target="_blank">beleira@gmail.com</a>&gt;</span><br></div><div>
Date: Fri, Jan 8, 2010 at 10:40 AM<br>
Subject: Re: Fwd: ngram-count<br>
To: Andreas Stolcke &lt;<a href="mailto:stolcke@speech.sri.com" target="_blank">stolcke@speech.sri.com</a>&gt;<br>
  <br>
  <br>
1. ngram-count -text CETEMPublico1.7 -lm LM<br>
2.I test it in this way:<br>
                             I use the client-server architecture of
SRILM<br>
                             SERVER : ngram -lm ../$a -server-port 100
-order 3 <br>
                             CLIENT   : ngram -use-server
100\@localhost -cache-served-ngrams -ppl $ficheiro -debug 2 2&gt;&amp;1<br>
                             where $ficheiro is this:<br>
                                                                 </div></div>
</blockquote>
<br>
<blockquote type="cite">
  <div class="gmail_quote">                <br>
  <br><div>
    p( observássemos | que ...)     =  0 [ -inf ]<br>
  </div></div>
</blockquote>
<br><div>
<blockquote type="cite">
  <div class="gmail_quote">file final.txt: 6 sentences, 126 words, 0
OOVs<br>
6 zeroprobs, logprob= -912.981 ppl= 1.7615e+07 ppl1= 4.05673e+07<br>
  </div>
</blockquote>
<br></div>
It looks to me like everything is working as intended.   You are
getting zeroprobs, but not a large number of them.<br>
They are low-frequency words (like the one above), so it makes sense,
since they are probably not contained in the training corpus.<br>
<br>
The perplexity is quite high, but that could be because of a small, or
mismatched training corpus.   You didn&#39;t include the output of the
ngram-count program, it&#39;s possible that the GT (default) discounting
method reported some problems that are not evident from your mail.<br>
<br>
One thing to note is that with network-server LMs you don&#39;t get OOVs,
because all words are implicitly added to the vocabulary. Consequently,
OOVs are counted as zeroprobs instead, but both types of tokens are
equivalent for perplexity computation.<br>
Still, you could run <br>
         ngram -lm ../$a -order 3  -ppl $ficheiro -debug 2<br>
just to make sure you&#39;re getting the same result.<br><font color="#888888">
<br>
Andreas</font><div><br>
<br>
<blockquote type="cite">
  <div class="gmail_quote"><u><font color="#888888">Manuel Alves.  </font></u><br>
  <div>
  <div><br>
  <div class="gmail_quote">On Thu, Jan 7, 2010 at 8:35 PM, Andreas
Stolcke <span dir="ltr">&lt;<a href="mailto:stolcke@speech.sri.com" target="_blank">stolcke@speech.sri.com</a>&gt;</span>
wrote:<br>
  <blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
    <div bgcolor="#ffffff" text="#000000">
    <div>
    <div>On 1/6/2010 10:34 AM, Manuel Alves wrote:
    <blockquote type="cite"><br>
      <br>
      <div class="gmail_quote">---------- Forwarded message ----------<br>
From: <b class="gmail_sendername">Manuel Alves</b> <span dir="ltr">&lt;<a href="mailto:beleira@gmail.com" target="_blank">beleira@gmail.com</a>&gt;</span><br>
Date: Wed, Jan 6, 2010 at 6:33 PM<br>
Subject: ngram-count<br>
To: <a href="mailto:srilm-user@speech.sri.com" target="_blank">srilm-user@speech.sri.com</a><br>
      <br>
      <br>
Hi people.<br>
I need help whith ngram-count because i am training a model but when
after i try to use it some test example he gives me Zeroprobs in the
output.<br>
This means that the model is bad trained?<br>
Please answer me.<br>
Best regards,<br>
      <font color="#888888">Manuel Alves.<br>
      </font></div>
    </blockquote>
    <br>
    </div>
    </div>
    </div>
  </blockquote>
  </div>
  </div>
  </div>
  </div>
</blockquote>
</div></div>

<br></div></div>_______________________________________________<br>
SRILM-User site list<br>
<a href="mailto:SRILM-User@speech.sri.com" target="_blank">SRILM-User@speech.sri.com</a><br>
<a href="http://www.speech.sri.com/mailman/listinfo/srilm-user" target="_blank">http://www.speech.sri.com/mailman/listinfo/srilm-user</a><br></blockquote></div><br>
</blockquote></div><br>