Sorry the output of the ngram-count is this:<br>server 100@localhost: probserver ready<br>Entretanto , gostaria - como também me foi pedido por um berto número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
p( Entretanto | <s> ) = 8.47227e-05 [ -4.072 ]<br> p( , | Entretanto ...) = 3.18141e-06 [ -5.49738 ]<br> p( gostaria | , ...) = 7.02586e-11 [ -10.1533 ]<br> p( - | gostaria ...) = 3.95649e-08 [ -7.40269 ]<br>
p( como | - ...) = 1.74273e-07 [ -6.75877 ]<br> p( também | como ...) = 4.00507e-09 [ -8.39739 ]<br> p( me | também ...) = 8.39614e-10 [ -9.07592 ]<br> p( foi | me ...) = 2.1752e-08 [ -7.6625 ]<br>
p( pedido | foi ...) = 4.0131e-10 [ -9.39652 ]<br> p( por | pedido ...) = 1.21818e-07 [ -6.91429 ]<br> p( um | por ...) = 2.5325e-08 [ -7.59645 ]<br> p( berto | um ...) = 4.81061e-14 [ -13.3178 ]<br>
p( número | berto ...) = 3.80189e-05 [ -4.42 ]<br> p( de | número ...) = 2.85043e-07 [ -6.54509 ]<br> p( colegas | de ...) = 1.31686e-10 [ -9.88046 ]<br> p( - | colegas ...) = 2.12007e-08 [ -7.67365 ]<br>
p( que | - ...) = 1.27685e-06 [ -5.89386 ]<br> p( observássemos | que ...) = 3.4788e-08 [ -7.45857 ]<br> p( um | observássemos ...) = 0.00378643 [ -2.42177 ]<br> p( minuto | um ...) = 8.51139e-11 [ -10.07 ]<br>
p( de | minuto ...) = 3.65915e-06 [ -5.43662 ]<br> p( silêncio | de ...) = 1.45194e-10 [ -9.83805 ]<br> p( por | silêncio ...) = 2.62766e-07 [ -6.58043 ]<br> p( todas | por ...) = 9.93115e-10 [ -9.003 ]<br>
p( as | todas ...) = 3.5242e-08 [ -7.45294 ]<br> p( vítimas | as ...) = 2.67061e-10 [ -9.57339 ]<br> p( , | vítimas ...) = 1.95573e-06 [ -5.70869 ]<br> p( nomeadamente | , ...) = 4.18398e-10 [ -9.37841 ]<br>
p( das | nomeadamente ...) = 5.79949e-08 [ -7.23661 ]<br> p( tempestades | das ...) = 1.23937e-11 [ -10.9068 ]<br> p( , | tempestades ...) = 4.27307e-05 [ -4.36926 ]<br> p( nos | , ...) = 4.60427e-09 [ -8.33684 ]<br>
p( diferentes | nos ...) = 7.88189e-10 [ -9.10337 ]<br> p( países | diferentes ...) = 6.51014e-09 [ -8.18641 ]<br> p( da | países ...) = 8.3253e-08 [ -7.0796 ]<br> p( União | da ...) = 5.88857e-10 [ -9.22999 ]<br>
p( Europeia | União ...) = 4.2602e-09 [ -8.37057 ]<br> p( que | Europeia ...) = 2.6796e-07 [ -6.57193 ]<br> p( foram | que ...) = 2.1925e-09 [ -8.65906 ]<br> p( afectados | foram ...) = 3.57355e-11 [ -10.4469 ]<br>
p( . | afectados ...) = 5.724e-06 [ -5.2423 ]<br> p( </s> | . ...) = 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 0 OOVs<br>0 zeroprobs, logprob= -317.32 ppl= 3.5911e+07 ppl1= 5.48911e+07<br>
<br>$<br> p( $ | <s> ) = 2.54806e-05 [ -4.59379 ]<br> p( </s> | $ ...) = 0.50782 [ -0.29429 ]<br>1 sentences, 1 words, 0 OOVs<br>0 zeroprobs, logprob= -4.88808 ppl= 277.997 ppl1= 77282.3<br><br>
Entretanto , gostaria - como também me foi pedido por um perto número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
p( Entretanto | <s> ) = 8.47227e-05 [ -4.072 ]<br> p( , | Entretanto ...) = 3.18141e-06 [ -5.49738 ]<br> p( gostaria | , ...) = 7.02586e-11 [ -10.1533 ]<br> p( - | gostaria ...) = 3.95649e-08 [ -7.40269 ]<br>
p( como | - ...) = 1.74273e-07 [ -6.75877 ]<br> p( também | como ...) = 4.00507e-09 [ -8.39739 ]<br> p( me | também ...) = 8.39614e-10 [ -9.07592 ]<br> p( foi | me ...) = 2.1752e-08 [ -7.6625 ]<br>
p( pedido | foi ...) = 4.0131e-10 [ -9.39652 ]<br> p( por | pedido ...) = 1.21818e-07 [ -6.91429 ]<br> p( um | por ...) = 2.5325e-08 [ -7.59645 ]<br> p( perto | um ...) = 4.24659e-10 [ -9.37196 ]<br>
p( número | perto ...) = 5.74288e-09 [ -8.24087 ]<br> p( de | número ...) = 2.85043e-07 [ -6.54509 ]<br> p( colegas | de ...) = 1.31686e-10 [ -9.88046 ]<br> p( - | colegas ...) = 2.12007e-08 [ -7.67365 ]<br>
p( que | - ...) = 1.27685e-06 [ -5.89386 ]<br> p( observássemos | que ...) = 3.4788e-08 [ -7.45857 ]<br> p( um | observássemos ...) = 0.00378643 [ -2.42177 ]<br> p( minuto | um ...) = 8.51139e-11 [ -10.07 ]<br>
p( de | minuto ...) = 3.65915e-06 [ -5.43662 ]<br> p( silêncio | de ...) = 1.45194e-10 [ -9.83805 ]<br> p( por | silêncio ...) = 2.62766e-07 [ -6.58043 ]<br> p( todas | por ...) = 9.93115e-10 [ -9.003 ]<br>
p( as | todas ...) = 3.5242e-08 [ -7.45294 ]<br> p( vítimas | as ...) = 2.67061e-10 [ -9.57339 ]<br> p( , | vítimas ...) = 1.95573e-06 [ -5.70869 ]<br> p( nomeadamente | , ...) = 4.18398e-10 [ -9.37841 ]<br>
p( das | nomeadamente ...) = 5.79949e-08 [ -7.23661 ]<br> p( tempestades | das ...) = 1.23937e-11 [ -10.9068 ]<br> p( , | tempestades ...) = 4.27307e-05 [ -4.36926 ]<br> p( nos | , ...) = 4.60427e-09 [ -8.33684 ]<br>
p( diferentes | nos ...) = 7.88189e-10 [ -9.10337 ]<br> p( países | diferentes ...) = 6.51014e-09 [ -8.18641 ]<br> p( da | países ...) = 8.3253e-08 [ -7.0796 ]<br> p( União | da ...) = 5.88857e-10 [ -9.22999 ]<br>
p( Europeia | União ...) = 4.2602e-09 [ -8.37057 ]<br> p( que | Europeia ...) = 2.6796e-07 [ -6.57193 ]<br> p( foram | que ...) = 2.1925e-09 [ -8.65906 ]<br> p( afectados | foram ...) = 3.57355e-11 [ -10.4469 ]<br>
p( . | afectados ...) = 5.724e-06 [ -5.2423 ]<br> p( </s> | . ...) = 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 0 OOVs<br>0 zeroprobs, logprob= -317.195 ppl= 3.56659e+07 ppl1= 5.45072e+07<br>
<br>$<br> p( $ | <s> ) = 2.54806e-05 [ -4.59379 ]<br> p( </s> | $ ...) = 0.50782 [ -0.29429 ]<br>1 sentences, 1 words, 0 OOVs<br>0 zeroprobs, logprob= -4.88808 ppl= 277.997 ppl1= 77282.3<br><br>
Entretanto , gostaria - como também me foi pedido por um certo número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
p( Entretanto | <s> ) = 8.47227e-05 [ -4.072 ]<br> p( , | Entretanto ...) = 3.18141e-06 [ -5.49738 ]<br> p( gostaria | , ...) = 7.02586e-11 [ -10.1533 ]<br> p( - | gostaria ...) = 3.95649e-08 [ -7.40269 ]<br>
p( como | - ...) = 1.74273e-07 [ -6.75877 ]<br> p( também | como ...) = 4.00507e-09 [ -8.39739 ]<br> p( me | também ...) = 8.39614e-10 [ -9.07592 ]<br> p( foi | me ...) = 2.1752e-08 [ -7.6625 ]<br>
p( pedido | foi ...) = 4.0131e-10 [ -9.39652 ]<br> p( por | pedido ...) = 1.21818e-07 [ -6.91429 ]<br> p( um | por ...) = 2.5325e-08 [ -7.59645 ]<br> p( certo | um ...) = 4.40008e-10 [ -9.35654 ]<br>
p( número | certo ...) = 5.54255e-09 [ -8.25629 ]<br> p( de | número ...) = 2.85043e-07 [ -6.54509 ]<br> p( colegas | de ...) = 1.31686e-10 [ -9.88046 ]<br> p( - | colegas ...) = 2.12007e-08 [ -7.67365 ]<br>
p( que | - ...) = 1.27685e-06 [ -5.89386 ]<br> p( observássemos | que ...) = 3.4788e-08 [ -7.45857 ]<br> p( um | observássemos ...) = 0.00378643 [ -2.42177 ]<br> p( minuto | um ...) = 8.51139e-11 [ -10.07 ]<br>
p( de | minuto ...) = 3.65915e-06 [ -5.43662 ]<br> p( silêncio | de ...) = 1.45194e-10 [ -9.83805 ]<br> p( por | silêncio ...) = 2.62766e-07 [ -6.58043 ]<br> p( todas | por ...) = 9.93115e-10 [ -9.003 ]<br>
p( as | todas ...) = 3.5242e-08 [ -7.45294 ]<br> p( vítimas | as ...) = 2.67061e-10 [ -9.57339 ]<br> p( , | vítimas ...) = 1.95573e-06 [ -5.70869 ]<br> p( nomeadamente | , ...) = 4.18398e-10 [ -9.37841 ]<br>
p( das | nomeadamente ...) = 5.79949e-08 [ -7.23661 ]<br> p( tempestades | das ...) = 1.23937e-11 [ -10.9068 ]<br> p( , | tempestades ...) = 4.27307e-05 [ -4.36926 ]<br> p( nos | , ...) = 4.60427e-09 [ -8.33684 ]<br>
p( diferentes | nos ...) = 7.88189e-10 [ -9.10337 ]<br> p( países | diferentes ...) = 6.51014e-09 [ -8.18641 ]<br> p( da | países ...) = 8.3253e-08 [ -7.0796 ]<br> p( União | da ...) = 5.88857e-10 [ -9.22999 ]<br>
p( Europeia | União ...) = 4.2602e-09 [ -8.37057 ]<br> p( que | Europeia ...) = 2.6796e-07 [ -6.57193 ]<br> p( foram | que ...) = 2.1925e-09 [ -8.65906 ]<br> p( afectados | foram ...) = 3.57355e-11 [ -10.4469 ]<br>
p( . | afectados ...) = 5.724e-06 [ -5.2423 ]<br> p( </s> | . ...) = 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 0 OOVs<br>0 zeroprobs, logprob= -317.195 ppl= 3.56659e+07 ppl1= 5.45072e+07<br>
<br>$<br> p( $ | <s> ) = 2.54806e-05 [ -4.59379 ]<br> p( </s> | $ ...) = 0.50782 [ -0.29429 ]<br>1 sentences, 1 words, 0 OOVs<br>0 zeroprobs, logprob= -4.88808 ppl= 277.997 ppl1= 77282.3<br><br>
file final.txt: 6 sentences, 126 words, 0 OOVs<br>0 zeroprobs, logprob= -966.373 ppl= 2.09415e+07 ppl1= 4.67334e+07<br><br><br><br><div class="gmail_quote">On Thu, Jan 14, 2010 at 4:29 PM, Manuel Alves <span dir="ltr"><<a href="mailto:beleira@gmail.com">beleira@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hi people.<br><br>Whith the command :<br> ngram-count -wbdiscount -order 3 -unk -text CETEMPublico1.7 -lm LM3 &<br>
I get this results:<div class="im"><br>server 100@localhost: probserver ready<br>
Entretanto , gostaria - como também me foi pedido por um berto número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
</div>
p( Entretanto | <s> ) = 8.47227e-05 [ -4.072 ]<br> p( , | Entretanto ...) = 3.18141e-06 [ -5.49738 ]<br> p( gostaria | , ...) = 7.02748e-11 [ -10.1532 ]<br> p( - | gostaria ...) = 3.95658e-08 [ -7.40268 ]<br>
p( como | - ...) = 1.74273e-07 [ -6.75877 ]<br> p( também | como ...) = 4.00507e-09 [ -8.39739 ]<br> p( me | também ...) = 8.39635e-10 [ -9.07591 ]<br> p( foi | me ...) = 2.1752e-08 [ -7.6625 ]<br>
p( pedido | foi ...) = 4.01329e-10 [ -9.3965 ]<br> p( por | pedido ...) = 1.21818e-07 [ -6.91429 ]<br> p( um | por ...) = 2.5325e-08 [ -7.59645 ]<br> p( berto | um ...) = 6.41506e-14 [ -13.1928 ]<br>
p( número | berto ...) = 3.80198e-05 [ -4.41999 ]<br> p( de | número ...) = 2.85043e-07 [ -6.54509 ]<br> p( colegas | de ...) = 1.31701e-10 [ -9.88041 ]<br> p( - | colegas ...) = 2.12007e-08 [ -7.67365 ]<br>
p( que | - ...) = 1.27685e-06 [ -5.89386 ]<div class="im"><br> p( observássemos | que ...) = 0 [ -inf ]<br></div> p( um | observássemos ...) = 0.00378643 [ -2.42177 ]<br> p( minuto | um ...) = 8.51139e-11 [ -10.07 ]<br>
p( de | minuto ...) = 3.65915e-06 [ -5.43662 ]<br> p( silêncio | de ...) = 1.45208e-10 [ -9.83801 ]<br> p( por | silêncio ...) = 2.62766e-07 [ -6.58043 ]<br> p( todas | por ...) = 9.93139e-10 [ -9.00299 ]<br>
p( as | todas ...) = 3.5242e-08 [ -7.45294 ]<br> p( vítimas | as ...) = 2.67073e-10 [ -9.57337 ]<br> p( , | vítimas ...) = 1.95573e-06 [ -5.70869 ]<br> p( nomeadamente | , ...) = 4.18417e-10 [ -9.37839 ]<br>
p( das | nomeadamente ...) = 5.79949e-08 [ -7.23661 ]<br> p( tempestades | das ...) = 1.24108e-11 [ -10.9062 ]<br> p( , | tempestades ...) = 4.27307e-05 [ -4.36926 ]<br> p( nos | , ...) = 4.60437e-09 [ -8.33683 ]<br>
p( diferentes | nos ...) = 7.88206e-10 [ -9.10336 ]<br> p( países | diferentes ...) = 6.51028e-09 [ -8.1864 ]<br> p( da | países ...) = 8.3253e-08 [ -7.0796 ]<br> p( União | da ...) = 5.8887e-10 [ -9.22998 ]<br>
p( Europeia | União ...) = 4.2603e-09 [ -8.37056 ]<br> p( que | Europeia ...) = 2.6796e-07 [ -6.57193 ]<br> p( foram | que ...) = 2.19255e-09 [ -8.65905 ]<br> p( afectados | foram ...) = 3.5752e-11 [ -10.4467 ]<br>
p( . | afectados ...) = 5.724e-06 [ -5.2423 ]<div class="im"><br> p( </s> | . ...) = 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 0 OOVs<br></div>1 zeroprobs, logprob= -309.735 ppl= 3.58516e+07 ppl1= 5.53824e+07<br>
<br>$<br> p( $ | <s> ) = 0 [ -inf ]<br> p( </s> | $ ...) = 0.50782 [ -0.29429 ]<div class="im"><br>1 sentences, 1 words, 0 OOVs<br></div>1 zeroprobs, logprob= -0.29429 ppl= 1.9692 ppl1= undefined<div class="im">
<br><br>Entretanto , gostaria - como também me foi pedido por um perto número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
</div>
p( Entretanto | <s> ) = 8.47227e-05 [ -4.072 ]<br> p( , | Entretanto ...) = 3.18141e-06 [ -5.49738 ]<br> p( gostaria | , ...) = 7.02748e-11 [ -10.1532 ]<br> p( - | gostaria ...) = 3.95658e-08 [ -7.40268 ]<br>
p( como | - ...) = 1.74273e-07 [ -6.75877 ]<br> p( também | como ...) = 4.00507e-09 [ -8.39739 ]<br> p( me | também ...) = 8.39635e-10 [ -9.07591 ]<br> p( foi | me ...) = 2.1752e-08 [ -7.6625 ]<br>
p( pedido | foi ...) = 4.01329e-10 [ -9.3965 ]<br> p( por | pedido ...) = 1.21818e-07 [ -6.91429 ]<br> p( um | por ...) = 2.5325e-08 [ -7.59645 ]<br> p( perto | um ...) = 4.24668e-10 [ -9.37195 ]<br>
p( número | perto ...) = 5.74288e-09 [ -8.24087 ]<br> p( de | número ...) = 2.85043e-07 [ -6.54509 ]<br> p( colegas | de ...) = 1.31701e-10 [ -9.88041 ]<br> p( - | colegas ...) = 2.12007e-08 [ -7.67365 ]<br>
p( que | - ...) = 1.27685e-06 [ -5.89386 ]<div class="im"><br> p( observássemos | que ...) = 0 [ -inf ]<br></div> p( um | observássemos ...) = 0.00378643 [ -2.42177 ]<br> p( minuto | um ...) = 8.51139e-11 [ -10.07 ]<br>
p( de | minuto ...) = 3.65915e-06 [ -5.43662 ]<br> p( silêncio | de ...) = 1.45208e-10 [ -9.83801 ]<br> p( por | silêncio ...) = 2.62766e-07 [ -6.58043 ]<br> p( todas | por ...) = 9.93139e-10 [ -9.00299 ]<br>
p( as | todas ...) = 3.5242e-08 [ -7.45294 ]<br> p( vítimas | as ...) = 2.67073e-10 [ -9.57337 ]<br> p( , | vítimas ...) = 1.95573e-06 [ -5.70869 ]<br> p( nomeadamente | , ...) = 4.18417e-10 [ -9.37839 ]<br>
p( das | nomeadamente ...) = 5.79949e-08 [ -7.23661 ]<br> p( tempestades | das ...) = 1.24108e-11 [ -10.9062 ]<br> p( , | tempestades ...) = 4.27307e-05 [ -4.36926 ]<br> p( nos | , ...) = 4.60437e-09 [ -8.33683 ]<br>
p( diferentes | nos ...) = 7.88206e-10 [ -9.10336 ]<br> p( países | diferentes ...) = 6.51028e-09 [ -8.1864 ]<br> p( da | países ...) = 8.3253e-08 [ -7.0796 ]<br> p( União | da ...) = 5.8887e-10 [ -9.22998 ]<br>
p( Europeia | União ...) = 4.2603e-09 [ -8.37056 ]<br> p( que | Europeia ...) = 2.6796e-07 [ -6.57193 ]<br> p( foram | que ...) = 2.19255e-09 [ -8.65905 ]<br> p( afectados | foram ...) = 3.5752e-11 [ -10.4467 ]<br>
p( . | afectados ...) = 5.724e-06 [ -5.2423 ]<div class="im"><br> p( </s> | . ...) = 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 0 OOVs<br></div>1 zeroprobs, logprob= -309.735 ppl= 3.58516e+07 ppl1= 5.53824e+07<br>
<br>$<br> p( $ | <s> ) = 0 [ -inf ]<br> p( </s> | $ ...) = 0.50782 [ -0.29429 ]<div class="im"><br>1 sentences, 1 words, 0 OOVs<br></div>1 zeroprobs, logprob= -0.29429 ppl= 1.9692 ppl1= undefined<div class="im">
<br><br>Entretanto , gostaria - como também me foi pedido por um certo número de colegas - que observássemos um minuto de silêncio por todas as vítimas , nomeadamente das tempestades , nos diferentes países da União Europeia que foram afectados .<br>
</div>
p( Entretanto | <s> ) = 8.47227e-05 [ -4.072 ]<br> p( , | Entretanto ...) = 3.18141e-06 [ -5.49738 ]<br> p( gostaria | , ...) = 7.02748e-11 [ -10.1532 ]<br> p( - | gostaria ...) = 3.95658e-08 [ -7.40268 ]<br>
p( como | - ...) = 1.74273e-07 [ -6.75877 ]<br> p( também | como ...) = 4.00507e-09 [ -8.39739 ]<br> p( me | também ...) = 8.39635e-10 [ -9.07591 ]<br> p( foi | me ...) = 2.1752e-08 [ -7.6625 ]<br>
p( pedido | foi ...) = 4.01329e-10 [ -9.3965 ]<br> p( por | pedido ...) = 1.21818e-07 [ -6.91429 ]<br> p( um | por ...) = 2.5325e-08 [ -7.59645 ]<br> p( certo | um ...) = 4.40017e-10 [ -9.35653 ]<br>
p( número | certo ...) = 5.54255e-09 [ -8.25629 ]<br> p( de | número ...) = 2.85043e-07 [ -6.54509 ]<br> p( colegas | de ...) = 1.31701e-10 [ -9.88041 ]<br> p( - | colegas ...) = 2.12007e-08 [ -7.67365 ]<br>
p( que | - ...) = 1.27685e-06 [ -5.89386 ]<div class="im"><br> p( observássemos | que ...) = 0 [ -inf ]<br></div> p( um | observássemos ...) = 0.00378643 [ -2.42177 ]<br> p( minuto | um ...) = 8.51139e-11 [ -10.07 ]<br>
p( de | minuto ...) = 3.65915e-06 [ -5.43662 ]<br> p( silêncio | de ...) = 1.45208e-10 [ -9.83801 ]<br> p( por | silêncio ...) = 2.62766e-07 [ -6.58043 ]<br> p( todas | por ...) = 9.93139e-10 [ -9.00299 ]<br>
p( as | todas ...) = 3.5242e-08 [ -7.45294 ]<br> p( vítimas | as ...) = 2.67073e-10 [ -9.57337 ]<br> p( , | vítimas ...) = 1.95573e-06 [ -5.70869 ]<br> p( nomeadamente | , ...) = 4.18417e-10 [ -9.37839 ]<br>
p( das | nomeadamente ...) = 5.79949e-08 [ -7.23661 ]<br> p( tempestades | das ...) = 1.24108e-11 [ -10.9062 ]<br> p( , | tempestades ...) = 4.27307e-05 [ -4.36926 ]<br> p( nos | , ...) = 4.60437e-09 [ -8.33683 ]<br>
p( diferentes | nos ...) = 7.88206e-10 [ -9.10336 ]<br> p( países | diferentes ...) = 6.51028e-09 [ -8.1864 ]<br> p( da | países ...) = 8.3253e-08 [ -7.0796 ]<br> p( União | da ...) = 5.8887e-10 [ -9.22998 ]<br>
p( Europeia | União ...) = 4.2603e-09 [ -8.37056 ]<br> p( que | Europeia ...) = 2.6796e-07 [ -6.57193 ]<br> p( foram | que ...) = 2.19255e-09 [ -8.65905 ]<br> p( afectados | foram ...) = 3.5752e-11 [ -10.4467 ]<br>
p( . | afectados ...) = 5.724e-06 [ -5.2423 ]<div class="im"><br> p( </s> | . ...) = 0.999997 [ -1.32346e-06 ]<br>1 sentences, 41 words, 0 OOVs<br></div>1 zeroprobs, logprob= -309.735 ppl= 3.58516e+07 ppl1= 5.53824e+07<br>
<br>$<br> p( $ | <s> ) = 0 [ -inf ]<br> p( </s> | $ ...) = 0.50782 [ -0.29429 ]<div class="im"><br>1 sentences, 1 words, 0 OOVs<br></div>1 zeroprobs, logprob= -0.29429 ppl= 1.9692 ppl1= undefined<div class="im">
<br><br>file final.txt: 6 sentences, 126 words, 0 OOVs<br></div>
6 zeroprobs, logprob= -930.088 ppl= 2.40795e+07 ppl1= 5.63287e+07<br><br><br><u>Can you tell me if the problem comes from the GT discount method used by default in the ngram-count command?</u><br><br>Best Regards,<br><font color="#888888">Manuel Alves.</font><div>
<div></div><div class="h5"><br>
<br><div class="gmail_quote">On Mon, Jan 11, 2010 at 4:52 PM, Andreas Stolcke <span dir="ltr"><<a href="mailto:stolcke@speech.sri.com" target="_blank">stolcke@speech.sri.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div bgcolor="#ffffff" text="#000000"><div>
On 1/11/2010 3:49 AM, Manuel Alves wrote:
<blockquote type="cite">Hi Andreas.<br>
The output of the ngram-count was:<br>
[root@localhost
Corporas]# ../srilm/bin/i686/ngram-count -order 3 -text CETEMPublico1.7
-lm LM<br>
warning: discount coeff
1 is out of range: 1.44451e-17<br>
<br>
I dont know if there is any problem with GT discount method.<br>
<br>
</blockquote></div>
Try another discount method like -wbdiscount just to see if that
changes your results by much.<br><font color="#888888">
<br>
Andreas</font><div><div></div><div><br>
<br>
<blockquote type="cite"><br>
<div class="gmail_quote">On Fri, Jan 8, 2010 at 9:52 PM, Andreas
Stolcke <span dir="ltr"><<a href="mailto:stolcke@speech.sri.com" target="_blank">stolcke@speech.sri.com</a>></span>
wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div bgcolor="#ffffff" text="#000000">
<div>On 1/8/2010 3:57 AM, Manuel Alves wrote:
</div>
<blockquote type="cite"><br>
<br>
<div class="gmail_quote">
<div>---------- Forwarded message ----------<br>
From: <b class="gmail_sendername">Manuel Alves</b> <span dir="ltr"><<a href="mailto:beleira@gmail.com" target="_blank">beleira@gmail.com</a>></span><br>
</div>
<div>Date: Fri, Jan 8, 2010 at 10:40 AM<br>
Subject: Re: Fwd: ngram-count<br>
To: Andreas Stolcke <<a href="mailto:stolcke@speech.sri.com" target="_blank">stolcke@speech.sri.com</a>><br>
<br>
<br>
1. ngram-count -text CETEMPublico1.7 -lm LM<br>
2.I test it in this way:<br>
I use the client-server architecture of
SRILM<br>
SERVER : ngram -lm ../$a -server-port 100
-order 3 <br>
CLIENT : ngram -use-server
100\@localhost -cache-served-ngrams -ppl $ficheiro -debug 2 2>&1<br>
where $ficheiro is this:<br>
</div>
</div>
</blockquote>
<br>
<blockquote type="cite">
<div class="gmail_quote"> <br>
<br>
<div> p( observássemos | que ...) = 0 [ -inf ]<br>
</div>
</div>
</blockquote>
<br>
<div>
<blockquote type="cite">
<div class="gmail_quote">file final.txt: 6 sentences, 126 words,
0
OOVs<br>
6 zeroprobs, logprob= -912.981 ppl= 1.7615e+07 ppl1= 4.05673e+07<br>
</div>
</blockquote>
<br>
</div>
It looks to me like everything is working as intended. You are
getting zeroprobs, but not a large number of them.<br>
They are low-frequency words (like the one above), so it makes sense,
since they are probably not contained in the training corpus.<br>
<br>
The perplexity is quite high, but that could be because of a small, or
mismatched training corpus. You didn't include the output of the
ngram-count program, it's possible that the GT (default) discounting
method reported some problems that are not evident from your mail.<br>
<br>
One thing to note is that with network-server LMs you don't get OOVs,
because all words are implicitly added to the vocabulary. Consequently,
OOVs are counted as zeroprobs instead, but both types of tokens are
equivalent for perplexity computation.<br>
Still, you could run <br>
ngram -lm ../$a -order 3 -ppl $ficheiro -debug 2<br>
just to make sure you're getting the same result.<br>
<font color="#888888"><br>
Andreas</font>
<div><br>
<br>
<blockquote type="cite">
<div class="gmail_quote"><u><font color="#888888">Manuel Alves. </font></u><br>
<div>
<div><br>
<div class="gmail_quote">On Thu, Jan 7, 2010 at 8:35 PM, Andreas
Stolcke <span dir="ltr"><<a href="mailto:stolcke@speech.sri.com" target="_blank">stolcke@speech.sri.com</a>></span>
wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div bgcolor="#ffffff" text="#000000">
<div>
<div>On 1/6/2010 10:34 AM, Manuel Alves wrote:
<blockquote type="cite"><br>
<br>
<div class="gmail_quote">---------- Forwarded message
----------<br>
From: <b class="gmail_sendername">Manuel Alves</b> <span dir="ltr"><<a href="mailto:beleira@gmail.com" target="_blank">beleira@gmail.com</a>></span><br>
Date: Wed, Jan 6, 2010 at 6:33 PM<br>
Subject: ngram-count<br>
To: <a href="mailto:srilm-user@speech.sri.com" target="_blank">srilm-user@speech.sri.com</a><br>
<br>
<br>
Hi people.<br>
I need help whith ngram-count because i am training a model but when
after i try to use it some test example he gives me Zeroprobs in the
output.<br>
This means that the model is bad trained?<br>
Please answer me.<br>
Best regards,<br>
<font color="#888888">Manuel Alves.<br>
</font></div>
</blockquote>
<br>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</div>
</div>
</blockquote>
</div>
</div>
<br>
_______________________________________________<br>
SRILM-User site list<br>
<a href="mailto:SRILM-User@speech.sri.com" target="_blank">SRILM-User@speech.sri.com</a><br>
<a href="http://www.speech.sri.com/mailman/listinfo/srilm-user" target="_blank">http://www.speech.sri.com/mailman/listinfo/srilm-user</a><br>
</blockquote>
</div>
<br>
</blockquote>
<br>
</div></div></div>
</blockquote></div><br>
</div></div></blockquote></div><br>