<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META content="MSHTML 6.00.2900.3562" name=GENERATOR>
<STYLE>BLOCKQUOTE {
        MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px; MARGIN-LEFT: 2em
}
OL {
        MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px
}
UL {
        MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px
}
</STYLE>
</HEAD>
<BODY style="FONT-SIZE: 10pt; FONT-FAMILY: verdana">
<DIV><FONT face=Verdana size=2>hi all,</FONT></DIV>
<DIV>&nbsp;I get the original BiGram from the text with ngram-count tool,</DIV>
<DIV>like "ngram-count -text&nbsp; corpus&nbsp; -lm Original_BiGram&nbsp; -order 
2"</DIV>
<DIV>so the original_Bigram is very large, I need pruning, like "ngram -lm 
Original_BiGram -order 2 -prune... "</DIV>
<DIV>But I found that the -prune tool can not prune the UniGram, the -minprune n 
is at least 2.</DIV>
<DIV>So&nbsp;What can I do to prune the Unigram?</DIV>
<DIV>because&nbsp;all the words&nbsp;from the corpus are in the Unigram, it is 
too large, and some words&nbsp;are really useless.&nbsp;</DIV>
<DIV>&nbsp;</DIV>
<DIV>&nbsp; Thanks.</DIV>
<DIV>&nbsp;</DIV>
<DIV>Wang</DIV>
<DIV><FONT face=Verdana size=2></FONT>&nbsp;</DIV>
<DIV align=left><FONT face=Verdana color=#c0c0c0 size=2>2009-12-19 
</FONT></DIV><FONT face=Verdana size=2>
<HR style="WIDTH: 122px; HEIGHT: 2px" align=left SIZE=2>

<DIV><FONT face=Verdana color=#c0c0c0 size=2><SPAN>ÍõÇï·æ</SPAN> 
</FONT></DIV></FONT></BODY></HTML>