優(yōu)勢(shì):快速匹配,過程簡(jiǎn)單:難以區(qū)分歧義詞,匹配不正確的正最大匹配:從左到右匹配關(guān)鍵字逆最大匹配:從右到左匹配關(guān)鍵字的最短方法分詞:最小數(shù)量搜索引擎在文本中提取的單詞。第二種類型:分詞是基于人工識(shí)別的詞義和記賬特征,并根據(jù)觀察到的數(shù)據(jù)(標(biāo)記為好語(yǔ)料)對(duì)漢語(yǔ)進(jìn)行建模。進(jìn)行估算,即鉆取。在分詞階段,通過該模型計(jì)算出各個(gè)分詞出現(xiàn)的概率,將分詞效果最高的概率作為后效。常見的序列識(shí)別模型具有HMM和CRF
好處:可以很好地處理歧義和未注冊(cè)的單詞。效果比根據(jù)字符串匹配更好。缺點(diǎn):需要許多手動(dòng)數(shù)據(jù)。單詞分割出現(xiàn)的速度越慢,出現(xiàn)的可能性就越大。一個(gè)字。因此,單詞和單詞彼此相鄰的頻率或概率可以更好地反映在單詞的可信度中。
可以計(jì)算在句子中同時(shí)出現(xiàn)的相鄰單詞的組合的頻率,并計(jì)算它們的相互信息。定義兩個(gè)單詞的互信息,并計(jì)算兩個(gè)漢字XY的相鄰共現(xiàn)概率。相互信息反映了漢字之間聯(lián)系的緊密性。詞義分詞分詞:由機(jī)器語(yǔ)音確定的分詞方法,主要用于處理歧義。
新聞?dòng)涉I坤信息原創(chuàng)發(fā)布,轉(zhuǎn)載轉(zhuǎn)發(fā)或復(fù)制請(qǐng)保留版權(quán)信息
更多關(guān)于云服務(wù)器,域名注冊(cè),虛擬主機(jī)的問題,請(qǐng)?jiān)L問西部數(shù)碼官網(wǎng):ps-sw.cn