會(huì)員中心 |  會(huì)員注冊(cè)  |  兼職信息發(fā)布    瀏覽手機(jī)版!    精選9.9元!    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 識(shí)別技術(shù) > 正文

復(fù)旦分詞系統(tǒng)介紹

發(fā)布時(shí)間: 2022-12-18 10:04:28   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):


3. 歧義字段的發(fā)現(xiàn)

最簡單的識(shí)別歧義字段的方法是窮舉法,即找出輸入字串從每個(gè)漢字開始的所有可能的詞。由于窮舉法時(shí)間復(fù)雜度較大,不夠?qū)嵱?,一般采用雙向掃描的方法來發(fā)現(xiàn)歧義字段。所謂雙向掃描,就是對(duì)同一字段,分別用正向匹配和逆向匹配方法切分文本。兩種方法得到的結(jié)果相同,則認(rèn)為切分正確,否則就判別為歧義字段。以歧義句“他的確切地址”為例:


正向匹配結(jié)果:“他的確切地址”:逆向匹配結(jié)果:“他的確切地址”。由此可以發(fā)現(xiàn)交集歧義字段“的確切”。


具體地,采用正向最小匹配和逆向最大匹配,并且最小匹配從單字詞開始。這樣不僅能識(shí)別交集歧義字段,還能識(shí)別多義組合字段。以歧義句“他將來的工作”為例:

逆向最大匹配結(jié)果:“他  將來  的  工作”;正向最小匹配結(jié)果:“他  將  來  的  工作”。由此可以發(fā)現(xiàn)多義組合字段“將來”。


4. 歧義字段的處理

我們采用規(guī)則知識(shí)和統(tǒng)計(jì)信息相結(jié)合的方法來處理歧義字段,首先使用分詞規(guī)則,在規(guī)則使用無效的情況下再使用統(tǒng)計(jì)信息。


分詞規(guī)則又由構(gòu)詞規(guī)則和排歧規(guī)則組成,其中構(gòu)詞規(guī)則根據(jù)構(gòu)詞法自動(dòng)生成部分未在詞典中登錄,但由《分詞規(guī)范》所確認(rèn)的分詞單位,包括:


(1)前綴詞素構(gòu)詞規(guī)則:只出現(xiàn)在詞的第一位置,與詞根詞素(即具有詞匯意義的語素)構(gòu)成詞的附加素稱為前綴詞素。前綴詞素包括“阿”、“第”、“初”、“可”等,其中的“第”、“初”已在預(yù)處理階段進(jìn)行了處理。


(2)后綴詞素構(gòu)詞規(guī)則:只出現(xiàn)在詞的最后位置,與詞根詞素構(gòu)成詞的附加素稱為后綴詞素。后綴詞素包括“們”、“員”、“家”等。但是前、后綴詞素要構(gòu)詞還必須滿足一定的語義限制。例如,“員”既可做為后綴詞素,又可做為量詞。因此,只有在它前面的詞不是數(shù)詞的情況下,才運(yùn)用構(gòu)詞規(guī)則。

(3)重疊字構(gòu)詞規(guī)則:其中重疊字可分為以下幾類:


AA式重疊字——家家、人人;

AABB式重疊字——冷冷清清、家家戶戶、花花綠綠;

ABB式重疊字——黑洞洞、涼津津;

ABAB式重疊字——高興高興、辛苦辛苦;

AAB式重疊字——搖搖頭。


在發(fā)生歧義現(xiàn)象的情況下,將根據(jù)排歧規(guī)則選擇一種切分方式。由于上文所介紹的原因,我們不采用就某一特定的歧義字段而確立的專用規(guī)則,僅采用通用規(guī)則來處理歧義現(xiàn)象。在通用規(guī)則無效的情況下,再調(diào)用統(tǒng)計(jì)信息。所使用的通用規(guī)則包括以下幾條:


(1)成詞切分優(yōu)先:兩種切分結(jié)果,一種全部由詞匯組成,而另一種含有孤立字,則選擇前一種切分結(jié)果。根據(jù)這條規(guī)則,歧義句“昨天下課后”將被切成“昨天  下課  后”,而非“昨  天下  課后”,因?yàn)椤白颉辈皇菃巫衷~。

(2)單字方位詞不組詞:歧義句“他伏下身子”將被切成“他  伏  下  身子”,而非“他  伏  下身  子”。

(3)量詞優(yōu)先:歧義句“來了三個(gè)人”將被切成“來  了  三  個(gè)  人”,而非“來  了  三  個(gè)人”。

(4)單字動(dòng)詞盡可能單獨(dú)切分:歧義句“不會(huì)用心機(jī)”將被切分成“不會(huì)  用  心機(jī)”,而非“不會(huì)  用心  機(jī)”。

(5)鏈長為2的交集字段自然成詞:歧義句“當(dāng)天下午”將被切成“當(dāng)天  下午”,而非“當(dāng)  天下  午”。


不同的規(guī)則應(yīng)用于相同的歧義字段時(shí),可能會(huì)產(chǎn)生不同的結(jié)果。因此,在應(yīng)用規(guī)則時(shí),必須嚴(yán)格按照規(guī)則次序加以調(diào)用。

在規(guī)則使用無效的情況下,使用了統(tǒng)計(jì)信息,主要是詞頻信息。在訓(xùn)練語料庫時(shí),是按詞的不同詞義計(jì)算頻率的,因?yàn)橐粋€(gè)漢語單詞可能有幾個(gè)詞性,每個(gè)詞性又可能有幾個(gè)詞義,知道了詞的詞義頻率,也就同時(shí)知道了詞頻和詞的詞性頻率。


因此,可用以下三種方式使用統(tǒng)計(jì)信息以消除歧義:


(1)簡單詞頻信息。用C=c1c2…cm表示輸入的由m個(gè)漢字組成的歧義切分字段;W=w1w2…wn表示把C切分后得到的由n個(gè)詞組成的詞串,V=v1v2…vm是另一種切分結(jié)果。用frq(w)表示詞w的頻率。如果有:圖2.png,則選擇切分結(jié)果W。例如:字段“太平淡”有兩種切分結(jié)果,“太  平淡”和“太平  淡”。根據(jù)frq(“太”)×frq(“平淡”)>frq(“太平”)×frq(“淡”),將選取切分結(jié)果“太  平淡”。


單純使用詞頻信息,沒有考慮到詞性和詞義信息,更沒有考慮到不同詞性和詞義之間的概率轉(zhuǎn)移關(guān)系,錯(cuò)誤率較高。對(duì)于頻率較低的詞將永遠(yuǎn)不能正確切分。例如:“他的確切菜了”將切分為:“他  的  確切  菜  了”。因此,更好的方法是通過標(biāo)注來解決分詞歧義。而標(biāo)注方法又可分為詞性標(biāo)注和概念標(biāo)注兩種。


(2)詞性標(biāo)注。用詞性標(biāo)注方法分別計(jì)算兩種切詞路徑的最大概率值,從中選取概率值較大的詞串作為切分結(jié)果。


(3)概念標(biāo)注。用概念標(biāo)注方法分別計(jì)算兩種切詞路徑的最大概率值,從中選取概率值較大的詞串作為切分結(jié)果。


責(zé)任編輯:admin


微信公眾號(hào)

[上一頁][1] [2] 【歡迎大家踴躍評(píng)論】
  • 上一篇:中文姓名的自動(dòng)辨識(shí)
  • 下一篇:切分歧義處理知識(shí)


  • 《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時(shí)溝通與處理。


我來說兩句
評(píng)分: 1分 2分 3分 4分 5分
評(píng)論內(nèi)容:
驗(yàn)證碼:
【網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明本站同意其觀點(diǎn)或證實(shí)其描述?!?
評(píng)論列表
已有 0 條評(píng)論(查看更多評(píng)論)