會(huì)員中心 |  會(huì)員注冊(cè)  |  兼職信息發(fā)布    瀏覽手機(jī)版!    精選9.9元!    人工翻譯    英語(yǔ)IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁(yè) | 加入收藏  繁體中文
當(dāng)前位置:首頁(yè) > 機(jī)翻技術(shù) > 識(shí)別技術(shù) > 正文

復(fù)旦分詞系統(tǒng)介紹

發(fā)布時(shí)間: 2022-12-18 10:04:28   作者:etogether.net   來(lái)源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 中文雖然不像西文那樣,詞與詞之間都有明顯的切割標(biāo)記,但借助一些特殊的標(biāo)記,也能把輸入文本轉(zhuǎn)變?yōu)橄鄬?duì)較短的漢字段。


我們?cè)诙嗄陙?lái)從事基于大規(guī)模語(yǔ)料研究工作的基礎(chǔ)上,建立了一整套中文處理體系,由自動(dòng)分詞、詞性標(biāo)注、詞頻和概念統(tǒng)計(jì)、句法和語(yǔ)義分析等子系統(tǒng)構(gòu)成。其中分詞系統(tǒng)作為基礎(chǔ)的部分。下面將簡(jiǎn)要介紹一下復(fù)旦分詞系統(tǒng)。


1. 系統(tǒng)結(jié)構(gòu)

如圖1 所示,分詞系統(tǒng)由四個(gè)模塊構(gòu)成。輸入的漢語(yǔ)文本,經(jīng)過(guò)預(yù)處理階段后,將首先利用分割標(biāo)記分成較短的漢字串,同時(shí)還將根據(jù)預(yù)處理規(guī)則預(yù)先切分出數(shù)詞和時(shí)間詞;接著通過(guò)雙向匹配方法識(shí)別出漢字段中的歧義字段;再運(yùn)用歧義處理規(guī)則和詞典中的統(tǒng)計(jì)信息來(lái)處理歧義字段;最后還有一個(gè)未登錄詞識(shí)別模塊,用來(lái)識(shí)別文本中的人名、地名和領(lǐng)域?qū)S性~匯下文將介紹前三個(gè)模塊。


圖1.png

圖1 復(fù)旦分詞系統(tǒng)主框架


2. 預(yù)處理

中文雖然不像西文那樣,詞與詞之間都有明顯的切割標(biāo)記,但借助一些特殊的標(biāo)記,也能把輸入文本轉(zhuǎn)變?yōu)橄鄬?duì)較短的漢字段。這些標(biāo)記包括標(biāo)點(diǎn)符號(hào)、數(shù)字、字母等非漢字字符,還包括真實(shí)文本中常出現(xiàn)的字體、字號(hào)等排版信息。

有些文獻(xiàn)認(rèn)為,部分只能做詞首字和詞尾字的漢字也可以作為切割標(biāo)記。例如,“葡”可做為詞首切割標(biāo)記,見(jiàn)到文本中的“葡”字后,即可把輸入文本在它之前斷開(kāi);“蜓”可做為詞尾切割標(biāo)記,見(jiàn)到文本中的“蜓”字后,即可把輸入文本在它之后斷開(kāi)。但是,經(jīng)統(tǒng)計(jì),發(fā)現(xiàn)絕大多數(shù)標(biāo)記字都是低頻字,而且一般也不構(gòu)成歧義字段,故沒(méi)有必要做特殊的處理,而頻率較高的標(biāo)記字,如“的”、“是”等,都是條件標(biāo)記字,在某些情況下會(huì)引起歧義,在以后階段處理會(huì)更合適一些。


除此之外,一些特殊短語(yǔ),包括數(shù)詞短語(yǔ)、時(shí)間短語(yǔ)、貨幣單位,因其結(jié)構(gòu)相對(duì)較簡(jiǎn)單,往往由數(shù)詞和特征字組成,也很適合在本階段加以處理。


《分詞規(guī)范》曾規(guī)定時(shí)間名詞或詞組的分詞規(guī)則如下:

(1)一年的12個(gè)月份以及每周的7天,一律為分詞單位。例如:

5月、元月、3月、星期日、禮拜三。

(2)“年、日、時(shí)、分、秒”分別為分詞單位。例如:

1988年3月15日、11時(shí)42分8秒。


對(duì)于數(shù)詞,《分詞規(guī)范》規(guī)定基數(shù)詞是分詞單位,而序數(shù)詞和分?jǐn)?shù)必須切開(kāi)。這些分詞規(guī)則,主要是從語(yǔ)言學(xué)的觀點(diǎn)來(lái)考慮的,但對(duì)中文信息的計(jì)算機(jī)處理造成了一定困難。首先,是概念上的混淆,為什么月份是分詞單位,而其他時(shí)間單位就不是?其次,這樣還造成了部分歧義現(xiàn)象。例如上文所舉的歧義句“1月20日本報(bào)刊出了一條消息”,因?yàn)榘褦?shù)字與日期切分開(kāi),從而出現(xiàn)了歧義字段“日本報(bào)”。數(shù)詞中的標(biāo)點(diǎn)符號(hào)還可能引起句子邊界的錯(cuò)誤劃分。在此后的理解過(guò)程中,還必須把切分開(kāi)的時(shí)間詞的片段等重新合成為一個(gè)語(yǔ)言成分。既然如此,更合適的辦法是在分詞階段即對(duì)這些短語(yǔ)加以識(shí)別,并加上適當(dāng)?shù)臉?biāo)記,以便后續(xù)過(guò)程的處理。

以數(shù)字詞為基礎(chǔ)的各種短語(yǔ)有以下幾個(gè)特點(diǎn):

(1)短語(yǔ)一般由數(shù)詞和各種特征詞構(gòu)成,如:日、月、年、元、角、$。

(2)數(shù)詞本身的成分可能比較復(fù)雜,其中,數(shù)字不僅可能是漢字,還可能是半角和全角的阿拉伯?dāng)?shù)字;中間可能有標(biāo)點(diǎn)符號(hào),如“5.25”,“125,000”,“1949一1996”;數(shù)字中可能有非數(shù)字連接詞,如“一又四分之三”。

(3)數(shù)詞前可附加“初”、“第”等前綴詞,數(shù)詞前后可附加有“近”、“約”、“左右”、“多”等表示概數(shù)的詞。


有鑒于此;我們?cè)黾恿艘淮为?dú)立的掃描過(guò)程來(lái)識(shí)別這些短語(yǔ)。系統(tǒng)維護(hù)一張?zhí)卣髟~表,在掃描到數(shù)字后,即調(diào)用數(shù)詞識(shí)別模塊,確定由標(biāo)點(diǎn)符號(hào)和連接詞連接起來(lái)的數(shù)詞的左右邊界;然后在左右邊界附近尋找前綴詞、概數(shù)詞和特征詞;最后將短語(yǔ)完整地切分開(kāi),并根據(jù)特征詞確定短語(yǔ)的類型。這種方法雖然增加了一次掃描過(guò)程,但提高了切分的精度,減輕了后續(xù)過(guò)程的負(fù)擔(dān)。



微信公眾號(hào)

[1] [2] [下一頁(yè)] 【歡迎大家踴躍評(píng)論】
  • 上一篇:中文姓名的自動(dòng)辨識(shí)
  • 下一篇:切分歧義處理知識(shí)


  • 《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時(shí)溝通與處理。


我來(lái)說(shuō)兩句
評(píng)分: 1分 2分 3分 4分 5分
評(píng)論內(nèi)容:
驗(yàn)證碼:
【網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明本站同意其觀點(diǎn)或證實(shí)其描述。】
評(píng)論列表
已有 0 條評(píng)論(查看更多評(píng)論)