當(dāng)前位置：首頁(yè) > 機(jī)翻技術(shù) > 識(shí)別技術(shù) > 正文

中文姓名的自動(dòng)辨識(shí)

發(fā)布時(shí)間： 2022-12-20 09:26:16 作者：etogether.net 來(lái)源：網(wǎng)絡(luò) 瀏覽次數(shù)：

摘要: 中文姓名不像印歐語(yǔ)言那樣，可以通過(guò)大寫(xiě)字母來(lái)辨識(shí)，而其中的不少姓氏和名字用字又可構(gòu)成普通詞或普通詞的一部分，如果不加以...

中文姓名的自動(dòng)辨識(shí)對(duì)中文信息處理的重要性是不言而喻的。中文姓名不像印歐語(yǔ)言那樣，可以通過(guò)大寫(xiě)字母來(lái)辨識(shí)，而其中的不少姓氏和名字用字又可構(gòu)成普通詞或普通詞的一部分，如果不加以處理，將導(dǎo)致相當(dāng)數(shù)量的分詞錯(cuò)誤，輕微的，將把姓名拆成字串；嚴(yán)重的，還將造成錯(cuò)誤的蔓延現(xiàn)象。這些都給姓名辨識(shí)造成了很大難度。

姓名辨識(shí)主要利用的信息包括：中文姓名的用字規(guī)律，姓名用字的使用頻率，以及姓名上下文。

1. 姓氏頻率表與名字用字頻率表

通過(guò)對(duì)174,900個(gè)中文姓名進(jìn)行抽樣綜合統(tǒng)計(jì)的結(jié)果，建立姓氏頻率表XFL與名字用字頻率表MCFL，并從中發(fā)現(xiàn)，中文姓名的用字有以下幾個(gè)規(guī)律：

（1）統(tǒng)計(jì)得到的姓氏不多，僅為729個(gè)，分布很不均勻，但相對(duì)集中。前5大姓“王、陳、李、張、劉”占了姓名樣本庫(kù)的32.0%，前365個(gè)姓占99.0%，而其余364個(gè)姓氏僅占不到1.0%。

（2）某些姓氏可用作單字詞，其中不乏高頻單字詞，例如常見(jiàn)姓氏“王、黃、馬、高、于”和不常見(jiàn)姓氏“是、過(guò)、來(lái)、從、那”。

（3）統(tǒng)計(jì)得到3345個(gè)名字用字。名字用字的分布較姓氏要平緩、分散，涉及的范圍很廣，從所屬的詞類(lèi)上看，不僅有實(shí)詞，也有各類(lèi)虛詞。

（4）某些漢字既可用作姓氏，又可用作名字用字。如“林、方、金、江、柳”。

（5）根據(jù)構(gòu)詞能力，名字用字可以劃分成三類(lèi)：即可用作單字詞的開(kāi)放式名字用字，雖不可用作單字詞，但可構(gòu)詞的相對(duì)封閉式名字用字，以及既不可用作單字詞，又不可構(gòu)詞的絕對(duì)封閉式名字用字。例如“愛(ài)”、“?！?、“逵”就分別屬于這三類(lèi)字。

一般說(shuō)來(lái)，中文姓名分單名sn和雙名pn兩類(lèi)。其中，

單名形如：sn=x(姓氏）m?(名字首字）；

雙名形如：pn=x(姓氏）m?（名字首字）m2（名字末字）。

令fx(x∈姓氏)表示姓氏x(chóng)的使用頻率；

fm(mi∈名字用字，i=1，2)表示名字用字mi的使用頻率。

根據(jù)表XFL及MCFL，可給出姓名的概率估值：

p(sn)=fx(x)×fm(m?),以及p(pn)=fx(x)×fm(m?)×fm(m?)。

[1] [2] [下一頁(yè)] 【歡迎大家踴躍評(píng)論】

上一篇：自然語(yǔ)言歧義的消除
下一篇：復(fù)旦分詞系統(tǒng)介紹

《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題，煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時(shí)溝通與處理。

評(píng)分：	1分 2分 3分 4分 5分
評(píng)論內(nèi)容：
驗(yàn)證碼：
【網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法，并不表明本站同意其觀點(diǎn)或證實(shí)其描述?！?

中文姓名的自動(dòng)辨識(shí)

相關(guān)機(jī)器翻譯技術(shù)文章

免費(fèi)在線(xiàn)翻譯

翻譯機(jī)

外語(yǔ)書(shū)籍

行業(yè)文章

人工翻譯