- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
中文姓名的自動(dòng)辨識(shí)對(duì)中文信息處理的重要性是不言而喻的。中文姓名不像印歐語(yǔ)言那樣,可以通過(guò)大寫(xiě)字母來(lái)辨識(shí),而其中的不少姓氏和名字用字又可構(gòu)成普通詞或普通詞的一部分,如果不加以處理,將導(dǎo)致相當(dāng)數(shù)量的分詞錯(cuò)誤,輕微的,將把姓名拆成字串;嚴(yán)重的,還將造成錯(cuò)誤的蔓延現(xiàn)象。這些都給姓名辨識(shí)造成了很大難度。
姓名辨識(shí)主要利用的信息包括:中文姓名的用字規(guī)律,姓名用字的使用頻率,以及姓名上下文。
1. 姓氏頻率表與名字用字頻率表
通過(guò)對(duì)174,900個(gè)中文姓名進(jìn)行抽樣綜合統(tǒng)計(jì)的結(jié)果,建立姓氏頻率表XFL與名字用字頻率表MCFL,并從中發(fā)現(xiàn),中文姓名的用字有以下幾個(gè)規(guī)律:
(1)統(tǒng)計(jì)得到的姓氏不多,僅為729個(gè),分布很不均勻,但相對(duì)集中。前5大姓“王、陳、李、張、劉”占了姓名樣本庫(kù)的32.0%,前365個(gè)姓占99.0%,而其余364個(gè)姓氏僅占不到1.0%。
(2)某些姓氏可用作單字詞,其中不乏高頻單字詞,例如常見(jiàn)姓氏“王、黃、馬、高、于”和不常見(jiàn)姓氏“是、過(guò)、來(lái)、從、那”。
(3)統(tǒng)計(jì)得到3345個(gè)名字用字。名字用字的分布較姓氏要平緩、分散,涉及的范圍很廣,從所屬的詞類(lèi)上看,不僅有實(shí)詞,也有各類(lèi)虛詞。
(4)某些漢字既可用作姓氏,又可用作名字用字。如“林、方、金、江、柳”。
(5)根據(jù)構(gòu)詞能力,名字用字可以劃分成三類(lèi):即可用作單字詞的開(kāi)放式名字用字,雖不可用作單字詞,但可構(gòu)詞的相對(duì)封閉式名字用字,以及既不可用作單字詞,又不可構(gòu)詞的絕對(duì)封閉式名字用字。例如“愛(ài)”、“?!?、“逵”就分別屬于這三類(lèi)字。
一般說(shuō)來(lái),中文姓名分單名sn和雙名pn兩類(lèi)。其中,
單名形如:sn=x(姓氏)m?(名字首字);
雙名形如:pn=x(姓氏)m?(名字首字)m2(名字末字)。
令fx(x∈姓氏)表示姓氏x(chóng)的使用頻率;
fm(mi∈名字用字,i=1,2)表示名字用字mi的使用頻率。
根據(jù)表XFL及MCFL,可給出姓名的概率估值:
p(sn)=fx(x)×fm(m?),以及p(pn)=fx(x)×fm(m?)×fm(m?)。