會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機(jī)版!    精選9.9元!    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 機(jī)器翻譯 > 正文

自然語言有限狀態(tài)剖析方法

發(fā)布時間: 2022-07-24 09:40:30   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 依靠簡單的有限狀態(tài)自動機(jī)而不依靠完全的剖析,使得這些系統(tǒng)的效率非常高。


有些自然語言處理的任務(wù)并不需要進(jìn)行完全的剖析。對于這些任務(wù),對輸入句子的局部剖析(partial parse)或淺層剖析(shallow parse)已經(jīng)足夠了。例如,信息抽?。╥nformation extraction)算法一般不必抽取在文本中所有可能的信息,只要抽取那些可以填充所要求數(shù)據(jù)的某種模板就足夠了。很多局部剖析系統(tǒng)都使用層疊式(cascade)的有限狀態(tài)自動機(jī)來替代上下文無關(guān)語法。依靠這樣簡單的有限狀態(tài)自動機(jī)而不依靠完全的剖析,使得這些系統(tǒng)的效率非常高。因為有限狀態(tài)系統(tǒng)不能模擬某些遞歸規(guī)則,它們只好以效率來彌補(bǔ)覆蓋面的不足。但這里只說明怎樣使用有限狀態(tài)自動機(jī)來識別基本短語(basic phrase),如名詞短語、動詞短語和地點詞等。下面是FASTUS基本短語識別器的輸出,當(dāng)然,究竟處理什么樣的基本短語依賴于具體的應(yīng)用要求。


1.png


這些基本短語是通過編寫到轉(zhuǎn)錄機(jī)中的一些有限狀態(tài)規(guī)則產(chǎn)生出來的。為了具體說明其工作的情況,我們從Appelt and Israel(1997)的FASTUS規(guī)則中抽出一個簡化的集合,用這些簡化的規(guī)則來探測名詞組(noun group)。名詞組是名詞短語的核心;一個名詞組包含中心名詞和左修飾語(限定詞、形容詞、數(shù)量修飾語、數(shù)詞等)。為了表達(dá)上的方便,我們使用帶有箭頭符號(→)的規(guī)則,這樣的規(guī)則看起來很像上下文無關(guān)規(guī)則的形式,但在實際情況下,這些規(guī)則被編為有限自動機(jī),并沒有像上下文無關(guān)規(guī)則那樣來處理。


一個名詞組可以只包括一個代詞(she, him或 them),一個時間短語(yesterday)或一個日期:


NG → Pronoun | Time-NP | Date-NP


名詞組也可以只包含一個單獨使用的限定詞(this或that),或者包含一個中心名詞(HdNns),這個中心名詞前面可以有隨選的限定詞短語(DETP)和/或隨選的形容詞(Adjs)(the quick and dirty solution, the frustrating mathematics problem),或者包含一個由動名詞短語修飾的中心名詞(the rising index ):


NG → (DETP) (Adjs) Hd Nns | DETP Ving HdNns

                                           | DETP-CP (and HdNns)


上面的括號用來表示隨選的成分,同時括號也可以用來表示組合。限定詞短語有兩個變體:


DETP → DETP-CP | DETP-INCP


完全限定詞短語(DETP-CP)能夠單獨作為NP使用,諸如only five, another three, this, many, hers, all 和the most。Adv-pre-num是那些在限定詞短語中可以出現(xiàn)在數(shù)詞之前的副詞(almost 5, precisely5 )。Pro-Poss-cp是可以單獨像一個完全的NP那樣使用的主有代詞(mine或his)。數(shù)量修飾語(Quantifiers, 簡寫為Q)包括many, few和much等。


DETP-CP → ({Adv-pre-num|“another"|

                    { Det | Pro-Poss } ({Adv-pre-num |  only  (“other)})}) Number

                    |Q|Q-er|(the") Q-est| another| Det-cp| DetQ|Pro-Poss-cp



微信公眾號

[1] [2] [3] [下一頁] 【歡迎大家踴躍評論】
  • 上一篇:次范疇化的概念及應(yīng)用
  • 下一篇:FSA剖析就是搜索


  • 《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時溝通與處理。


我來說兩句
評分: 1分 2分 3分 4分 5分
評論內(nèi)容:
驗證碼:
【網(wǎng)友評論僅供其表達(dá)個人看法,并不表明本站同意其觀點或證實其描述?!?
評論列表
已有 0 條評論(查看更多評論)