當(dāng)前位置：首頁 > 機(jī)翻技術(shù) > 機(jī)器翻譯 > 正文

自然語言有限狀態(tài)剖析方法

發(fā)布時間： 2022-07-24 09:40:30 作者：etogether.net 來源：網(wǎng)絡(luò) 瀏覽次數(shù)：

摘要: 依靠簡單的有限狀態(tài)自動機(jī)而不依靠完全的剖析，使得這些系統(tǒng)的效率非常高。

有些自然語言處理的任務(wù)并不需要進(jìn)行完全的剖析。對于這些任務(wù)，對輸入句子的局部剖析（partial parse）或淺層剖析（shallow parse）已經(jīng)足夠了。例如，信息抽?。╥nformation extraction）算法一般不必抽取在文本中所有可能的信息，只要抽取那些可以填充所要求數(shù)據(jù)的某種模板就足夠了。很多局部剖析系統(tǒng)都使用層疊式（cascade）的有限狀態(tài)自動機(jī)來替代上下文無關(guān)語法。依靠這樣簡單的有限狀態(tài)自動機(jī)而不依靠完全的剖析，使得這些系統(tǒng)的效率非常高。因為有限狀態(tài)系統(tǒng)不能模擬某些遞歸規(guī)則，它們只好以效率來彌補(bǔ)覆蓋面的不足。但這里只說明怎樣使用有限狀態(tài)自動機(jī)來識別基本短語（basic phrase），如名詞短語、動詞短語和地點詞等。下面是FASTUS基本短語識別器的輸出，當(dāng)然，究竟處理什么樣的基本短語依賴于具體的應(yīng)用要求。

這些基本短語是通過編寫到轉(zhuǎn)錄機(jī)中的一些有限狀態(tài)規(guī)則產(chǎn)生出來的。為了具體說明其工作的情況，我們從Appelt and Israel(1997)的FASTUS規(guī)則中抽出一個簡化的集合，用這些簡化的規(guī)則來探測名詞組（noun group）。名詞組是名詞短語的核心；一個名詞組包含中心名詞和左修飾語（限定詞、形容詞、數(shù)量修飾語、數(shù)詞等）。為了表達(dá)上的方便，我們使用帶有箭頭符號（→）的規(guī)則，這樣的規(guī)則看起來很像上下文無關(guān)規(guī)則的形式，但在實際情況下，這些規(guī)則被編為有限自動機(jī)，并沒有像上下文無關(guān)規(guī)則那樣來處理。

一個名詞組可以只包括一個代詞（she, him或 them）,一個時間短語（yesterday）或一個日期：

NG → Pronoun | Time-NP | Date-NP

名詞組也可以只包含一個單獨使用的限定詞（this或that），或者包含一個中心名詞（HdNns），這個中心名詞前面可以有隨選的限定詞短語（DETP）和/或隨選的形容詞（Adjs）（the quick and dirty solution, the frustrating mathematics problem),或者包含一個由動名詞短語修飾的中心名詞(the rising index )：

NG → (DETP) (Adjs) Hd Nns | DETP Ving HdNns

| DETP-CP (and HdNns)

上面的括號用來表示隨選的成分，同時括號也可以用來表示組合。限定詞短語有兩個變體：

DETP → DETP-CP | DETP-INCP

完全限定詞短語（DETP-CP）能夠單獨作為NP使用，諸如only five, another three, this, many, hers, all 和the most。Adv-pre-num是那些在限定詞短語中可以出現(xiàn)在數(shù)詞之前的副詞（almost 5, precisely5 )。Pro-Poss-cp是可以單獨像一個完全的NP那樣使用的主有代詞（mine或his)。數(shù)量修飾語（Quantifiers, 簡寫為Q）包括many, few和much等。

DETP-CP → ({Adv-pre-num|“another"|

{ Det | Pro-Poss } ({Adv-pre-num | only (“other)})}) Number

[1] [2] [3] [下一頁] 【歡迎大家踴躍評論】

上一篇：次范疇化的概念及應(yīng)用
下一篇：FSA剖析就是搜索

《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時溝通與處理。

評分：	1分 2分 3分 4分 5分
評論內(nèi)容：
驗證碼：
【網(wǎng)友評論僅供其表達(dá)個人看法，并不表明本站同意其觀點或證實其描述?！?

自然語言有限狀態(tài)剖析方法

相關(guān)機(jī)器翻譯技術(shù)文章

免費(fèi)在線翻譯

翻譯機(jī)

外語書籍

行業(yè)文章

人工翻譯