- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
有些自然語言處理的任務(wù)并不需要進(jìn)行完全的剖析。對于這些任務(wù),對輸入句子的局部剖析(partial parse)或淺層剖析(shallow parse)已經(jīng)足夠了。例如,信息抽?。╥nformation extraction)算法一般不必抽取在文本中所有可能的信息,只要抽取那些可以填充所要求數(shù)據(jù)的某種模板就足夠了。很多局部剖析系統(tǒng)都使用層疊式(cascade)的有限狀態(tài)自動機(jī)來替代上下文無關(guān)語法。依靠這樣簡單的有限狀態(tài)自動機(jī)而不依靠完全的剖析,使得這些系統(tǒng)的效率非常高。因為有限狀態(tài)系統(tǒng)不能模擬某些遞歸規(guī)則,它們只好以效率來彌補(bǔ)覆蓋面的不足。但這里只說明怎樣使用有限狀態(tài)自動機(jī)來識別基本短語(basic phrase),如名詞短語、動詞短語和地點詞等。下面是FASTUS基本短語識別器的輸出,當(dāng)然,究竟處理什么樣的基本短語依賴于具體的應(yīng)用要求。
這些基本短語是通過編寫到轉(zhuǎn)錄機(jī)中的一些有限狀態(tài)規(guī)則產(chǎn)生出來的。為了具體說明其工作的情況,我們從Appelt and Israel(1997)的FASTUS規(guī)則中抽出一個簡化的集合,用這些簡化的規(guī)則來探測名詞組(noun group)。名詞組是名詞短語的核心;一個名詞組包含中心名詞和左修飾語(限定詞、形容詞、數(shù)量修飾語、數(shù)詞等)。為了表達(dá)上的方便,我們使用帶有箭頭符號(→)的規(guī)則,這樣的規(guī)則看起來很像上下文無關(guān)規(guī)則的形式,但在實際情況下,這些規(guī)則被編為有限自動機(jī),并沒有像上下文無關(guān)規(guī)則那樣來處理。
一個名詞組可以只包括一個代詞(she, him或 them),一個時間短語(yesterday)或一個日期:
NG → Pronoun | Time-NP | Date-NP
名詞組也可以只包含一個單獨使用的限定詞(this或that),或者包含一個中心名詞(HdNns),這個中心名詞前面可以有隨選的限定詞短語(DETP)和/或隨選的形容詞(Adjs)(the quick and dirty solution, the frustrating mathematics problem),或者包含一個由動名詞短語修飾的中心名詞(the rising index ):
NG → (DETP) (Adjs) Hd Nns | DETP Ving HdNns
| DETP-CP (and HdNns)
上面的括號用來表示隨選的成分,同時括號也可以用來表示組合。限定詞短語有兩個變體:
DETP → DETP-CP | DETP-INCP
完全限定詞短語(DETP-CP)能夠單獨作為NP使用,諸如only five, another three, this, many, hers, all 和the most。Adv-pre-num是那些在限定詞短語中可以出現(xiàn)在數(shù)詞之前的副詞(almost 5, precisely5 )。Pro-Poss-cp是可以單獨像一個完全的NP那樣使用的主有代詞(mine或his)。數(shù)量修飾語(Quantifiers, 簡寫為Q)包括many, few和much等。
DETP-CP → ({Adv-pre-num|“another"|
{ Det | Pro-Poss } ({Adv-pre-num | only (“other)})}) Number
|Q|Q-er|(the") Q-est| another| Det-cp| DetQ|Pro-Poss-cp