面向應(yīng)用的長名詞短語研究
漢語自動句法分析的難點問題
第二節(jié)多視域下的長名詞短語研究
第三節(jié)長名詞短語研究的方法與資源
第四節(jié)本書的主要內(nèi)容與
第二章 名詞短語識別的相關(guān)研究綜述
節(jié) 名詞短語研究
第二節(jié)組塊分析研究
第三節(jié)搭配獲取研究
第三章理論基礎(chǔ)與長名詞短語的界定
節(jié)漢語短語的分類框架
第二節(jié)語言組塊理論
第三節(jié)長名詞短語的界定
第四章長名詞短語的分布調(diào)查與分析
節(jié)長名詞短語的抽取
第二節(jié)能與外部鄰接
第三節(jié)句法結(jié)構(gòu)與內(nèi)部構(gòu)成
第四節(jié)復(fù)雜性與MNP構(gòu)造
第五節(jié)識別策略的確定
第五章 表層長名詞短語的識別.
節(jié)統(tǒng)計機器學(xué)及其選用
第二節(jié) 基于基本名詞短語歸約的識別
第三節(jié) 基于分類器集成的識別·
第六章 內(nèi)層長名詞短語的識別·
節(jié) 層級構(gòu)造
第二節(jié) 識別難點分析·
第三節(jié) 識別策略的確定
第四節(jié) 多層級的iMNP識別
第五節(jié)基于規(guī)則的修正·
第七章 長名詞短語識別工作的反思與展望
節(jié)研究工作的反思
第二節(jié)一步的研究計劃
參考文獻(xiàn)
附錄
附錄1清華漢語樹庫(TCT)詞類標(biāo)記集
附錄2清華漢語樹庫(TCT)能標(biāo)記集
附錄3清華漢語樹庫(TCT)句法結(jié)構(gòu)標(biāo)記集
附錄4 CRF特征模板·
附錄5動詞配價詞典示例
附錄6基本名詞短語提升規(guī)則
面向應(yīng)用的長名詞短語研究
漢語自動句法分析的難點問題
自動句法分析是中文信息處理領(lǐng)域諸多應(yīng)用技術(shù)的基礎(chǔ),如機器翻譯、人機對話系統(tǒng)等。但句法分析技術(shù)在處理大規(guī)模真實語料時遇到了較大的困難。按照PARSE-VAL評測體系,目前英語
句法分析的F值可達(dá)90%以上,漢語則徘徊在80%左右(李帥克等,22)。這一體系基于短行評價,若按照句子的完整結(jié)構(gòu)和關(guān)行評價,則又要低很多?梢哉f,在今天詞法分析已經(jīng)能夠基本達(dá)到應(yīng)用要求的情況下,句法分析技術(shù)已經(jīng)成為制約中文信息處理技術(shù)發(fā)展的瓶頸。
世紀(jì)90年代中后期,國內(nèi)英語淺層句法分析的思想,展開了組塊識別與分析研究。由于底層句法歧義在很大程度上影響了句法分析的效果,淺層句法分析主張從識別句子中某些簡單的組塊開始,在充分化解底層歧義的基礎(chǔ)上,逐步完成句法分析的任務(wù)。它把一個句子的完整分析過程劃分為三個部分,即組塊識別、組塊間依存關(guān)系的識別以及組塊內(nèi)部的結(jié)構(gòu)分析,并著力于組塊的識別和內(nèi)部結(jié)構(gòu)分析。淺層句法分析的思想是句法分析技術(shù)步,適合用于分析缺乏形態(tài)變化、底層歧義較多的漢語句子,成為漢語句法分析技術(shù)的重要發(fā)展趨勢。
國際上,淺層句法分析任務(wù)經(jīng)歷了單一短語的識別、覆蓋較廣的組塊識別、結(jié)構(gòu)復(fù)雜的小句識別等發(fā)展階段,而國內(nèi)研究多集中在基本塊,是簡單名詞短語的識別分析取得了較多的成果;較為復(fù)雜的語塊能塊、復(fù)雜名詞短語識別也受到了一定的關(guān)注,但分析效果還一步提升的空間。
在淺層句法分析的研究過程中,名詞短語引起了研究者的關(guān)注。一方面,名詞短語編碼了實體和概念,這些實體和概念是理解文本的基礎(chǔ);另一方面,名詞短語承擔(dān)著句子中的論元角色,也是語義關(guān)系分析的基礎(chǔ)。
自然語言處理研究者對名詞短行了新的分類,提出兩種具有較高處理價值的名詞短語,一種是基本名詞短語,一種是長名詞短語。相比較而言,長名詞短語的內(nèi)部結(jié)構(gòu)復(fù)雜多樣,既有較為簡單的名詞短語,含類似英語定語從句的范疇,識別和分析的難度更大。
顯然,結(jié)構(gòu)復(fù)雜的長名詞短語識別需要語言學(xué)知識的支持。然而,在本體語言學(xué)研究中,語法研究的是動詞,名詞重在語義研究。因此,漢語動詞短語的句法研究取得了豐碩的成果,名詞短語的相關(guān)研究卻相對較少,主要集中在靜態(tài)結(jié)構(gòu)的描寫以及定語語序等理論研究方面,而動態(tài)結(jié)構(gòu)構(gòu)造規(guī)律和分布狀況還沒有得到充分描寫。譬如,“的”是漢語中出現(xiàn)頻率高的詞,也是語法研究的熱點問題。幾乎所有的詞類和句法結(jié)構(gòu)都能入含“的”名詞短語,這些結(jié)構(gòu)是如何嵌套的,主體模式是什么,分布比例如何,本體語言學(xué)很少從這一角度展開描寫,但是其是名詞短語識別的重要參考數(shù)據(jù)。