計算語言學(xué)研究濫觴于上世紀五六十年代的機器翻譯研究。中文的相關(guān)研究也幾乎同步開始,1960年起在柏克萊加州大學(xué)研究室,王士元、鄒嘉彥、C.Y.Dougherty等人已開始研究中英、中俄機器翻譯。他們的中文計算語言學(xué)研究,可說是與世界最尖端科技同步的。
計算語言學(xué)(Computational Lingljistics,CL)在語言科學(xué)與信息科學(xué)的研究領(lǐng)域扮演關(guān)鍵性的角色。語言學(xué)理論尋求對語言現(xiàn)象規(guī)律性的揭示與完整的解釋。計算語言學(xué)正好提供了驗證與應(yīng)用這些規(guī)律與解釋的大好機會。作為語言學(xué)、信息科學(xué)乃至于心理學(xué)與認知科學(xué)結(jié)合的交叉學(xué)科,計算語言學(xué)更提供了語言學(xué)基礎(chǔ)研究與應(yīng)用研究的絕佳界面。事實上,計算語言學(xué)與人類語言科技(Human Langllage Technology,HLT)可以視為一體兩面,不可分割。
計算語言學(xué)研究濫觴于上世紀五六十年代的機器翻譯研究。中文的相關(guān)研究也幾乎同步開始,1960年起在柏克萊加州大學(xué)研究室,王士元、鄒嘉彥、C.Y.Dougherty等人已開始研究中英、中俄機器翻譯。他們的中文計算語言學(xué)研究,可說是與世界最尖端科技同步的。中國國內(nèi)中俄翻譯研究也不遑多讓,大約在上世紀50年代中期便已開始?上У氖,這些中文相關(guān)早期機器翻譯研究,由于硬件與軟件的限制,沒能延續(xù)下來。中文計算語言學(xué)研究比較有系統(tǒng)的進展,還要等到1986年;海峽兩岸在同一年成立了兩個致力于中文計算語言學(xué)基礎(chǔ)架構(gòu)建立的研究群。北京大學(xué)的計算語言學(xué)研究所在朱德熙先生倡導(dǎo)下成立,隨后一段時間由陸儉明、俞士汶主持。而臺灣“中研院”的中文詞知識庫小組,由謝清俊創(chuàng)立,陳克健主持,黃居仁1987年返臺后加入。
導(dǎo)讀
Preface
Acknowledgements
Introduction
1.1 What This Book Is About
1.1.1 Why Do Spoken Language Translation?
1.1.2 What Are the Basic Problems?
1.1.3 What Is It Realistic to Attempt Today?
1.1.4 What Have We Achieved?
1.2 Overall System Architecture
1.3 An Illustrative Example
1.4 In Defence of Hand-Coded Grammars
1.5 Hybrid Transfer
1.5.1 The Need for Grammatical Knowledge
1.5.2 The Need for Preferences
1.6 Speech Processing
1.7 Corpora
Part 1 Language Processing and Corpora
Translation Using the Core Language Engine
2.1 Introduction: Multi-Engine Translation
2.2 Word-to-Word Translation
2.3 Quasi Logical Form
2.3.1 Introduction
2.3.2 Structure of QLF
2.3.3 QLF as a Transfer Formalism: Examples
2.3.4 Head-Head Relations in QLF
2.4 Unification Grammar and QLFs
2.4.1 The CLE Unification Grammar Formalism
2.4.2 Unification Grammar Example: French Noun Phrases
2.4.3 Example 2a: Clauses in Swedish
2.4.4 Example 2b: Relative Clauses in Swedish
2.5 Orthographic Analysis and the Lexicon
2.6 Transfer Rules
2.6.1 Pre- and Posttransfer
2.7 The QLF-Based Processing Path
2.7.1 Linguistic Analysis
2.7.2 Transfer and Transfer Preferences
2.7.3 Generation
2.8 Summary
Grammar Specialisation
3.1 Introduction
3.2 Explanation-Based Learning for Grammar
Specialisation
3.2.1 A Definition of Explanation-Based Learning
3.2.2 Explanation-Based Learning on Unification Grammars
3.2.3 Category Specialisation
3.2.4 Elaborate Cutting-Up Criteria
3.3 An LR Parsing Method for Specialised Grammars
3.3.1 Basic LR Parsing
3.3.2 Prefix Merging
3.3.3 Abstraction
3.4 Empirical Results
3.4.1 Experimental Setup
3.4.2 Discussion of Results
3.5 Conclusions
Choosing among Interpretations
4.1 Properties and Discriminants
4.2 Constituent Pruning
4.2.1 Discriminants for Pruning
4.2.2 Deciding Which Edges to Prune
4.2.3 Probability Estimates for Discriminants
4.2.4 Relation to Other Pruning Methods
4.3 Choosing among QLF Analyses
4.3.1 Analysis Choice: An Example
4.3.2 Further Advantages of a Discriminant Scheme .
4.3.3 Numerical Metrics
4.4 Choosing among Transferred QLFs
4.5 Choosing Paths in the Chart
The TreeBanker
5.1 Motivation
5.2 Representational Issues
5.3 Overview of the TreeBanker
5.4 The Supervised Training Process
5.4.1 Properties and Discriminants in Training
5.4.2 Additional Functionality
5.5 Training for Transfer Choice
5.6 Evaluation and Conclusions
Acquisition of Lexical Entries
6. 1 The Lexical Acquisition Tool, LexMake
6.2 Acquiring Word-to-Word Transfer Rules
6.3 Evaluation and Conclusions
Spelling and Morphology
7.1 Introduction
7.2 The Description Language
7.2.1 Morphophonology
7.2.2 Word Formation and Interfacing to Syntax
7.3 Compilation
7.3.1 Compiling Spelling Patterns
7.3.2 Representing Lexical Roots
7.3.3 Applying Obligatory Rules
7.3.4 Interword Rules
7.3.5 Timings
7.4 Some Examples
7.4.1 Multiple-Letter Spelling Changes
7.4.2 Using Features to Control Rule Application
7.4.3 Interword Spelling Changes
7.5 Debugging the Rules
……
Part 2 Linguistic Coverage
Part 3 Speech Processing
棒性和系統(tǒng)的自適應(yīng)能力。同書面語相比,口語的聲學(xué)特性有一定的特殊性,這類語音的基頻、時長、幅度等特征都隨表達內(nèi)容、感情色彩等不同,變化的范圍比朗讀語音大得多,同時還有非語聲信號和噪聲,充分研究這些特性,建立精細的聲學(xué)模型非常重要。而且,講話人往往是在較強的背景噪聲或多講話人環(huán)境下發(fā)音的,如果是電話自動語音翻譯系統(tǒng),還存在通訊干擾等其他因素的影響,因此,提高語音識別在不同說話人、不同聲學(xué)環(huán)境及通道條件下的魯棒性,在口語翻譯系統(tǒng)中尤其重要。另外,在語言學(xué)層面,口語句子中含有大量的修正、重復(fù)、口頭語、省略等非規(guī)范語言現(xiàn)象,研究這些特征,對語言模型進行完善,包括建模、算法和訓(xùn)練等各個方面,將有助于提高語音識別的正確率。
(2)翻譯方法有待于進一步研究。盡管統(tǒng)計翻譯方法具有較高的魯棒性,但是,對非規(guī)范語言現(xiàn)象和噪聲的處理能力仍然十分有限,而且這種方法與訓(xùn)練語料的規(guī)模和質(zhì)量密切相關(guān)。統(tǒng)計方法與規(guī)則方法的結(jié)合一直是人們所追求的,但是具體如何融合,多翻譯引擎以什么樣的集成方式可以獲得最好的系統(tǒng)性能,統(tǒng)計模型賴以訓(xùn)練的語料規(guī)模達到多大才算充分,非語言信息(手勢、表情、說話人角色等)如何融人翻譯模型等,諸多問題都遠遠沒有得到解決。
……