《語料庫詞典學(xué):理論與方法探索》從語言研究的詞匯轉(zhuǎn)向出發(fā),討論了語料庫詞典學(xué)的理論基礎(chǔ)和未來研究方向。語料庫詞典學(xué)具有跨學(xué)科的特征,本書在詳細論述技術(shù)現(xiàn)狀的同時,還討論了存在的問題及解決方案。此外,作者還專門介紹了如何使用計算機高級語言開發(fā)基于語料庫的詞典編纂系統(tǒng)。本書不僅可資語言學(xué)和詞典學(xué)領(lǐng)域的師生研讀,也是自然語言處理、機器翻譯等語言工程領(lǐng)域有價值的參考書。
《語料庫詞典學(xué):理論與方法探索》對語料庫詞典學(xué)進行了系統(tǒng)而詳細的介紹。一方面,本書從理論上系統(tǒng)闡釋了語料庫詞典學(xué)、基于語料庫的詞典理論研究和基于語料庫的詞典編纂研究,語料庫語言學(xué)的引入為詞典理論研究和編纂研究打開了一個新的突破口;另一個方面,作者結(jié)合自己多年研究實踐,詳細介紹了如何建設(shè)詞典語料庫以及如何用VB開發(fā)詞典編纂工具,并進行了專題研究。本書針對性強,內(nèi)容設(shè)計精心體貼,章節(jié)編排清晰合理。
前 言
詞典研編與語料庫的結(jié)合可謂歷史悠久,早期詞典編纂過程中使用的“卡片”可視為現(xiàn)代“語料”的前身。早在1747年,英語詞典編纂的鼻祖約翰遜(Samuel Johnson)就發(fā)表了《英語詞典規(guī)劃》(Plan of an English Dictionary),將前人收集資料的好方法作了總結(jié)。他所編的英語詞典所含引證和說明達15萬條以上,可見其所收集的資料庫規(guī)模已相當(dāng)可觀!杜=蛴⒄Z詞典》(Oxford English Dictionary, OED)于1928年完成,所用的引證有400多萬條,卡片1100多萬張!俄f氏新國際英語詞典》(Webster’s New International Dictionary)第二版的編寫參照了100多萬條引證,第三版于1961年付印時,新舊引證共達1000多萬條。
利用真實語言資料進行研究,也一直是詞匯學(xué)家和語法學(xué)家的傳統(tǒng)做法。英語語法大師葉斯柏森(Otto Jesperson)在編寫《英語語法大全》時,所使用的卡片數(shù)目多達30至40萬張。20世紀(jì)40年代,美國的語言學(xué)家博厄斯(Franz Boas)在研究美洲印第安語言時就使用了語料庫的方法,后來的結(jié)構(gòu)主義語言學(xué)家更是如此。
今天,語料庫被視為現(xiàn)代語言學(xué)的3種主要研究方法之一,而在詞典研編領(lǐng)域,不僅詞典編纂離不開語料庫,基于語料庫的各項理論研究也正在如火如荼地進行。從國外的詞典研編來看,語料庫方法已經(jīng)逐漸成為主流。近年來出版的大型英語詞典基本都采用了語料庫輔助詞典編纂(Corpus-aided Dictionary Compilation,CADIC)的手段。
基于語料庫的詞典編纂技術(shù)研究是語料庫詞典學(xué)的主要研究對象之一,基于語料庫的詞典學(xué)理論研究以及詞典語料庫建設(shè)的研究是語料庫詞典學(xué)的另外兩個主要研究領(lǐng)域。 前 言
詞典研編與語料庫的結(jié)合可謂歷史悠久,早期詞典編纂過程中使用的“卡片”可視為現(xiàn)代“語料”的前身。早在1747年,英語詞典編纂的鼻祖約翰遜(Samuel Johnson)就發(fā)表了《英語詞典規(guī)劃》(Plan of an English Dictionary),將前人收集資料的好方法作了總結(jié)。他所編的英語詞典所含引證和說明達15萬條以上,可見其所收集的資料庫規(guī)模已相當(dāng)可觀!杜=蛴⒄Z詞典》(Oxford English Dictionary, OED)于1928年完成,所用的引證有400多萬條,卡片1100多萬張!俄f氏新國際英語詞典》(Webster’s New International Dictionary)第二版的編寫參照了100多萬條引證,第三版于1961年付印時,新舊引證共達1000多萬條。
利用真實語言資料進行研究,也一直是詞匯學(xué)家和語法學(xué)家的傳統(tǒng)做法。英語語法大師葉斯柏森(Otto Jesperson)在編寫《英語語法大全》時,所使用的卡片數(shù)目多達30至40萬張。20世紀(jì)40年代,美國的語言學(xué)家博厄斯(Franz Boas)在研究美洲印第安語言時就使用了語料庫的方法,后來的結(jié)構(gòu)主義語言學(xué)家更是如此。
今天,語料庫被視為現(xiàn)代語言學(xué)的3種主要研究方法之一,而在詞典研編領(lǐng)域,不僅詞典編纂離不開語料庫,基于語料庫的各項理論研究也正在如火如荼地進行。從國外的詞典研編來看,語料庫方法已經(jīng)逐漸成為主流。近年來出版的大型英語詞典基本都采用了語料庫輔助詞典編纂(Corpus-aided Dictionary Compilation,CADIC)的手段。
基于語料庫的詞典編纂技術(shù)研究是語料庫詞典學(xué)的主要研究對象之一,基于語料庫的詞典學(xué)理論研究以及詞典語料庫建設(shè)的研究是語料庫詞典學(xué)的另外兩個主要研究領(lǐng)域。
詞典學(xué)是關(guān)于詞匯研究的學(xué)問,詞義的理解和重現(xiàn)是詞典學(xué)的核心研究內(nèi)容。
漢語的詞義研究從《爾雅》和《說文解字》開始,雖然說漢語的詞義研究已經(jīng)有很長的歷史,但是,我國的詞匯研究一直發(fā)展緩慢,直到上個世紀(jì)50年代,詞匯研究還主要在“訓(xùn)詁”的范圍內(nèi)進行,真正意義上的漢語詞匯(包括詞義)研究從改革開放后才開始。改革開放以來,我國出版了一系列的詞匯學(xué)和詞匯語義學(xué)著作,這些著作研究了漢語詞匯的系統(tǒng)性、詞匯的社會性、詞的內(nèi)部形式、詞的語義分類、詞的搭配、詞義和語素義的關(guān)系、語義場、義素分析、詞匯應(yīng)用等。雖然可以說漢語的詞匯研究進入了新的發(fā)展階段,但除了詞匯應(yīng)用研究之外,在詞匯研究的大多數(shù)領(lǐng)域,研究方法依然較為傳統(tǒng),基于大規(guī)模語料的定量分析方法還沒有真正開始。
與詞匯研究密切相關(guān)的漢語詞典編纂也主要依靠內(nèi)省的方法,這集中表現(xiàn)在釋義和義項處理上。
內(nèi)省法明顯的缺點是主觀性,因為個人的語感或直覺并不總是正確的,而且當(dāng)自己的語感與其他人的語感發(fā)生沖突的時候,也難以找到一個衡量正誤的標(biāo)準(zhǔn)。由于內(nèi)省法的缺點,國外有學(xué)者稱這樣的詞典編纂為“扶手椅上的詞典編纂”(armchair lexicography)。
與漢語單語詞典相比,我國漢英詞典編纂存在的問題更為嚴(yán)重。從目前出版的漢英詞典來看,由于落后的編纂方法和對漢語詞典的過分依賴,詞典的編碼功能普遍較低。
語料庫語言學(xué)為詞典編纂提供了全新的方法,基于語料庫的方法(corpus-based method)和語料庫驅(qū)動的方法相互結(jié)合(corpus-driven method)使傳統(tǒng)的演繹法和歸納法合二為一。語料庫與詞典研編在國外的成功證明了語料庫的技術(shù)手段對于詞典研編的重要性。語料庫方法依靠計算機強大的檢索、索引和統(tǒng)計功能,在詞義研究方面具有內(nèi)省和人工檢索無法比擬的優(yōu)勢。
詞義與語境關(guān)系密切,語料庫方法通過文本索引重現(xiàn)語境。語料庫可以提供大量的釋義選項和例證選項供詞典編纂人員參考,這些基于大規(guī)模真實文本的語料經(jīng)過詞典編纂人員的合理加工后成為詞典的現(xiàn)實釋義和例證。由于它們來源于真實文本,因此在真實性、科學(xué)性和可插入性方面都具有很大的優(yōu)勢,有利于使用者在具體的語境里生成正確的目的語。
短語驅(qū)動詞典學(xué)(phraseology-driven lexicography)的研究表明,由短語構(gòu)成的小語境是最重要的言內(nèi)語境。語料庫詞典學(xué)的釋義和配例等都可以圍繞短語展開。
統(tǒng)計功能是語料庫的另一個強項,通過統(tǒng)計校驗可以使英漢語之間在某一層面上的“聯(lián)結(jié)模式”(association patterns)凸顯出來。統(tǒng)計手段還是研究搭配和用法的有效方法,通過互信息值、Z值等可以衡量搭配詞的搭配力。同時,統(tǒng)計手段還對義項的排序、常用詞的常用度衡量等有不可或缺的作用。
對于漢英雙語詞典來說,平行語料庫具有單語庫無法比擬的優(yōu)勢。雙語詞典解決的是在具體的使用環(huán)境中該如何選擇目的語進行表達。雙語詞典的釋義其實就是從源語到目的語的翻譯;谄叫姓Z料庫的英漢詞匯對比研究對雙語詞典具有重要意義。
語料庫詞典學(xué)具有一定的跨學(xué)科性質(zhì)和技術(shù)性,它與信息科學(xué)、計算語言學(xué)等具有互動關(guān)系。由于作者水平所限,書中難免有疏漏或淺薄之處,懇請廣大同仁指正。
李德俊,1967年生,南京大學(xué)文學(xué)博士,F(xiàn)為解放軍國際關(guān)系學(xué)院教授,研究生導(dǎo)師,南京大學(xué)雙語詞典研究中心兼職研究員,曾于2010年至2011年在英國曼徹斯特大學(xué)訪學(xué)。主要研究興趣為語料庫語言學(xué)和詞典學(xué),能熟練使用VB和VC等計算機高級語言編程。近年來,共主持并完成了國家社會科學(xué)基金項目兩項;出版譯著3本。專著《平行語料庫與積極型漢英詞典的研編》獲江蘇省第十一屆哲學(xué)社會科學(xué)優(yōu)秀成果二等獎。2006年以來,在《外國語》、《現(xiàn)代外語》等國內(nèi)權(quán)威和核心期刊上發(fā)表論文10多篇。
前 言 2
目 錄 4
第一章 引論 1
1.1 什么是語料庫詞典學(xué) 1
1.1.1 詞典學(xué)學(xué)科地位的日益鞏固 2
1.1.1.1 詞典學(xué)的語言學(xué)傳統(tǒng) 2
1.1.1.2 詞典學(xué)的跨學(xué)科研究 4
1.1.2 語料庫詞典學(xué)的興起 8
1.2 語料庫詞典學(xué)的研究對象 10
第二章 基于語料庫的詞典理論研究 12
2.1基于語料庫和語料庫驅(qū)動 12
2.1.1 基于語料庫 12
2.1.2 語料庫驅(qū)動 14
2.1.3 小結(jié) 15
2.2短語學(xué) 16 前 言 2
目 錄 4
第一章 引論 1
1.1 什么是語料庫詞典學(xué) 1
1.1.1 詞典學(xué)學(xué)科地位的日益鞏固 2
1.1.1.1 詞典學(xué)的語言學(xué)傳統(tǒng) 2
1.1.1.2 詞典學(xué)的跨學(xué)科研究 4
1.1.2 語料庫詞典學(xué)的興起 8
1.2 語料庫詞典學(xué)的研究對象 10
第二章 基于語料庫的詞典理論研究 12
2.1基于語料庫和語料庫驅(qū)動 12
2.1.1 基于語料庫 12
2.1.2 語料庫驅(qū)動 14
2.1.3 小結(jié) 15
2.2短語學(xué) 16
2.2.1定義 16
2.2.2 短語學(xué)的研究范圍 16
2.2.3短語與搭配 18
2.2.3.1 搭配的多面性 19
2.2.3.2 短語與搭配的關(guān)系 20
2.2.4 短語學(xué)的發(fā)展史 20
2.2.5 短語的識別方法 22
2.2.6 對詞典學(xué)的啟示 23
2.3搭配的統(tǒng)計識別研究 27
2.3.1 標(biāo)準(zhǔn)分Z值測量法 29
2.3.2 互信息MI值測量法 29
2.3.3 統(tǒng)計校驗t檢驗法 30
2.3.4 搭配統(tǒng)計方法存在的問題 31
2.4詞義的理解與重現(xiàn) 32
2.4.1語料庫詞典學(xué)的詞義研究理論基礎(chǔ) 33
2.4.1.1 語言哲學(xué)對意義的論述 33
2.4.1.2 語言學(xué)家對意義的分類 34
2.4.1.3 詞義的組成 36
2.4.2詞義的理解 38
2.4.3詞典重現(xiàn)詞義的手段 40
2.4.4短語驅(qū)動詞典學(xué) 43
第三章 基于語料庫的詞典編纂研究 51
3.1 詞典立目 51
3.1.1 立目的要求 51
3.1.2 立目自動化與挑戰(zhàn) 54
3.1.3 立目工具的基本要求 55
3.2 詞典釋義 57
3.2.1 語料庫與單語詞典釋義 58
3.2.2 語料庫與雙語詞典釋義 60
3.3 詞典配例 64
3.3.1 語料庫配例的優(yōu)勢 64
3.3.2 語料庫配例方法 65
3.3.2.1 配例的難點 65
3.3.2.2 提高配例效率的方法 67
3.4 義項選擇與頻度排序 68
3.4.1 新義項的發(fā)掘 68
3.4.1.1 基于索引行的分析方法 68
3.4.1.2 基于SQL的索引行自動篩選 70
3.4.2 義項的頻度排序 71
3.4.2.1 平行語料庫與頻度排序 71
3.4.2.2 基于SQL檢索排序存在的問題 73
第四章 詞典語料庫建設(shè)研究 75
4.1 詞典語料庫的特點 75
4.1.1詞典語料庫的選材特點 75
4.1.2詞典語料庫的規(guī)模特點 75
4.2 詞典語料庫建設(shè) 76
4.2.1 語料庫建設(shè)的首要問題:代表性 76
4.2.1.1. 語料結(jié)構(gòu)和組成 76
4.2.1.2 語料庫及樣本大小 78
4.2.1.3 抽樣方法 81
4.2.1.4 樣本的規(guī)模 86
4.2.2 語料庫建設(shè)及檢索系統(tǒng)開發(fā)的必要性 87
4.2.3 詞典語料庫的建設(shè)步驟 88
4.2.3.1 規(guī)劃 88
4.2.3.2 設(shè)計 89
4.2.3.3 選材 91
4.2.3.4 建庫 92
4.2.3.5 加工 93
4.2.4 對齊模塊的研制 97
4.2.4.1 句子、段落和句段 97
4.2.4.2 自動對齊模塊AutoAligner 99
4.2.5 基于語料庫的詞典編纂平臺開發(fā) 100
4.2.5.1 設(shè)計思想和目的 100
4.2.5.2 系統(tǒng)結(jié)構(gòu)框架 102
4.2.5.3 功能實現(xiàn) 103
4.2.6 個人語料庫管理模塊 108
4.3 小結(jié) 109
第五章 用VB開發(fā)詞典編纂系統(tǒng) 111
5.1 基本概念 111
5.2 數(shù)據(jù)庫 113
5.2.1 數(shù)據(jù)庫基本概念 113
5.2.2 SQL語法及常用語句 114
5.3 VB開發(fā)環(huán)境 116
5.4初級詞典編纂系統(tǒng)開發(fā) 117
5.4.1 基本功能 117
5.4.2 系統(tǒng)運行界面 118
5.4.3 系統(tǒng)使用對象與控件 118
5.4.4 程序設(shè)計與代碼 119
第六章 專題研究 122
6.1 搭配語義研究 122
6.1.1 搭配與詞義 122
6.1.2 語料庫與詞典搭配研究 125
6.1.3 小結(jié) 135
6.2 英漢詞匯對等研究 136
6.2.1 等值論及其對雙語詞典研編的意義 136
6.2.2 完全對等和零對等的語料庫考察 137
6.2.2.1完全對等的語料庫考察 138
6.2.2.2 零對等的語料庫考察 141
6.2.3 小結(jié) 144
6.3 基于平行語料庫的上下義詞對比研究 146
6.3.1 引論 146
6.3.2 英漢語上下義詞對比研究的意義 147
6.3.2.1 漢語的詞匯層次 147
6.3.2.2 上義詞的交際意義 148
6.3.3 上下義詞對比研究的方法 149
6.3.3.1 問卷調(diào)查的實施方法 149
6.3.3.2 語料庫的方法 150
6.3.4 問卷調(diào)查的數(shù)據(jù)和語料庫的數(shù)據(jù) 150
6.3.4.1 問卷調(diào)查的數(shù)據(jù) 150
6.3.4.2 語料庫的數(shù)據(jù) 152
6.3.5 數(shù)據(jù)分析 154
6.3.5.1 英漢語上下義關(guān)系詞在中高級層次上具有高度對應(yīng)性 154
6.3.5.2 上義詞的對應(yīng)空位及其補償手段 155
6.3.6 余論:研究方法的比較 157
參考文獻 164
主要參考詞典 173
漢英對照詞匯表 174
英漢對照術(shù)語表 179
索 引 184
附 錄 185
語料庫詞典學(xué)可以簡單定義為基于語料庫的詞典學(xué)理論研究和詞典編纂技術(shù)的探討。但對于詞典學(xué)本身作為一門學(xué)科的地位都不甚牢固的今天,語料庫詞典學(xué)是否能作為一個學(xué)科來研究似乎更加令人懷疑。詞典學(xué)通常被視為詞匯學(xué)的分支,或者說詞典學(xué)是將詞匯學(xué)的理論運用于詞典編纂的工作,其本身只能視為詞匯學(xué)理論的應(yīng)用。有人認(rèn)為詞典學(xué)只能算個應(yīng)用學(xué)科,詞匯學(xué)才是理論學(xué)科。據(jù)Hartmann(2006:9),國際上詞典學(xué)的研究專刊只有幾種:牛津大學(xué)出版社出版的International Journal of Lexicography,北美詞典學(xué)會(Dictionary Society of North America)出版的“詞典學(xué)年鑒”(yearbook Dictionaries),M. Niemeyer出版的Lexicographica International Annual,WAT出版的AFRILEX annual Lexikos和上海辭書出版社出版的《辭書研究》等。有影響的詞典研究中心也不過數(shù)家。大部分詞典和工具書也將詞典學(xué)(lexicography)定義為“詞典編寫”(dictionary-making)的工藝,而不認(rèn)為詞典學(xué)是一個獨立的學(xué)科。下面是一些權(quán)威工具書對詞典學(xué)(lexicography)的定義:
新牛津英語詞典(NODE,1998):詞典學(xué)指的是詞典編纂的實踐。(Lexicography is “the practice of compiling dictionaries.”)
美國傳統(tǒng)詞典(AHD3,1992):詞典學(xué)指的是詞典的編纂或撰寫的過程或工作。(Lexicography is “the process or work of writing or compiling a dictionary.”)
柯林斯COBUILD詞典電子版(2001):詞典學(xué)是撰寫詞典的活動或工作。(Lexicography is the activity or profession of writing dictionaries.)
詞典學(xué)的地位尚且如此,那么“語料庫詞典學(xué)”還能作為一門學(xué)科來進行研究嗎?
據(jù)作者掌握的資料,目前以“語料庫詞典學(xué)”為題名關(guān)鍵詞出版的著作除了Ooi(1998)的《計算機語料庫詞典學(xué)》之外,專門論述語料庫詞典學(xué)的著作在國內(nèi)外都不多見。但這些都不能否定將語料庫詞典學(xué)作為一門學(xué)科來研究的意義。語料庫與詞典學(xué)的結(jié)合,不僅使傳統(tǒng)詞典學(xué)在方法論上發(fā)生了革命性的變化,語料庫詞典學(xué)關(guān)于意義的思考,特別是詞義的形成和再現(xiàn)的研究拓展了詞典學(xué)的理論研究內(nèi)容。在信息化時代,語料庫詞典學(xué)具有跨學(xué)科的性質(zhì),它既是當(dāng)代詞典學(xué)最具前景的研究領(lǐng)域,也是計算語言學(xué)、自然語言處理等領(lǐng)域的重要研究內(nèi)容。隨著詞典學(xué)學(xué)科地位的日益鞏固,以及計算機語料庫技術(shù)的日臻成熟,語料庫詞典學(xué)必將受到廣泛重視。