自然語言結(jié)構(gòu)計(jì)算——BCC語料庫
隨著計(jì)算機(jī)技術(shù)的發(fā)展,語料庫在語言本體與教學(xué)研究中發(fā)揮著越來越重要的作用,同時(shí)在大數(shù)據(jù)的背景下,最新的信息技術(shù)大大助力了語料庫的建設(shè)和應(yīng)用。漢語語料庫的建設(shè),近些年國內(nèi)外都有較大的發(fā)展,BCC 漢語語料庫是其中使用比較多的之一,對(duì)漢語本體研究和與語言教學(xué)也發(fā)揮了重要作用。本書對(duì)BCC 漢語語料庫的特點(diǎn)、建設(shè)過程、檢索功能、查詢語言、編程語言以及對(duì)如何使用自定義BCC 語料庫進(jìn)行介紹,以期更好地讓人理解,為語言本體與教學(xué)研究服務(wù)。
本書適合計(jì)算語言學(xué)與語言學(xué)本體研究的學(xué)者當(dāng)作教材,也可作為高等院校人工智能相關(guān)的專業(yè)師生的教輔參考書。同時(shí),也適合對(duì)語料庫建設(shè)與使用感興趣的相關(guān)人員閱讀。
一、整體亮點(diǎn)
1.稀缺性
圖書市場(chǎng)中關(guān)于語料庫建設(shè)與應(yīng)用的書籍比較稀缺,可以充分利用稀缺性的特點(diǎn)切入市場(chǎng)。
2.專業(yè)性
本書作者為北京語言大學(xué)信息科學(xué)學(xué)院院長,對(duì)該領(lǐng)域了解深厚,從業(yè)研究經(jīng)驗(yàn)豐富。
3.實(shí)用性
本書從需求分析出發(fā),介紹BCC語料庫的構(gòu)建過程與使用方法,匯集了語料庫應(yīng)用在語言學(xué)各個(gè)場(chǎng)景的實(shí)際例子,使讀者較為容易地舉一反三,實(shí)現(xiàn)不同的檢索需求,具有較高的參考價(jià)值。
4.原創(chuàng)性
本書是作者在實(shí)踐工作中的思考與總結(jié)的結(jié)晶。
二、內(nèi)容特色
1.知識(shí)性
本書涉及語料庫建設(shè)的技術(shù),涵蓋了語料庫的建設(shè)過程中的多項(xiàng)新技術(shù)。
2.系統(tǒng)性
本書涵蓋了語料庫的構(gòu)建與應(yīng)用兩個(gè)方面,系統(tǒng)介紹語料庫構(gòu)建與使用的各環(huán)節(jié)。
3.廣泛性
本書從如何構(gòu)建與使用BCC語料庫入手,涉及了語料庫的建設(shè)與使用方法的目前認(rèn)知的全部領(lǐng)域。
荀恩東
北京語言大學(xué)信息科學(xué)學(xué)院院長,教授,博士生導(dǎo)師。漢語國際教育技術(shù)研發(fā)中心主任 ,教育部新世紀(jì)優(yōu)秀人才,中國計(jì)算機(jī)學(xué)會(huì)名詞專委會(huì)副主任,中國標(biāo)準(zhǔn)化研究院特聘研究員。1999畢業(yè)于哈爾濱工業(yè)大學(xué)計(jì)算機(jī)應(yīng)用與科學(xué)系,獲得計(jì)算機(jī)應(yīng)用專業(yè)博士學(xué)位。1999年~2001年微軟亞洲研究院副研究員。2001年~2003年通過"香港引入優(yōu)秀人才計(jì)劃",在香港科技大學(xué)工作。發(fā)表研究論文數(shù)十篇,主持多項(xiàng)國家863計(jì)劃和國家自然科學(xué)基金項(xiàng)目,承擔(dān)多項(xiàng)部委和公司合作的項(xiàng)目。目前研究領(lǐng)域包括:自然語言處理、計(jì)算機(jī)輔助語言學(xué)習(xí)技術(shù)研究和開發(fā)工作;非母語作文計(jì)算機(jī)水平自動(dòng)評(píng)判;基于互聯(lián)網(wǎng)多元信息作文輔助寫作;漢字字形結(jié)構(gòu)評(píng)判與輔助漢字書寫練習(xí)研究;機(jī)器翻譯。
目錄
第 一章 緒論 4
1.1 語料庫簡(jiǎn)介 4
1.1.1 基本特征 4
1.1.2 發(fā)展歷程 6
1.2 語料庫類型 7
1.2.1 按語料模態(tài)分類 7
1.2.2 按語料語體分類 8
1.2.3 按語料狀態(tài)分類 8
1.2.4 按語料時(shí)間分類 8
1.2.5 按語料加工程度分類 9
1.2.6 按語料組織形式分類 9
1.2.7 按語料庫用途分類 10
1.3 語料庫技術(shù) 10
1.4 語料庫應(yīng)用 12
1.4.1 服務(wù)對(duì)象 12
1.4.2 應(yīng)用方式 14
1.5 BCC語料庫 15
1.6 本書章節(jié)介紹 16
第二章 BCC語料庫的建設(shè) 18
2.1 概述 18
2.2 BCC語料庫數(shù)據(jù) 21
2.2.1 數(shù)據(jù)概況 21
2.2.2 數(shù)據(jù)加工 22
2.3 BCC語料庫系統(tǒng) 34
2.3.1 構(gòu)建索引 35
2.3.2 檢索語言 36
2.4 BCC語料庫服務(wù) 39
2.4.1 服務(wù)對(duì)象 39
2.4.2 服務(wù)方式 40
2.4.3 使用方式 43
第三章 BCC語料庫交互式查詢語言 46
3.1 概述 46
3.2 交互式查詢語言設(shè)計(jì) 46
3.2.1 序列語料的檢索式組成 47
3.2.2 結(jié)構(gòu)語料的檢索式組成 49
3.3 交互式查詢語言功能 51
3.3.1 基本檢索 51
3.3.2 高級(jí)檢索 59
第四章 BCC語料庫交互式查詢語言應(yīng)用 65
4.1 語素檢索 65
4.2 詞語檢索 67
4.2.1 基礎(chǔ)檢索 67
4.2.2 合成詞 71
4.2.3 離合詞 78
4.3 短語檢索 81
4.4 構(gòu)式檢索 85
4.4.1 無變項(xiàng)構(gòu)式的檢索 85
4.4.2 有變項(xiàng)構(gòu)式的檢索 86
4.5 句子檢索 90
4.5.1 單句檢索 90
4.5.2 復(fù)句檢索 94
第五章 BCC語料庫腳本式編程語言 96
5.1 概述 96
5.2 檢索原理 96
5.2.1 檢索框架 97
5.2.2 檢索單元 100
5.3 BCC腳本式編程語言設(shè)計(jì) 110
5.3.1 基本查詢 112
5.3.2 組合查詢 115
5.3.3 條件約束 122
5.3.4 功能操作 131
5.3.5 輸出操作 137
5.4 BCC腳本式編程語言功能 141
5.4.1 基本檢索 142
5.4.2 組合檢索 146
5.4.3 高級(jí)檢索 151
第六章 BCC語料庫腳本式編程語言應(yīng)用 157
6.1 概述 157
6.2 定中結(jié)構(gòu)的抽取 157
6.2.1 限定詞性序列的檢索 157
6.2.2 限定結(jié)構(gòu)標(biāo)記的檢索 161
6.2.3 限定詞語范圍的檢索 163
6.2.4 限定語料特征的檢索 164
6.2.5 限定檢索基點(diǎn)的檢索 167
6.3 小結(jié) 168
第七章 個(gè)性化語料庫的構(gòu)建 170
7.1 數(shù)據(jù)準(zhǔn)備 170
7.1.1 數(shù)據(jù)信息 170
7.1.2 數(shù)據(jù)預(yù)處理 171
7.2 索引構(gòu)建 182
7.2.1 硬件基礎(chǔ) 182
7.2.2 預(yù)備文件 185
7.2.3 構(gòu)建索引 189
7.3 語料庫使用 196
7.3.1 啟動(dòng)服務(wù) 196
7.3.2 網(wǎng)絡(luò)使用 196
7.3.3 離線使用 204
第八章 BCC語料庫在線網(wǎng)站 208
8.1 概述 208
8.2 基礎(chǔ)檢索 208
8.2.1 檢索步驟 208
8.2.2 結(jié)果處理 210
8.3 歷時(shí)檢索 213
8.3.1 單檢索式 213
8.3.2 雙檢索式 214
8.4 對(duì)比檢索 215
8.4.1 單檢索式 215
8.4.2 雙檢索式 216
8.5 自選范圍檢索 217
8.6 詞典 218
8.6.1 簡(jiǎn)介 218
8.6.2 查詢方式 221
8.6.3 查詢結(jié)果 223
參考文獻(xiàn) 228