本書分為三大部分:理論篇、工具篇與案例篇。
\"理論篇\"主要介紹語料庫、語料庫語言學的基本概念,語料庫建設的原則與方法,語料庫加工標注的基本內(nèi)容,以及本書語料統(tǒng)計所涉及的基本術語與方法。限于篇幅,并未對具體的加工標注方法(如詞性、句法、語義自動標注的各種算法等)展開闡述。
\"工具篇\"是本書重點,以語料庫建庫與統(tǒng)計一體化軟件\"漢語助研\(zhòng)"為例,詳細介紹了語言學研究中常見的數(shù)據(jù)統(tǒng)計功能。
\"漢語助研\(zhòng)"是作者自主開發(fā)的,面向語言研究者,特別是漢語和漢語教學研究者的一款軟件。軟件力圖幫助語言研究者較為輕松地建設語料庫,使用語言大數(shù)據(jù)進行語言研究。\"漢語助研\(zhòng)"是一個全面綜合了語料庫建設、檢索和統(tǒng)計功能的輔助漢語研究的軟件系統(tǒng),集成了基于語料庫方法的漢語字、詞、句、篇研究的各項輔助功能。該系統(tǒng)能很好地貼合漢語研究各方面的統(tǒng)計需求,在功能性、針對性、實用性等方面表現(xiàn)突出。
漢語助研系統(tǒng)基于真實問卷調(diào)查數(shù)據(jù)分析,符合漢語研究的各項需求,特別考慮了漢語研究者多為文科生這一特點,軟件架構、界面設計和編碼清晰簡潔,將復雜的統(tǒng)計、計算過程隱藏于后臺,前端一鍵式、步驟式操作,簡單易用。本系統(tǒng)不僅適用于漢語研究,很多功能也能夠有效輔助漢語教學,如字詞表對比、字詞表和大綱分布對比、例句檢索、搭配抽取、詞語聚類等。
\"漢語助研\(zhòng)"主要包括如下幾個功能模塊:
1. 語料庫建設
個性化的網(wǎng)頁信息自動抽取及建庫系統(tǒng)。
2. 語料庫例句檢索及分析
自建語料庫的各種檢索功能;常見語料庫例句檢索結果智能分析。
3. 用字用詞用語統(tǒng)計分析
語料庫用字用詞用語的全方位統(tǒng)計。
4. 字詞對比、分布分析
字詞表的共獨用、頻率差對比,字詞表在常見等級大綱中的分布。
5. 詞語搭配抽取及分析
在語料庫中自動進行所有詞語的前后搭配抽取與分析。
6. 語料庫風格計算
統(tǒng)計計算語料庫的語體風格等特征。
7. 詞語智能聚類
在語料庫中自動按類別進行詞語聚類。
8. 其他語言統(tǒng)計工具
為了方便使用者,本書對于主要功能模塊提供了具體的使用案例。
\"案例篇\"包括:
1. 國際漢語教學語料庫建設
2. 全球華語語料庫建設及功能研究
3. 東南亞小學華文教材課文用字研究
4. 東南亞小學華文教材課文用詞研究
5. 少兒漢語話題及話題詞表構建
6. 心理動詞\"了解\"詞語搭配研究
7. 高程度補語與述語的組合研究
\"漢語助研\(zhòng)"軟件下載地址為:http://www.languagetech.cn/corpus/tools.aspx
理論篇
1 語料庫語言學概述 / 2
1.1 語料庫語言學的學科基礎 / 2
1.1.1 語料庫語言學的產(chǎn)生原因 / 2
1.1.2 語料庫語言學的理論基礎 / 2
1.2 語料庫的定義、特點與分類 / 3
1.2.1 語料庫的定義 / 3
1.2.2 語料庫的特點 / 4
1.2.3 語料庫的分類 / 5
1.3 語料庫語言學的定義 / 6
1.3.1 前人論述 / 6
1.3.2 語料庫語言學定義 / 7
1.4 語料庫語言學的研究內(nèi)容與方法 / 8
1.4.1 語料庫語言學的研究內(nèi)容 / 8
1.4.2 語料庫語言學的研究方法 / 8
2 語料庫的建設 / 10
2.1 概述 / 10
2.1.1 語料庫建設的基本過程 / 10
2.1.2 語料庫建設面臨的問題 / 10
2.2 語料庫建設的原則和規(guī)范 / 11
2.2.1 語料庫總的建設原則 / 11
2.2.2 語料庫的不規(guī)范性 / 12
2.3 語料庫建設的平衡性與代表性 / 13
2.3.1 規(guī)模、語體、時間與空間 / 13
2.3.2 流通度 / 15
2.4 語料庫建設的元數(shù)據(jù)與信息字段 / 19
2.4.1 元數(shù)據(jù) / 19
2.4.2 信息字段 / 23
2.4.3 元數(shù)據(jù)、信息字段舉例 / 24
2.5 語料庫建設方法 / 27
2.5.1 總體設計 / 27
2.5.2 具體實施 / 27
3 語料庫的加工標注 / 31
3.1 中文自動分詞 / 32
3.1.1 詞與自動分詞 / 32
3.1.2 中文分詞的特點和難點 / 32
3.1.3 常見的中文分詞方法 / 34
3.2 中文詞性標注 / 35
3.2.1 詞性、詞類與詞性標注 / 35
3.2.2 詞性標注難點 / 35
3.2.3 常見詞性標注方法 / 36
3.3 自動句法分析 / 37
3.3.1 概述 / 37
3.3.2 句法分析分類 / 38
3.3.3 依存句法分析 / 39
3.4 語義分析 / 41
3.4.1 詞語級語義分析 / 41
3.4.2 句子級語義分析 / 43
3.4.3 篇章級語義分析 / 44
4 術語說明 / 46
4.1 頻次 頻率 文本數(shù) / 46
4.1.1 頻次 / 46
4.1.2 頻率 / 46
4.1.3 文本數(shù) / 46
4.2 累加頻率 覆蓋率 使用率 高頻詞語 / 47
4.2.1 累加頻率 / 47
4.2.2 覆蓋率 / 47
4.2.3 使用率 / 47
4.2.4 高頻詞語 / 48
4.3 頻序 頻序比 頻率差 / 48
4.3.1 頻序 / 48
4.3.2 頻序比 / 48
4.3.3 頻率差 / 49
4.4 字種 字種數(shù) 詞種 詞種數(shù) / 49
4.4.1 字種 / 49
4.4.2 字種數(shù) / 49
4.4.3 詞種 / 49
4.4.4 詞種數(shù) / 49
4.5 共用 獨用 / 50
4.5.1 共用 / 50
4.5.2 獨用 / 50
工具篇
5 網(wǎng)頁批量下載 / 52
5.1 具有數(shù)字序列規(guī)律的網(wǎng)頁下載 / 52
5.1.1 搜索網(wǎng)頁 / 52
5.1.2 批量生成網(wǎng)址 / 54
5.1.3 創(chuàng)建工程 / 55
5.1.4 運行工程 / 57
5.2 具有時間序列規(guī)律的網(wǎng)頁下載 / 58
5.3 無數(shù)字、無日期序列的規(guī)律網(wǎng)頁下載 / 59
5.4 無任何規(guī)律網(wǎng)頁的批量下載 / 60
6 網(wǎng)頁信息抽取建庫 / 65
6.1 網(wǎng)頁內(nèi)容解析原理 / 65
6.2 程序操作圖示 / 67
6.2.1 打開待處理html 文件夾 / 67
6.2.2 展示待處理html 文件的文本內(nèi)容 / 68
6.2.3 選擇抽取字段的起止標記 / 69
6.2.4 選擇抽取結果保存的文件夾和文件名 / 70
6.2.5 檢查所有網(wǎng)頁的抽取起止標記是否正確 / 71
6.3 語料庫結果展示 / 71
7 例句檢索 / 73
7.1 程序操作圖示 / 73
7.1.1 打開、保存文件夾 / 73
7.1.2 選擇檢索模式 / 73
7.1.3 單擊運行程序 / 74
7.2 檢索結果展示 / 74
8 例句分析 / 75
8.1 程序操作圖示 / 75
8.1.1 檢索語料例句 / 75
8.1.2 打開、保存文件夾 / 75
8.1.3 選擇例句集來源、輸入前后標記 / 76
8.1.4 單擊運行程序 / 76
8.2 統(tǒng)計結果展示 / 77
9 用字統(tǒng)計分析 / 78
9.1 程序操作圖示 / 78
9.1.1 打開語料庫文件夾 / 78
9.1.2 設置保存結果文件夾及名稱 / 79
9.1.3 運行統(tǒng)計功能 / 80
9.2 統(tǒng)計結果展示 / 81
9.2.1 總的漢字使用的摘要報告 / 81
9.2.2 漢字分類使用情況 / 81
9.2.3 標點符號和漢字部件的使用情況 / 82
9.2.4 漢字字表的覆蓋率情況 / 83
9.2.5 不同排序方式的字表 / 83
9.2.6 與其他字表對比的數(shù)據(jù) / 85
10 用詞用語統(tǒng)計分析 / 86
10.1 程序操作圖示 / 86
10.2 統(tǒng)計結果展示 / 86
10.2.1 基本詞語表 / 86
10.2.2 頻次與詞種數(shù) / 87
10.2.3 高頻詞語用字統(tǒng)計 / 87
10.2.4 高頻詞語詞長統(tǒng)計 / 88
10.2.5 覆蓋率與詞種數(shù)關系 / 88
10.2.6 詞性及其頻次的統(tǒng)計結果 / 89
10.2.7 詞性及其詞種數(shù)的統(tǒng)計結果 / 89
10.2.8 成語使用結果 / 89
10.2.9 與《漢語水平詞匯與漢字等級大綱》(詞匯大綱)對比 / 90
11 字詞表對比分析 / 91
11.1 程序操作圖示 / 91
11.1.1 選擇對比項目和參數(shù) / 91
11.1.2 打開、保存文件夾 / 91
11.1.3 單擊運行程序 / 92
11.2 統(tǒng)計結果展示 / 92
11.2.1 頻率差結果 / 92
11.2.2 頻序比結果 / 93
11.2.3 共獨用結果 / 94
12 字詞表分布分析 / 95
12.1 程序操作圖示 / 95
12.1.1 選擇分布計算的大綱和項目 / 95
12.1.2 打開、保存文件夾 / 96
12.1.3 單擊運行程序 / 96
12.2 統(tǒng)計結果展示 / 97
12.2.1 在《等級大綱》中的分布 / 97
12.2.2 在《新漢語水平考試大綱》中的分布 / 97
13 詞語搭配抽取及分析 / 98
13.1 搭配抽取 / 99
13.1.1 程序操作圖示 / 99
13.1.2 統(tǒng)計結果展示 / 99
13.2 搭配過濾 / 101
13.2.1 程序操作圖示 / 101
13.3 搭配分析 / 102
13.3.1 程序操作圖示 / 102
13.3.2 統(tǒng)計結果展示 / 102
14 詞語按主題聚類 / 104
14.1 程序操作圖示 / 104
14.1.1 打開、保存文件夾 / 104
14.1.2 選擇聚類的底表和詞語數(shù) / 105
14.1.3 單擊運行程序 / 105
14.2 統(tǒng)計結果展示 / 105
15 篇章風格統(tǒng)計分析 / 107
15.1 程序操作圖示 / 108
15.1.1 打開、保存文件夾 / 108
15.1.2 輸入特定字詞 / 108
15.1.3 單擊運行程序 / 108
15.2 統(tǒng)計結果展示 / 109
案例篇
16 國際漢語教學語料庫建設 / 112
16.1 漢語口語教學語料庫 / 112
16.1.1 話題庫建設 / 112
16.1.2 話題分類、難度分級的常用會話資源庫 / 113
16.2 商務漢語教材語料庫 / 114
16.2.1 商務漢語教材語料庫 / 114
16.2.2 商務漢語功能項目庫 / 114
16.2.3 商務漢語功能項目分類語料庫 / 115
16.3 中小學華文教材語料庫 / 116
16.4 少兒漢語教材語料庫 / 117
16.4.1 主題庫 / 117
16.4.2 教材語料庫 / 117
16.4.3 主題分類語料庫 / 118
16.5 旅游漢語教材語料庫 / 118
16.5.1 旅游漢語教材語料庫 / 118
16.5.2 旅游漢語話題分類語料庫 / 118
17 全球華語語料庫建設及功能研究 / 120
17.1 全球華語語料庫建設的必要性和意義 / 120
17.2 全球華語語料庫建設 / 122
17.2.1 語料庫建設的基本原則 / 122
17.2.2 語料來源與獲取方法 / 124
17.2.3 語料庫構成及比例 / 125
17.2.4 語料庫信息字段及存儲格式 / 126
17.3 全球華語語料庫深加工 / 127
17.3.1 選取核心庫 / 127
17.3.2 分詞標注詞性、人工校對 / 128
17.3.3 基本字詞信息統(tǒng)計 / 128
17.3.4 音視頻資源標注處理 / 128
17.3.5 華裔學習者作文和口語語料庫偏誤標注 / 129
17.4 全球華語語料庫網(wǎng)絡服務平臺介紹 / 129
17.4.1 子語料庫定制系統(tǒng) / 129
17.4.2 網(wǎng)絡版字詞檢索系統(tǒng) / 129
17.4.3 網(wǎng)絡版全文例句檢索系統(tǒng) / 129
17.4.4 音視頻資源點播系統(tǒng) / 130
17.5 結語 / 130
18 東南亞小學華文教材課文用字研究 / 132
18.1 語料和調(diào)查對象說明 / 132
18.2 各教材課文用字基本情況 / 133
18.2.1 字次與字種數(shù) / 134
18.2.2 各教材前100 字共用獨用情況 / 134
18.2.3 各教材課文用字在《等級大綱》(漢字大綱)中的分布情況 / 136
18.2.4 新加坡兩套教材課文用字對比 / 138
18.2.5 越南、泰國、印尼五套教材課文用字對比 / 139
18.3 各教材課文用字分年級情況 / 140
18.3.1 各教材分年級字次和字種數(shù)基本情況 / 140
18.3.2 分年級課文用字的《等級大綱》(漢字大綱)分布情況 / 142
18.3.3 課文用字字種數(shù)按年級增量情況 / 144
18.4 東南亞小學華文教材和中國小學語文教材課文用字對比 / 145
18.4.1 基本情況 / 146
18.4.2 分段的共用獨用調(diào)查 / 147
18.4.3 基于頻序比的漢字使用對比分析 / 149
19 東南亞小學華文教材課文用詞研究 / 151
19.1 馬來西亞《華文》教材課文用詞調(diào)查 / 151
19.1.1 基本情況 / 151
19.1.2 頻次與詞種數(shù)的關系 / 151
19.1.3 詞語的覆蓋率 / 152
19.1.4 高頻詞的詞長分布 / 154
19.1.5 成語調(diào)查 / 155
19.1.6 課文用詞與《等級劃分》(詞匯大綱)的比較 / 159
19.1.7 課文用詞按年級統(tǒng)計情況 / 160
19.2 馬來西亞《華文》教材課文用詞與新課標小學《語文》對比 / 161
19.2.1 基本情況 / 161
19.2.2 頻次與詞種數(shù)的關系對比 / 162
19.2.3 詞語的覆蓋率對比 / 163
19.2.4 高頻詞的詞長分布 / 166
19.2.5 成語的對比分析 / 167
19.2.6 按年級對比馬-《華文》與人教新課標《語文》課文用詞情況 / 168
19.2.7 高頻詞的頻序比 / 170
19.3 東南亞不同層次小學華文教材對比 / 171
19.3.1 各層級教材課文用詞基本情況對比 / 172
19.3.2 各層級教材課文用詞按年級統(tǒng)計情況 / 178
19.3.3 各層級教材課文用詞與《等級劃分》(詞匯大綱)的比較 / 187
19.4 結語 / 191
20 少兒漢語話題及話題詞表構建 / 194
20.1 術語及語料庫介紹 / 195
20.1.1 話題詞表、話題種子詞 / 195
20.1.2 詞語聚類 / 195
20.1.3 話題詞語、話題通用詞、話題專類詞 / 196
20.1.4 相關語料 / 196
20.2 少兒漢語話題與話題庫的構建 / 199
20.3 少兒漢語話題詞表的構建標準與方法 / 203
20.3.1 少兒漢語話題詞表的構建理論 / 203
20.3.2 少兒漢語話題詞表的選詞標準 / 205
20.3.3 少兒漢語話題詞表的分類 / 205
20.3.4 話題詞表的構建方法 / 207