第1章 緒論
1.1 語(yǔ)料庫(kù)與Python
1.1.1 語(yǔ)料庫(kù)的若干維度
1.1.2 語(yǔ)料庫(kù)的技術(shù)實(shí)現(xiàn)
1.2 本書(shū)概要
上篇 語(yǔ)料文本的基礎(chǔ)性代碼
第2章 語(yǔ)料文本的讀取及其運(yùn)行結(jié)果的輸出
2.1 概述
2.2 語(yǔ)料文本的讀取
2.2.1 讀取NLTK固有語(yǔ)料庫(kù)
2.2.2 讀取自制語(yǔ)料庫(kù)
2.2.3 讀取非獨(dú)立存儲(chǔ)的語(yǔ)料文本
2.2.4 讀取docx格式的語(yǔ)料文本
2.2.5 讀取xlsx格式的語(yǔ)料文本
2.3 語(yǔ)料文本運(yùn)行結(jié)果的輸出
2.3.1 操作界面直接輸出結(jié)果
2.3.2 輸出txt文件格式
2.3.3 輸出xlsx文件格式
2.4 中文語(yǔ)料文本的讀取和結(jié)果輸出
2.4.1 自制語(yǔ)料庫(kù)
2.4.2 非獨(dú)立存儲(chǔ)的語(yǔ)料文本
第3章 語(yǔ)料庫(kù)應(yīng)用的基礎(chǔ)性代碼
3.1 概述
3.2 停用詞的使用
3.2.1 不同語(yǔ)種的停用詞
3.2.2 自有停用詞的設(shè)置
3.3 文本降噪代碼
3.3.1 具體代碼的功用
3.3.2 組合使用代碼的功用
3.3.3 降噪與文本計(jì)數(shù)
3.4 語(yǔ)料文本的語(yǔ)言學(xué)處理代碼
3.4.1 字母大小寫(xiě)轉(zhuǎn)換
3.4.2 詞形還原
3.4.3 文本分句或分詞
3.4.4 詞性標(biāo)注
3.5 語(yǔ)料庫(kù)詞頻排序
3.5.1 簡(jiǎn)單詞頻排序
3.5.2 降噪處理后詞頻排序
3.5.3 清除停用詞后排序
3.6 語(yǔ)料庫(kù)檢索與統(tǒng)計(jì)
3.6.1 上下文關(guān)鍵詞檢索
3.6.2 類符形符比
3.6.3 N連詞提取
3.6.4 指定詞檢索與統(tǒng)計(jì)
3.7 中文語(yǔ)料文本的處理方法
3.7.1 上下文關(guān)鍵詞檢索
3.7.2 中文停用詞
第4章 數(shù)據(jù)可視化
4.1 概述
4.2 表格繪制
4.3 圖形繪制
4.3.1 詞頻圖形繪制
4.3.2 柱狀圖和點(diǎn)狀圖繪制
4.4 詞云圖繪制
4.4.1 英文文本詞云圖
4.4.2 中文文本詞云圖
第5章 代碼運(yùn)行錯(cuò)誤分析
5.1 概述
5.2 錯(cuò)誤分析案例
5.2.1 輸入輸出錯(cuò)誤(IOError)
5.2.2 對(duì)象屬性錯(cuò)誤(AttributeError)
5.2.3 數(shù)據(jù)類型錯(cuò)誤(TypeError)
5.2.4 變量名稱錯(cuò)誤(NameError)
5.2.5 索引錯(cuò)誤(IndexError)
5.2.6 縮進(jìn)錯(cuò)誤(IndentationError)
5.2.7 參數(shù)類型錯(cuò)誤(ValueError)
5.2.8 語(yǔ)法錯(cuò)誤(SyntaxError)
5.2.9 Unicode解碼錯(cuò)誤(UnicodeDecodeError)
5.2.10 關(guān)鍵字錯(cuò)誤(KeyError)
中篇 基礎(chǔ)性代碼的組合使用
第6章 算法、代碼與編程
6.1 篇章結(jié)構(gòu)
6.2 算法和代碼
6.2.1 算法
6.2.2 代碼
6.3 選擇不同代碼的影響
6.3.1 分詞處理方式對(duì)后續(xù)文本分析的影響
6.3.2 不同的降噪效果
6.3.3 鏈表、字符串、元組和字典對(duì)比
6.3.4 停用詞的功用
6.4 Python與既有語(yǔ)料庫(kù)工具的關(guān)系
第7章 基礎(chǔ)性代碼的語(yǔ)料庫(kù)組合應(yīng)用
7.1 以Excel文件格式輸出術(shù)語(yǔ)(類符)
7.1.1 簡(jiǎn)單輸出術(shù)語(yǔ)
7.1.2 按詞頻輸出術(shù)語(yǔ)
7.2 以Excel文件格式輸出表格
7.3 語(yǔ)篇詞匯密度的計(jì)算
7.4 語(yǔ)篇詞匯復(fù)雜性的計(jì)算
7.5 語(yǔ)篇詞長(zhǎng)分布的計(jì)算
7.6 NLTK固有語(yǔ)料庫(kù)
7.6.1 總統(tǒng)就職演說(shuō)語(yǔ)料庫(kù)
7.6.2 華爾街雜志語(yǔ)料庫(kù)
7.6.3 其他相關(guān)語(yǔ)料庫(kù)介紹
下篇 Python探索路徑
第8章 Python的語(yǔ)料庫(kù)拓展應(yīng)用
8.1 概述
8.2 單語(yǔ)語(yǔ)料導(dǎo)入Excel工作簿
8.3 KWIC檢索功能的拓展
8.4 語(yǔ)篇詞形還原
8.5 術(shù)語(yǔ)提取效果的改進(jìn)
8.6 語(yǔ)篇段落對(duì)齊
8.7 應(yīng)用語(yǔ)言學(xué)文獻(xiàn)計(jì)量研究的數(shù)據(jù)提取
8.8 專業(yè)通用詞的提取路徑探索
附錄1 與本書(shū)相關(guān)的加載模塊與函數(shù)命令對(duì)應(yīng)表
附錄2 Python2 和Python3部分代碼對(duì)比
附錄3 部分NLTK固有語(yǔ)料庫(kù)
附錄4 漢英對(duì)照術(shù)語(yǔ)表
索引