基于Python的語(yǔ)料庫(kù)數(shù)據(jù)處理
本書(shū)以語(yǔ)料庫(kù)語(yǔ)言學(xué)研究實(shí)踐為導(dǎo)向,介紹Python編程基礎(chǔ)知識(shí)。第1章為Python語(yǔ)言簡(jiǎn)介,第2章至第6章由易到難、循序漸進(jìn)介紹Python語(yǔ)言的基本數(shù)據(jù)類型和語(yǔ)法。第7章和第8章提供文本處理的個(gè)案實(shí)例。全書(shū)內(nèi)容涵蓋語(yǔ)料庫(kù)語(yǔ)言學(xué)研究中常用的文本處理模式,讀者可以通過(guò)學(xué)習(xí)本書(shū)掌握語(yǔ)料庫(kù)語(yǔ)言學(xué)研究中的Python編程技巧,以便更深入地進(jìn)行研究。另外,本書(shū)提供大量語(yǔ)料庫(kù)語(yǔ)言學(xué)文本處理所需的Python代碼,讀者可以直接將這些代碼(或?qū)⑦@些代碼稍加改動(dòng))用于自己的研究中。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
文科生的編程自白
第1章 引言 1
1.1 Python語(yǔ)言與語(yǔ)料庫(kù)數(shù)據(jù)處理 1
1.2 安裝Python 3
1.3 Python代碼的編寫(xiě)和運(yùn)行 5
1.4 PyCharm的安裝和使用 6
1.5 “Hello world!” 8
1.6 本書(shū)結(jié)構(gòu) 10
第2章 數(shù)值和字符串 13
2.1 數(shù)值 13
2.2 常用數(shù)值運(yùn)算符 14
2.3 常用數(shù)值函數(shù) 16
2.4 數(shù)值計(jì)算示例 20
2.5 數(shù)值計(jì)算練習(xí) 24
2.6 字符串 25
2.7 字符串運(yùn)算 28
2.8 字符串與數(shù)值的互換 29
2.9 常用字符串函數(shù) 29
2.10 練習(xí) 32
第3章 條件與循環(huán) 33
3.1 條件判斷 33
3.2 while循環(huán) 39
3.3 for in循環(huán) 39
3.4 讀寫(xiě)單個(gè)文本 41
3.5 練習(xí) 44
第4章 列表和元組 46
4.1 列表 46
4.2 列表與字符串的相互轉(zhuǎn)換 47
4.3 常用列表函數(shù) 49
4.4 列表相關(guān)文本處理實(shí)例 56
4.5 元組 59
4.6 練習(xí) 60
第5章 正則表達(dá)式 62
5.1 正則表達(dá)式的概念 62
5.2 普通字符 64
5.3 元字符 64
5.4 匹配零個(gè)或多個(gè)字符 66
5.5 分組 72
5.6 元字符的轉(zhuǎn)義 74
5.7 換行符、回車符、制表符 77
5.8 正則表達(dá)式相關(guān)實(shí)例 77
5.9 練習(xí) 89
第6章 字典 90
6.1 字典的概念 90
6.2 常用字典函數(shù) 92
6.3 字典排序 95
6.4 字典相關(guān)實(shí)例 97
6.5 練習(xí) 102
第7章 語(yǔ)料庫(kù)數(shù)據(jù)處理個(gè)案實(shí)例 103
7.1 分句和分詞 103
7.2 詞性賦碼 107
7.3 詞形還原 111
7.4 抽取詞塊 112
7.5 計(jì)算搭配強(qiáng)度 114
7.6 刪除詞表中的停用詞 119
7.7 語(yǔ)料檢索的KWIC實(shí)現(xiàn) 120
7.8 句子檢索相關(guān)個(gè)案 122
7.9 實(shí)現(xiàn)Range軟件功能 123
7.10 讀取多個(gè)文本文件 133
7.11 多個(gè)文本文件批量改名 137
7.12 使用Stanford CoreNLP進(jìn)行文本處理 139
第8章 語(yǔ)料庫(kù)Unicode數(shù)據(jù)處理個(gè)案實(shí)例 153
8.1 中文分詞 153
8.2 中文詞性賦碼 157
8.3 檢索中文文本 160
8.4 英漢雙語(yǔ)語(yǔ)料文本的合并與分割 162
附錄A Python及命令行文本處理相關(guān)參考書(shū)籍 167
附錄B 賓夕法尼亞大學(xué)樹(shù)庫(kù)詞性賦碼集 168