本詞表是在理解我國檔案管理行業(yè)現(xiàn)狀及需求的基礎上建設的。本詞表建立了檔案館藏資源知識化加工及標引并基于人工智能開發(fā)檔案利用服務系統(tǒng),推動形成機器可理解檔案數(shù)據(jù)資源滿足人民群眾的檔案服務需求,達到以為民、便民、惠民為檔案數(shù)據(jù)利用服務的目標。
基于以上需求,編寫組兼顧計算機和人工標引需求,在利用已有詞表的基礎之上,采用計算機與人工協(xié)同的方法,編制了《政務文書檔案專業(yè)詞表》,就本詞表編制及使用,說明如下。
一、收詞規(guī)則和范圍
本詞表的構建參考和吸收了《中國檔案主題詞表》《綜合電子政務主題詞表》《公文主題詞表》,這些經(jīng)典詞表是檔案標引、管理和應用服務的基礎,凝聚了大量檔案專家和詞
政務文書檔案專業(yè)詞表
表專家的智慧,也是本詞表構建的基礎。這些詞表包含了大量的基礎主題詞,如《中國檔案主題詞表》第二版共收錄25 891條主題詞,其中21 785條正式主題詞,4106條非正式主題詞;《綜合電子政務主題詞表》共收錄主題詞20 252條,其中正式主題詞17 421條,非正式主題詞2831條;中共中央辦公廳秘書局編制的《公文主題詞表》共收錄主題詞5116條,其中主表收詞4622條,附表收詞494條;《國務院公文主題詞表》共有15類1049個主題詞,分為主表和附表兩大部分,主表有13類751個主題詞,附表有2類298個主題詞。
但是受限于編表當時的技術條件及黨政機關政務文書檔案的數(shù)字化程度,這些詞表在文獻保證原則的落實上存在一定的不足,即部分詞條在實際標引工作中用不到,又有一些在標引工作中有用的詞條在詞表中沒有收錄。在本詞表編制中,文獻保證主要依據(jù)山東省檔案館收藏的黨政機關政務文書檔案館藏資源進行分析統(tǒng)計篩選。
此外,中國共產(chǎn)黨全國代表大會報告和歷次全國人民代表大會上的政府工作報告能夠相對□□體現(xiàn)中央精神,對于各級黨政機關的政務文書具有一定的引導性。因此,對這部分語料單獨加工處理。中國共產(chǎn)黨自 1921年建黨以來已經(jīng)舉行過 19次全國代表大會,但是前 7次全國代表大會都在中華人民共和國成立前,中華人民共和國成立后前期周期不固定,后期才逐步穩(wěn)定下來,從 1956年至今共舉行了 12次全國代表大會,因此集中選取中華人民共和國成立后的中國共產(chǎn)黨第八次到第十九次全國代表大會報告正文,由于大會間隔時間相對較長,因此將改革開放以來部分全會上的體現(xiàn)黨和政府工作方針的重要決定、決議也收錄進來。中央政府工作報告既有對過去工作的總結,也有對未來工作的規(guī)劃,能夠較大程度上覆蓋公文檔案內(nèi)容,采集中央政府網(wǎng)站上公開的 1954—2019年歷年中央政府工作報告共 51份。將這些共同作為語料庫,利用新詞發(fā)現(xiàn)工具對語料進行分析篩選和人工審定,尤其注重近年來常用的黨政機關政務文書檔案詞語。
本詞表收錄主題詞及其相關詞兼顧自動標引的處理便利性,不選用注釋性內(nèi)容,便于計算機在原文中發(fā)現(xiàn)相關詞條,如將“輸出(貿(mào)易)”修改為“輸出”,盡管從單個詞條方面可能產(chǎn)生歧義,但是可以通過多個標引詞相互參照來排除歧義。此外,存在一些詞語的規(guī)范表達不斷發(fā)展變化的情況,如“毛難族”目前用“毛南族”,但是考慮到檔案的時間跨度較大,目前不用的詞條也盡可能收錄在本詞表中。
二、用詞關系設置及調(diào)整
本詞表的關系主要有兩個來源:一是從已有詞表借鑒,二是通過關系推薦工具。從已有詞表借鑒的關系做了簡化調(diào)整,只記錄詞條之間的相關性,不具體區(qū)分其用、代、屬、分、參等具體關系類型。關系推薦是自動發(fā)現(xiàn)潛在的詞間關系,并根據(jù)一定的規(guī)則加以推薦的技術。具體而言,針對山東省檔案館語料庫和詞表,計算給定的詞條(主要是通過新詞發(fā)現(xiàn)給出的無關系的詞條)與已有詞表中的詞條可能存在的關系。關系推薦有兩條技術路徑:□□條路徑是基于半結構化信息的處理,在語料資源中存在一些半結構化數(shù)據(jù),如標引了字段名稱結構,可以將后續(xù)內(nèi)容歸結為這一字段的分項關系詞,在關鍵詞或者主題
說 明
詞字段共現(xiàn)的詞條作為相關關系推薦;第二條路徑是根據(jù)語料共現(xiàn)信息,將某一分詞后的語料,先選定一個目標詞,然后根據(jù)分詞結果按照一定的窗口前后定位,根據(jù)相距位置的遠近分別賦予不同的相關性權值,然后將不同文檔中的相關詞的權值累加起來。兩條路徑□后都需要根據(jù)統(tǒng)計結果分別排序,并將兩種方法的結果進行加權計算,形成□終的關系推薦結果。
關系處理時,對于一些可以通過詞形包含直接發(fā)現(xiàn)的關系詞(實際上主要是屬分關系和部分用代關系)不加收錄,如“愛國運動”的相關詞包括“運動”一詞,但是無論計算機自動標引還是人工標引,都可以通過詞形直接發(fā)現(xiàn)其相關詞“運動”,因而不必單獨收錄。因此,本詞表中的詞間關系也并不全是對稱結構,如“運動”一詞的相關詞中就包含“愛國運動”,因為這樣的語義細分的詞條是無法從詞形上推斷出來的,相關詞的收錄對于細化標引工作具有一定的參考價值。
三、取詞舉例
本詞表共收錄主題詞 10 482條,共有相關關系 28 094條,本詞表是非對稱的結構,每個詞條僅列舉其無法通過詞形推斷出來的相關詞。樣例如下所示。
2.“八個明確”:執(zhí)政理念
其中,“2”是序號,通過“.”與正式的內(nèi)容分隔開,正式內(nèi)容中主題詞與相關詞通過冒號分隔,冒號前的“八個明確”為主題詞,冒號后的“執(zhí)政理念”為相關詞,針對特定主題詞可以查找其相關詞。
如果有 2條以上的相關詞以“;”分隔,樣例如下所示。
83.奧運會:奧林匹克運動會;冬季奧運會;特奧會;運動會
冒號前的“奧運會”為主題詞,冒號后的“奧林匹克運動會”“冬季奧運會”“特奧會”“運動會”為相關詞。如果擬采用“奧運會”標引,可以參考這些相關詞進行標引,如考慮采用全稱或者具體細化、更通用的名稱。
本詞表按音序排列,將一些特殊的以標點符號、字母等開頭的主題詞置于詞表前部,這樣排序可以方便在人工標引時查詢使用。
四、使用方法
本詞表可以單獨使用,在確定某一候選主題詞后,在本詞表查詢其相關詞,確定其相關詞是否更適合標引使用。人工標引人員可以利用本詞表調(diào)整選用合適的主題詞;自動標引工具也可以根據(jù)相關詞作主題詞的擴展和篩選。
本詞表可以配合已經(jīng)長期使用的其他主題詞表聯(lián)合應用,一方面可以補充和豐富這些詞表;另一方面可以提供近年來黨政機關的政務公文中常見主題的主題詞及其相關詞。
本詞表的編制是一種探索與嘗試,由于水平所限,經(jīng)驗不足,其中還存在一些錯誤和不足,敬請讀者和應用者批評指正,以使詞表通過不斷修訂更加臻于完善。