定 價(jià):256 元
叢書名:互聯(lián)網(wǎng)背景下金融創(chuàng)新與風(fēng)險(xiǎn)管理若干基礎(chǔ)理論與方法系列專著
- 作者:(英) 亞歷山大·德涅夫等著
- 出版時(shí)間:2023/7/1
- ISBN:9787030738646
- 出 版 社:科學(xué)出版社
- 中圖法分類:F830.41
- 頁(yè)碼:380
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書基于金融領(lǐng)域的另類數(shù)據(jù), 提供了機(jī)器學(xué)習(xí)方法和數(shù)據(jù)源的實(shí)用概述。首次對(duì)另類數(shù)據(jù)進(jìn)行了全面闡述, 為另類數(shù)據(jù)價(jià)值研究能夠系統(tǒng)地呈現(xiàn)在讀者面前提供了完美體驗(yàn)。全書分為另類數(shù)據(jù)基礎(chǔ)與理論、另類數(shù)據(jù)的實(shí)際應(yīng)用兩個(gè)部分。作者多方闡述了另類數(shù)據(jù)的發(fā)展與挑戰(zhàn), 提供了大量有價(jià)值的案例研究和實(shí)際例子。為讀者提供利用另類數(shù)據(jù)獲益的理論與方法, 同時(shí)也是讀者避開另類數(shù)據(jù)中復(fù)雜的理論與技術(shù)陷阱的指南。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
第一部分 簡(jiǎn)介與理論
第1章 另類數(shù)據(jù):現(xiàn)狀 3
1.1 引言 3
1.2 什么是“另類數(shù)據(jù)”? 5
1.3 另類數(shù)據(jù)的分類 6
1.4 另類數(shù)據(jù)的特征 8
1.5 為什么選擇另類數(shù)據(jù)? 10
1.6 誰(shuí)在用另類數(shù)據(jù)? 13
1.7 策略容量與另類數(shù)據(jù) 15
1.8 另類數(shù)據(jù)的維度 17
1.9 誰(shuí)是另類數(shù)據(jù)的供應(yīng)商? 21
1.10 買方對(duì)另類數(shù)據(jù)集的使用 23
1.11 小結(jié) 24
第2章 另類數(shù)據(jù)的價(jià)值 25
2.1 引言 25
2.2 投資價(jià)值的衰減 25
2.3 數(shù)據(jù)市場(chǎng) 27
2.4 數(shù)據(jù)的貨幣價(jià)值(第一部分) 29
2.5 評(píng)估(另類)數(shù)據(jù)策略,包括或不包括回溯測(cè)試 33
2.6 數(shù)據(jù)的貨幣價(jià)值(第二部分) 36
2.7 成熟另類數(shù)據(jù)集的優(yōu)勢(shì) 42
2.8 小結(jié) 43
第3章 另類數(shù)據(jù)的風(fēng)險(xiǎn)與挑戰(zhàn) 44
3.1 數(shù)據(jù)中的法律問(wèn)題 44
3.2 使用另類數(shù)據(jù)的風(fēng)險(xiǎn) 46
3.3 使用另類數(shù)據(jù)的挑戰(zhàn) 47
3.4 匯總數(shù)據(jù) 53
3.5 小結(jié) 54
第4章 機(jī)器學(xué)習(xí)技術(shù) 55
4.1 引言 55
4.2 機(jī)器學(xué)習(xí):定義和技術(shù) 55
4.3 選擇哪種技術(shù)? 77
4.4 機(jī)器學(xué)習(xí)技術(shù)的假設(shè)和局限性 79
4.5 結(jié)構(gòu)化圖像 83
4.6 自然語(yǔ)言處理 87
4.7 小結(jié) 97
第5章 另類數(shù)據(jù)的使用過(guò)程 99
5.1 引言 99
5.2 進(jìn)行另類數(shù)據(jù)之旅的步驟 100
5.3 組建使用另類數(shù)據(jù)的團(tuán)隊(duì) 108
5.4 數(shù)據(jù)供應(yīng)商 110
5.5 小結(jié) 112
第6章 因子投資 113
6.1 引言 113
6.2 因子模型 114
6.3 橫截面和時(shí)間序列交易方法之間的區(qū)別 120
6.4 為什么要進(jìn)行因子投資? 120
6.5 使用另類數(shù)據(jù)輸入的智能Beta指標(biāo) 121
6.6 ESG因子 122
6.7 直接和間接預(yù)測(cè) 123
6.8 小結(jié) 125
第二部分 實(shí) 際 應(yīng) 用
第7章 缺失數(shù)據(jù):背景 129
7.1 介紹 129
7.2 缺失數(shù)據(jù)的分類 130
7.3 缺失數(shù)據(jù)處理的文獻(xiàn)綜述 132
7.4 小結(jié) 143
第8章 缺失數(shù)據(jù):案例研究 144
8.1 引言 144
8.2 案例研究:在多個(gè)CDS時(shí)間序列中插補(bǔ)缺失值 145
8.3 案例研究:衛(wèi)星圖像 166
8.4 小結(jié) 170
8.5 附錄:MICE程序概述 171
8.6 附錄:本章使用的軟件庫(kù) 172
第9章 離群值(異常值) 174
9.1 簡(jiǎn)介 174
9.2 異常值定義、分類和檢測(cè)方法 174
9.3 時(shí)間結(jié)構(gòu) 176
9.4 全局與局部離群值、點(diǎn)異常和微簇 176
9.5 異常值檢測(cè)問(wèn)題的設(shè)置 177
9.6 異常值檢測(cè)算法的比較評(píng)估 177
9.7 異常值解釋方法 180
9.8 案例研究:聯(lián)邦通信指數(shù)的離群值檢測(cè) 185
9.9 小結(jié) 192
9.10 附錄 193
第10章 汽車行業(yè)基本數(shù)據(jù) 196
10.1 引言 196
10.2 數(shù)據(jù) 197
10.3 方法一:間接法 201
10.4 方法二:直接法 213
10.5 高斯過(guò)程舉例 228
10.6 小結(jié) 230
10.7 附錄 230
第11章 調(diào)查和眾包數(shù)據(jù) 236
11.1 引言 236
11.2 另類數(shù)據(jù):調(diào)查數(shù)據(jù) 236
11.3 數(shù)據(jù) 238
11.4 產(chǎn)品 239
11.5 案例研究 240
11.6 關(guān)于調(diào)查的一些技術(shù)性考慮 245
11.7 眾包分析師估計(jì)調(diào)查 245
11.8 Alpha獲取數(shù)據(jù) 246
11.9 小結(jié) 247
11.10 附錄 247
第12章 采購(gòu)經(jīng)理人指數(shù) 248
12.1 引言 248
12.2 PMI表現(xiàn) 249
12.3 GDP增長(zhǎng)的即時(shí)預(yù)測(cè) 251
12.4 對(duì)金融市場(chǎng)的影響 252
12.5 小結(jié) 254
第13章 衛(wèi)星圖像和航空攝影 255
13.1 引言 255
13.2 美國(guó)出口增長(zhǎng)的預(yù)測(cè) 257
13.3 汽車數(shù)量和零售商每股收益 258
13.4 利用衛(wèi)星數(shù)據(jù)測(cè)算中國(guó)制造業(yè)PMI 264
13.5 小結(jié) 266
第14章 位置數(shù)據(jù) 268
14.1 引言 268
14.2 利用航運(yùn)數(shù)據(jù)實(shí)現(xiàn)原油追蹤 268
14.3 利用手機(jī)定位數(shù)據(jù)了解零售活動(dòng) 271
14.4 出租車出行數(shù)據(jù)和紐約聯(lián)儲(chǔ)會(huì)議 278
14.5 公司商務(wù)機(jī)位置數(shù)據(jù)和并購(gòu) 279
14.6 小結(jié) 281
第15章 文本、網(wǎng)頁(yè)、社交媒體和新聞 282
15.1 引言 282
15.2 收集網(wǎng)絡(luò)數(shù)據(jù) 282
15.3 社交媒體 283
15.4 新聞 292
15.5 其他網(wǎng)絡(luò)來(lái)源 302
15.6 小結(jié) 303
第16章 投資者關(guān)注度 304
16.1 引言 304
16.2 度量投資者關(guān)注度的指標(biāo)—工資單的讀者群體 304
16.3 度量市場(chǎng)主體的指標(biāo)—谷歌趨勢(shì) 306
16.4 度量投資者焦慮情緒的指標(biāo)—投資百科的搜索數(shù)據(jù) 308
16.5 運(yùn)用維基百科了解加密貨幣的價(jià)格走勢(shì) 311
16.6 通過(guò)各國(guó)網(wǎng)上關(guān)注度來(lái)了解外匯交易 311
16.7 小結(jié) 314
第17章 消費(fèi)者交易 316
17.1 引言 316
17.2 信用卡和借記卡的交易數(shù)據(jù) 317
17.3 消費(fèi)者收據(jù) 318
17.4 小結(jié) 320
第18章 政府、行業(yè)和公司數(shù)據(jù) 321
18.1 引言 321
18.2 使用創(chuàng)新性度量指標(biāo)進(jìn)行股權(quán)交易 321
18.3 量化貨幣危機(jī)風(fēng)險(xiǎn) 324
18.4 模擬中央銀行干預(yù)貨幣市場(chǎng) 326
18.5 小結(jié) 328
第19章 市場(chǎng)數(shù)據(jù) 329
19.1 引言 329
19.2 機(jī)構(gòu)外匯流量數(shù)據(jù)與外匯現(xiàn)貨之間的關(guān)系 329
19.3 使用高頻外匯數(shù)據(jù)理解流動(dòng)性 333
19.4 小結(jié) 335
第20章 私募市場(chǎng)中的另類數(shù)據(jù) 337
20.1 引言 337
20.2 什么是私募股權(quán)公司和風(fēng)險(xiǎn)投資公司 337
20.3 私募股權(quán)數(shù)據(jù)集 339
20.4 理解私營(yíng)企業(yè)的表現(xiàn) 340
20.5 小結(jié) 341
參考文獻(xiàn) 342
原書作者介紹和中文版譯者介紹 353
(1)原書作者介紹 353
(2)中文版譯者介紹 354
第一部分 簡(jiǎn)介與理論
第1章 另類數(shù)據(jù):現(xiàn)狀
1.1 引言
另類數(shù)據(jù)這一話題在金融領(lǐng)域引發(fā)了熱議。在本書中,我們力圖詳細(xì)討論這一話題,展示如何利用另類數(shù)據(jù)來(lái)加強(qiáng)對(duì)金融市場(chǎng)的理解、提高收益和更好地進(jìn)行風(fēng)險(xiǎn)管理。
本書的目標(biāo)讀者是通過(guò)非傳統(tǒng)方法來(lái)尋求超額收益的投資者。這些方法與基本面分析以及單純依靠金融市場(chǎng)中廣泛存在的數(shù)據(jù)進(jìn)行的定量(研究)方法不同。同時(shí),本書也面向那些想要通過(guò)現(xiàn)有標(biāo)準(zhǔn)化和廣泛應(yīng)用的數(shù)據(jù)集中未出現(xiàn)的信息來(lái)識(shí)別會(huì)造成負(fù)面影響事件的早期信號(hào)的風(fēng)險(xiǎn)管理師 。
在編寫本書時(shí),對(duì)于另類數(shù)據(jù)是否能在投資過(guò)程中在更標(biāo)準(zhǔn)化的數(shù)據(jù)源之上增加價(jià)值,業(yè)內(nèi)意見不一。報(bào)刊上有一些關(guān)于對(duì)沖基金和銀行的新聞,它們已經(jīng)嘗試使用另類數(shù)據(jù),但未能從中獲取價(jià)值。然而,我們必須強(qiáng)調(diào),另類數(shù)據(jù)中缺乏預(yù)測(cè)信號(hào)只是潛在失敗的原因之一。實(shí)際上,我們將試圖通過(guò)實(shí)際案例說(shuō)服讀者,在許多情況下,可以從另類數(shù)據(jù)中收集有用的信號(hào)。與此同時(shí),我們還會(huì)解釋為什么任何旨在提取和成功應(yīng)用這些信號(hào)的策略都是算法、流程、技術(shù)和嚴(yán)謹(jǐn)?shù)某杀拘б娣治龅慕Y(jié)合。如果不能正確處理其中任一個(gè),都會(huì)導(dǎo)致無(wú)法從另類數(shù)據(jù)中提取出有用的見解。因此,證明數(shù)據(jù)集中存在信號(hào)并不足以從卓越的投資策略中獲益,這是因?yàn)檫有許多其他微妙的問(wèn)題在起作用,而這些問(wèn)題大多是動(dòng)態(tài)的,我們將在后面解釋。
在本書中,我們將詳細(xì)討論可以使另類數(shù)據(jù)有效達(dá)到我們之前提到的目的的技術(shù)方法。這些技術(shù)屬于機(jī)器學(xué)習(xí)(machine learning,ML)和人工智能(artificial intelligence,AI)領(lǐng)域。然而,我們不想用這些“深?yuàn)W”的術(shù)語(yǔ)給人不必要的復(fù)雜印象。因此,我們采用一些更簡(jiǎn)單、更傳統(tǒng)的方法,比如線性回歸和邏輯回歸 這些在金融界早已熟悉的方法。實(shí)際上,在許多情況下,使用更簡(jiǎn)單的方法從金融領(lǐng)域的另類數(shù)據(jù)集中獲取信號(hào)往往非常有用。然而這并不是一本關(guān)于機(jī)器學(xué)習(xí)的教材,因此我們不會(huì)鉆研每種方法的細(xì)節(jié),我們只提供簡(jiǎn)練的介紹。必要時(shí),我們會(huì)向讀者推薦合適的參考文獻(xiàn)。
這也不是一本關(guān)于技術(shù)和基礎(chǔ)設(shè)施的書,盡管技術(shù)和基礎(chǔ)設(shè)施是另類數(shù)據(jù)在現(xiàn)實(shí)世界中使用的基礎(chǔ)。當(dāng)然,這些包含數(shù)據(jù)工程的主題仍然非常重要。實(shí)際上,對(duì)于任何在數(shù)據(jù)中發(fā)現(xiàn)的信號(hào),要在現(xiàn)實(shí)生活中發(fā)揮作用,這些主題都是必要的。然而,考慮到詳細(xì)處理這些問(wèn)題需要廣泛和深入的專業(yè)知識(shí),因此這些主題本身就值得被寫成一本書。不過(guò),必須強(qiáng)調(diào)的是,現(xiàn)實(shí)生活中我們所應(yīng)用的提取信號(hào)的方法往往會(huì)受到技術(shù)的限制。我們是否需要一種算法來(lái)快速工作并實(shí)現(xiàn)實(shí)時(shí)交付,還是可以忍受一些延遲?因此,我們選擇的算法類型在很大程度上取決于這樣的技術(shù)限制。盡管本書不是嚴(yán)格意義上的技術(shù)性書籍,但我們還是會(huì)自始至終在這些重要的方面進(jìn)行提示。
在本書中,我們會(huì)通過(guò)實(shí)際案例研究,展示如何利用不同的另類數(shù)據(jù)源來(lái)實(shí)現(xiàn)在金融領(lǐng)域中的不同目的。這些案例研究將包含各種數(shù)據(jù)源,并針對(duì)每個(gè)數(shù)據(jù)源詳細(xì)討論如何解決特定的問(wèn)題,如通過(guò)基本行業(yè)數(shù)據(jù)來(lái)預(yù)測(cè)股票收益,或從調(diào)查指數(shù)來(lái)預(yù)測(cè)經(jīng)濟(jì)變量。這些案例研究是獨(dú)立的,且能代表現(xiàn)實(shí)世界應(yīng)用中可能出現(xiàn)的各種情況,涉及多個(gè)不同的資產(chǎn)類別。
最后,這本書不會(huì)成為所有現(xiàn)存另類數(shù)據(jù)源的目錄簿。我們認(rèn)為為現(xiàn)存另類數(shù)據(jù)源形成目錄簿是徒勞的,因?yàn)樵趧?dòng)態(tài)世界中,這種數(shù)據(jù)集的數(shù)量和種類每天都在增長(zhǎng)。在我們看來(lái),更重要的是如何使現(xiàn)有數(shù)據(jù)變得有用的過(guò)程和方法。在探索如何有效使用另類數(shù)據(jù)的過(guò)程中,我們也會(huì)非常務(wù)實(shí)地檢查在篩選數(shù)據(jù)集時(shí)出現(xiàn)的常見問(wèn)題,以及任何實(shí)際應(yīng)用程序都可能出現(xiàn)的失誤和錯(cuò)誤。
本書的結(jié)構(gòu)如下。第一部分是另類數(shù)據(jù)的概況,以及使其應(yīng)用在投資決策中的過(guò)程和方法。第1章將定義另類數(shù)據(jù)并創(chuàng)建一個(gè)分類法。第2章將討論如何為數(shù)據(jù)集定價(jià)這一微妙的問(wèn)題。這一主題目前在業(yè)內(nèi)正受到熱烈討論。第3 章將討論另類數(shù)據(jù)相關(guān)的風(fēng)險(xiǎn),尤其是法律風(fēng)險(xiǎn),我們還將研究實(shí)施另類數(shù)據(jù)策略面對(duì)的技術(shù)性問(wèn)題的細(xì)節(jié)。第4章介紹與理解另類數(shù)據(jù)相關(guān)的機(jī)器學(xué)習(xí)和結(jié)構(gòu)化技術(shù)。同樣,為了更深入地理解這些技術(shù),我們將向讀者推薦一些合適的參考文獻(xiàn)。
第5章將研究測(cè)試背后的過(guò)程和以另類數(shù)據(jù)信號(hào)為基礎(chǔ)的策略的實(shí)施。我們將推薦一種快速故障方法來(lái)解決問(wèn)題。在一個(gè)數(shù)據(jù)集眾多且進(jìn)一步激增的世界里,我們相信這是一種較好的方法。
第二部分重點(diǎn)關(guān)注一些真實(shí)世界中的用例。第6章介紹了因子投資,并對(duì)如何將另類數(shù)據(jù)整合到分析框架中進(jìn)行討論。其中一個(gè)用例與投資策略沒(méi)有直接關(guān)系,但在任何項(xiàng)目一開始的時(shí)候都是一個(gè)問(wèn)題,必須在嘗試其他事情之前予以處理。這個(gè)問(wèn)題就是數(shù)據(jù)缺失(見第7章和第8章)。第9章解決了另一個(gè)在數(shù)據(jù)中普遍存在的異常值問(wèn)題。之后,本書將研究投資策略和經(jīng)濟(jì)預(yù)測(cè)的用例,這些用例基于廣泛的不同類型的另類數(shù)據(jù)集,它們存在于許多不同的資產(chǎn)類別中,包括公開市場(chǎng),如股票和外匯。本書還研究了另類數(shù)據(jù)在理解私募市場(chǎng)方面的適用性(第20章),由于缺乏公開信息,私募市場(chǎng)通常是更加不透明的。本書還將討論包括汽車供應(yīng)鏈數(shù)據(jù)(第10章)、衛(wèi)星圖像(第13章)和機(jī)器可讀新聞(第15章)的另類數(shù)據(jù)集。在許多情況下,本書還將通過(guò)針對(duì)不同資產(chǎn)類別的交易策略來(lái)對(duì)用例進(jìn)行說(shuō)明。
那么,在開啟這段旅程之前,讓我們?cè)俳忉屢幌陆鹑诮缢^“另類數(shù)據(jù)”的含義,以及它為什么會(huì)成為如此熱門的一個(gè)話題。
1.2 什么是“另類數(shù)據(jù)”?
眾所周知,信息可以提供優(yōu)勢(shì)。因此,金融從業(yè)者歷來(lái)試圖收集盡可能多的數(shù)據(jù)。然而,隨著時(shí)間的推移,這些信息的性質(zhì)會(huì)發(fā)生變化,尤其是大數(shù)據(jù)革命 開始以來(lái)。從市場(chǎng)價(jià)格和資產(chǎn)負(fù)債表等“標(biāo)準(zhǔn)”來(lái)源發(fā)展到其他來(lái)源,特別是那些嚴(yán)格意義上不屬于金融范疇的來(lái)源。例如,衛(wèi)星圖像、社交媒體、船舶移動(dòng)和物聯(lián)網(wǎng)。這些來(lái)自“非標(biāo)準(zhǔn)”源的數(shù)據(jù)被稱為另類數(shù)據(jù)。
在實(shí)踐中,另類數(shù)據(jù)有多個(gè)特征,我們?cè)谙旅鎳L試列舉出來(lái)。通常,它至少具有以下一個(gè)特征。
?相對(duì)來(lái)說(shuō),不常被市場(chǎng)參與者使用
。渴占杀靖,因此購(gòu)買(成本)價(jià)格也更高
?通常在金融市場(chǎng)外
?歷史較短
。渴褂闷饋(lái)更具挑戰(zhàn)性
我們必須注意到,構(gòu)成另類數(shù)據(jù)的內(nèi)容可能隨著時(shí)間推移發(fā)生顯著變化,這取決于它的可獲得性,以及它在流程中的嵌入程度。顯然,今天大多數(shù)金融市場(chǎng)的數(shù)據(jù)比幾十年前更商品化也更容易獲取。因此,它通常不被稱為另類的。例如,股票收盤價(jià)的每日時(shí)間序列可以從許多途徑輕易獲取,因此它被認(rèn)為是非另類的。相比之下,非常高頻的外匯數(shù)據(jù),盡管是金融數(shù)據(jù),但更加昂貴、專業(yè)而小眾。綜合性的外匯交易量和流量數(shù)據(jù)也是如此,這些數(shù)據(jù)相對(duì)不易獲取。因此,這些市場(chǎng)衍生的數(shù)據(jù)集可以被認(rèn)為是另類的。數(shù)據(jù)集的成本和可用性很大程度上取決于幾個(gè)因素,如資產(chǎn)類別和頻率。因此,這些因素決定了是否給數(shù)據(jù)集貼上“另類”的標(biāo)簽。當(dāng)然,我們不可能給出明確的定義,“另類”和“非另類”的界限也有些模糊。同樣有可能的是,在不久的將來(lái),我們認(rèn)為“另類”的數(shù)據(jù)將會(huì)更加標(biāo)準(zhǔn)化和主流化。因此,它可能會(huì)失去“另類”的標(biāo)簽,而僅僅被稱為數(shù)據(jù)。
近年來(lái),另類數(shù)據(jù)的領(lǐng)域有了顯著擴(kuò)張。其中一個(gè)主要原因是產(chǎn)生數(shù)據(jù)的設(shè)備和流程激增。此外,與手動(dòng)操作相比,許多數(shù)據(jù)可以自動(dòng)記錄。數(shù)據(jù)存儲(chǔ)的成本也在降低,從而使將數(shù)據(jù)更長(zhǎng)久地保存在磁盤上變得可行。世界上還充斥著“廢氣數(shù)據(jù)”,這些數(shù)據(jù)是由那些主要目的不是收集、生成和出售數(shù)據(jù)的流程產(chǎn)生的。從這個(gè)意義上講,數(shù)據(jù)具有“副作用”。金融市場(chǎng)中廢氣數(shù)據(jù)最明顯的例子就是市場(chǎng)數(shù)據(jù)。交易者在交易所和場(chǎng)外交易的基礎(chǔ)上進(jìn)行交易。每當(dāng)他們發(fā)布報(bào)價(jià)或同意與交易對(duì)手按某個(gè)價(jià)格交易時(shí),他們就創(chuàng)建了一個(gè)數(shù)據(jù)點(diǎn)。這個(gè)數(shù)據(jù)是作為交易活動(dòng)的廢氣而存在的。發(fā)布市場(chǎng)數(shù)據(jù)的概念并不新鮮,多年來(lái)一直是市場(chǎng)的重要組成部分,也是交易所收入的重要組成部分。
然而,還有其他類型的廢氣數(shù)據(jù)被相對(duì)較少地使用。以一家大型新聞專線機(jī)構(gòu)為例。作為日常工作的一部分,記者們不斷地撰寫新聞來(lái)將信息告知讀者。這樣每天會(huì)生成大量的文本,這些文本可以存儲(chǔ)在磁盤上并進(jìn)行結(jié)構(gòu)化處理。像谷歌、Facebook和Twitter這樣的公司,它們的用戶產(chǎn)生了大量的數(shù)據(jù),包括搜索、帖子和點(diǎn)贊。這些廢氣數(shù)據(jù)是用戶活動(dòng)的副產(chǎn)品,通過(guò)向用戶投放廣告來(lái)實(shí)現(xiàn)盈利。此外,我們每個(gè)人每次使用手機(jī)都會(huì)創(chuàng)建廢氣數(shù)據(jù),創(chuàng)建我們的位置記錄,并在網(wǎng)上留下數(shù)字足跡。
產(chǎn)生并記錄這些廢氣數(shù)據(jù)的公司開始越來(lái)越多地考慮在本身組織之外通過(guò)數(shù)據(jù)獲利的方法。然而,大多數(shù)廢氣數(shù)據(jù)仍未得到充分利用。此類數(shù)據(jù)被稱為“暗數(shù)據(jù)”。它是內(nèi)部的、通常被存檔、一般無(wú)法訪問(wèn),且其結(jié)構(gòu)化不夠完善,較難進(jìn)行分析。它可以是已歸檔的電子郵件、項(xiàng)目通信等。一旦這些數(shù)據(jù)被結(jié)構(gòu)化,這些數(shù)據(jù)對(duì)于生成內(nèi)部見解以及外部獲利方面更加有用。
1.3 另類數(shù)據(jù)的分類
正如已提到過(guò)的,我們不會(huì)描述所有另類數(shù)據(jù)的來(lái)源,但嘗試提供一個(gè)足以涵蓋實(shí)踐中遇到的大多數(shù)情況的簡(jiǎn)潔分類。首先,我們可以將另類數(shù)據(jù)源劃分為以下高級(jí)類別的生成體 :個(gè)人、機(jī)構(gòu) 和傳感器,以及這些生成體的派生或組合。后者很重要,因?yàn)樗鼤?huì)導(dǎo)致數(shù)據(jù)集實(shí)際上的無(wú)限增長(zhǎng)。例如,從數(shù)據(jù)中提取的一