● 本書首先介紹AI與AI安全的發(fā)展起源、世界主要經濟體的AI發(fā)展戰(zhàn)略規(guī)劃,給出AI安全技術發(fā)展脈絡和框架,并從AI安全實戰(zhàn)出發(fā),重點圍繞對抗樣本、數(shù)據(jù)投毒、模型后門等攻擊技術進行案例剖析和技術講解;然后對預訓練模型中的風險和防御、AI數(shù)據(jù)隱私竊取攻擊技術、AI應用失控的風險和防御進行詳細分析,并佐以實戰(zhàn)案例和數(shù)據(jù);最后對AI安全的未來發(fā)展進行展望,探討AI安全的風險、機遇、發(fā)展理念和產業(yè)構想。
● 本書適合AI和AI安全領域的研究人員、管理人員,以及需要實戰(zhàn)案例輔助學習的廣大愛好者閱讀。
● 國內首部揭秘AI安全前沿技術圖書,【騰訊安全朱雀實驗室】首著。
●前沿【攻擊方法和原理】分析,原汁原味【實戰(zhàn)案例】呈現(xiàn)。
●全書涵蓋6大主題14個實戰(zhàn)案例,包括對抗樣本攻擊、數(shù)據(jù)投毒攻擊、模型后門攻擊、預訓練模型安全、AI數(shù)據(jù)隱私竊取、AI應用失控風險等。
●附贈全書實戰(zhàn)代碼,作者在線答疑等增值服務。
●全彩極致印刷,最佳視覺體驗。
●序●
如果說,早期人們對AI技術的能力還抱有些許質疑的話,那么2016年Google公司AlphaGo的橫空出世,則讓普羅大眾對AI技術的看法有了耳目一新的變化,越來越多的AI技術被應用到各行各業(yè)中,帶來商業(yè)繁榮的同時也帶來了人們更多的擔憂。
在AI技術的加持之下,我們的生活在不知不覺中不斷發(fā)生著從量變到質變的迭代。我們通過AI技術賦能的內容平臺可以更深入地了解世界和自己,同時也承擔著信息繭房之傷害。我們通過AI技術賦能的商業(yè)平臺獲得更多的便捷性,同時也被大數(shù)據(jù)殺熟等副作用包圍。
我們被AI計算,同時也被AI算計。
隨著AI技術在各類商業(yè)、業(yè)務模式中的廣泛應用,身為安全從業(yè)者的我們不得不對這一古老而又新鮮的技術模式加以重視。到底AI 技術會給安全行業(yè)帶來哪些巨變?
多年以前,我和我的團隊在安全工作中遇到過一個特殊的黑產團伙,該團伙讓我們青睞有加的原因在于,其在相關的攻防場景里,用了當時頗為流行的Caffe深度學習框架和卷積神經網(wǎng)絡,這使得他們同其他競爭者相比攻擊效率有了數(shù)倍的提升。
盡管這個黑產團伙后來被及時打掉,但這也讓我們意識到一個事實在未來的日子里,AI技術必將是安全戰(zhàn)場攻防兩端的兵家必爭之地。
從那時候起,我的團隊就開始在AI安全方面做大量細致、深入的探索研究工作,我們的嘗試和實踐主要覆蓋以下幾個方面。
(1)AI技術本身的安全性。
(2)AI技術為攻擊提效。
(3)AI技術為防守助力。
(4)AI技術之以攻促防,攻防聯(lián)動。
我們走過一些彎路,也有過一些收獲。我們參考了很多前輩和行業(yè)專家的經驗成果,也分享過一些小小的發(fā)現(xiàn)。而正是在這個探索過程中,我們意識到,前輩們的探索經驗和研究成果,為我們所進行的安全研究工作帶來了諸多的便捷性。
所以,本著繼承和發(fā)揚前輩們的開放、協(xié)作和共享精神,我們也將工作中的點滴進行了總結與歸納,把研究歷程中的一些經驗沉淀下來形成本書。
本書的重點將錨定在AI安全發(fā)展的通用技術上,包括對抗樣本攻擊、數(shù)據(jù)投毒攻擊、模型后門攻擊、預訓練模型中的風險與防御、AI數(shù)據(jù)隱私竊取攻擊,以及AI 應用失控等方面。本書對各類攻擊方法及其技術原理進行了分析,并詳細介紹了基于不同算法和數(shù)據(jù)實驗的實現(xiàn)過程和案例總結,基本保持了原汁原味,以便志同道合的讀者朋友們進行參考,這也算是我和我的團隊為AI安全工作盡的一些綿薄之力。
我們深知,一方面,安全和技術的發(fā)展都日新月異、持續(xù)更新和迭代,本書中一些內容和知識點隨著時間的推移都會逐漸過時、落伍,所以我們也會繼續(xù)不斷探索、保持更新。另一方面,也希望通過我們的管中窺豹來拋磚引玉,通過本書結識更多志同道合的朋友。
我始終相信,科技的力量會讓人類文明更加美好,雖道阻且長,但行則將至,行而不輟,未來可期。我和團隊的小伙伴們會繼續(xù)努力,也歡迎有興趣的讀者朋友們一起探討、共同研究,攜手體驗AI安全探索的奇妙之旅。
楊勇 騰訊安全平臺部負責人
●前言●
騰訊安全朱雀實驗室于2019年開始著手AI安全的研究工作,涉及對抗樣本攻擊、模型安全、AI應用失控等多個領域。在技術研究和實踐過程中,我們走過許多彎路,也嘗過成功的喜悅,這在一定程度上凝結成了此書的大部分內容,特與讀者分享。
回顧最初的探索,我們是從對抗樣本開始的,在多個場景中實現(xiàn)通過輕微篡改來欺騙AI 模型,并嘗試將技術成果在騰訊業(yè)務場景中找到落腳點。然而,在實踐過程中,多次實驗表明對抗樣本的遷移性有限,即基于A模型生成的對抗樣本很難在B模型上發(fā)揮作用。2019年年底,我們轉而研究如何生成遷移性更好的對抗樣本,并在一些學術會議和安全會議上分享了我們的研究成果及經驗,如ECCV、CanSecWest等。和大多數(shù)AI 研究遇到的問題一樣,實驗室的研究成果在產業(yè)落地上往往力不從心。
2020年以來,朱雀實驗室在相關技術積累的基礎上,拓寬AI 安全研究領域,涉及模型安全、AI濫用、AI倫理等,同時構建和完善AI安全藍圖,進一步探索技術的應用落地。
在模型安全研究方面,我們分別在XCon 2020、ICLR 2021( Security Workshop)、CVPR 2022等安全/AI領域會議上分享非數(shù)據(jù)投毒式的模型后門攻擊研究成果,驗證了攻擊在掌握少量模型信息的情況下,通過對網(wǎng)絡參數(shù)的精準修改重建出模型后門的可能性,這進一步揭示了算法模型的脆弱性。
在AI應用失控方面,我們圍繞深度偽造帶來的潛在安全風險問題,一方面,從攻擊的角度出發(fā),去揭露一些安全風險問題;另一方面,從防御的角度出發(fā),去落地一些用于深度偽造檢測的工具,并連續(xù)兩年在安全會議上分享工作成果。除此之外,我們在語音攻擊、文本攻擊等不同的領域也做了大量的實驗工作。
在同AI算法打交道的過程中,我們發(fā)現(xiàn),現(xiàn)階段基于深度學習的系統(tǒng)是較容易遭到對抗樣本攻擊的。一方面,業(yè)務側以功能需求為第一要務,安全防御方面的工作相對滯后,通常在出現(xiàn)攻擊案例后才會進行分析和調整,而且這種修補過程并不像傳統(tǒng)網(wǎng)絡安全漏洞修補的過程,需要不斷調整訓練數(shù)據(jù)和優(yōu)化訓練過程,實施過程的成本較高;另一方面,AI算法的建立過程并沒有引入安全環(huán)節(jié)把控,理論上攻擊方法非常豐富,即使AI系統(tǒng)僅提供API級別的交互服務,攻擊者也可以通過模型竊取攻擊方式來擬合線上模型決策結果,建立一個本地的白盒模型,再在白盒模型的基礎上進行遷移攻擊,進而影響線上模型。
總體來看,當前階段攻擊方法走在了防御方法的前面,我們可以通過總結各種攻擊方法來尋找有效的防御手段,同時可以把網(wǎng)絡安全領域的防御思想加到AI系統(tǒng)的建設上來,在系統(tǒng)的研發(fā)過程中引入SDL規(guī)范,如增加敏感數(shù)據(jù)檢測、適當進行對抗樣本訓練、進行軟件層面的庫和框架及時更新等。
AI安全是一項新技術,在多個層面都需要考慮安全問題。本書第1章是對AI安全發(fā)展的概要性介紹;第2~3章從數(shù)據(jù)層面討論對抗樣本、數(shù)據(jù)樣本的安全問題;第4~5章從模型層面討論模型后門和預訓練模型的安全問題;第6~7章從應用角度討論隱私竊取和應用失控問題。同時,在闡述過程中我們精選多個實戰(zhàn)案例,力求把數(shù)據(jù)、算法、模型、應用等層面的安全問題向讀者展示出來。
AI安全的發(fā)展在未來勢必會迎來更加嚴峻的挑戰(zhàn),我們將自己的研究成果在本書中進行分享,敬請讀者批評指正。希望能借此書,與同行共同推動AI安全的發(fā)展和進步。最后衷心感謝電子工業(yè)出版社所給予的支持。感謝付出了大量時間和精力完成本書的同事,他們是楊勇、朱季峰、唐夢云、徐京徽、宋軍帥、李兆達、駱克云。
騰訊安全朱雀實驗室
騰訊安全朱雀實驗室專注于AI 安全技術研究及應用,圍繞對抗機器學習、AI模型安全、深偽檢測等方面取得了一系列研究成果,議題入選CVPR、ICLR、CanSecWest、HITB、POC、XCon等國內外頂級會議,面向行業(yè)發(fā)布了業(yè)內第一個AI安全威脅風險矩陣,持續(xù)聚焦AI在產業(yè)應用的安全問題,助力AI安全技術創(chuàng)新。
●第1章 AI安全發(fā)展概述●
1.1 AI與安全衍生
1.1.1 AI發(fā)展圖譜
1.1.2 各國AI發(fā)展戰(zhàn)略
1.1.3 AI行業(yè)標準
1.1.4 AI安全的衍生本質科林格里奇困境
1.2 AI安全技術發(fā)展脈絡
●第2章 對抗樣本攻擊●
2.1 對抗樣本攻擊的基本原理
2.1.1 形式化定義與理解
2.1.2 對抗樣本攻擊的分類
2.1.3 對抗樣本攻擊的常見衡量指標
2.2 對抗樣本攻擊技巧與攻擊思路
2.2.1 白盒攻擊算法
2.2.2 黑盒攻擊算法
2.3 實戰(zhàn)案例:語音、圖像、文本識別引擎繞過
2.3.1 語音識別引擎繞過
2.3.2 圖像識別引擎繞過
2.3.3 文本識別引擎繞過
2.4 實戰(zhàn)案例:物理世界中的對抗樣本攻擊
2.4.1 目標檢測原理
2.4.2 目標檢測攻擊原理
2.4.3 目標檢測攻擊實現(xiàn)
2.4.4 攻擊效果展示
2.5 案例總結
●第3章 數(shù)據(jù)投毒攻擊●
3.1 數(shù)據(jù)投毒攻擊概念
3.2 數(shù)據(jù)投毒攻擊的基本原理
3.2.1 形式化定義與理解
3.2.2 數(shù)據(jù)投毒攻擊的范圍與思路
3.3 數(shù)據(jù)投毒攻擊技術發(fā)展
3.3.1 傳統(tǒng)數(shù)據(jù)投毒攻擊介紹
3.3.2 數(shù)據(jù)投毒攻擊約束
3.3.3 數(shù)據(jù)投毒攻擊效率優(yōu)化
3.3.4 數(shù)據(jù)投毒攻擊遷移能力提升
3.4 實戰(zhàn)案例:利用數(shù)據(jù)投毒攻擊圖像分類模型
3.4.1 案例背景
3.4.2 深度圖像分類模型
3.4.3 數(shù)據(jù)投毒攻擊圖像分類模型
3.4.4 實驗結果
3.5 實戰(zhàn)案例:利用投毒日志躲避異常檢測系統(tǒng)
3.5.1 案例背景
3.5.2 RNN異常檢測系統(tǒng)
3.5.3 投毒方法介紹
3.5.4 實驗結果
3.6 案例總結
●第4章 模型后門攻擊●
4.1 模型后門概念
4.2 后門攻擊種類與原理
4.2.1 投毒式后門攻擊
4.2.2 非投毒式后門攻擊
4.2.3 其他數(shù)據(jù)類型的后門攻擊
4.3 實戰(zhàn)案例:基于數(shù)據(jù)投毒的模型后門攻擊
4.3.1 案例背景
4.3.2 后門攻擊案例
4.4 實戰(zhàn)案例:供應鏈攻擊
4.4.1 案例背景
4.4.2 解析APK
4.4.3 后門模型訓練
4.5 實戰(zhàn)案例:基于模型文件神經元修改的模型后門攻擊
4.5.1 案例背景
4.5.2 模型文件神經元修改
4.5.3 觸發(fā)器優(yōu)化
4.6 案例總結
●第5章 預訓練模型安全●
5.1 預訓練范式介紹
5.1.1 預訓練模型的發(fā)展歷程
5.1.2 預訓練模型的基本原理
5.2 典型風險分析和防御措施
5.2.1 數(shù)據(jù)風險
5.2.2 敏感內容生成風險
5.2.3 供應鏈風險
5.2.4 防御策略
5.3 實戰(zhàn)案例:隱私數(shù)據(jù)泄露
5.3.1 實驗概況
5.3.2 實驗細節(jié)
5.3.3 結果分析
5.4 實戰(zhàn)案例:敏感內容生成
5.4.1 實驗概況
5.4.2 實驗細節(jié)
5.4.3 結果分析
5.5 實戰(zhàn)案例:基于自診斷和自去偏的防御
5.5.1 實驗概況
5.5.2 實驗細節(jié)
5.5.3 結果分析
5.6 案例總結
●第6 章 AI數(shù)據(jù)隱私竊取●
6.1 數(shù)據(jù)隱私竊取的基本原理
6.1.1 模型訓練中數(shù)據(jù)隱私竊取
6.1.2 模型使用中數(shù)據(jù)隱私竊取
6.2 數(shù)據(jù)隱私竊取的種類與攻擊思路
6.2.1 數(shù)據(jù)竊取攻擊
6.2.2 成員推理攻擊
6.2.3 屬性推理攻擊
6.3 實戰(zhàn)案例:聯(lián)邦學習中的梯度數(shù)據(jù)竊取攻擊
6.3.1 案例背景
6.3.2 竊取原理介紹
6.3.3 竊取案例
6.3.4 結果分析
6.4 實戰(zhàn)案例:利用AI水印對抗隱私泄露
6.4.1 案例背景
6.4.2 AI保護數(shù)據(jù)隱私案例
6.4.3 AI水印介紹
6.4.4 結果分析
6.5 案例總結
●第7 章 AI應用失控風險●
7.1 AI應用失控
7.1.1 深度偽造技術
7.1.2 深度偽造安全風險
7.2 AI應用失控防御方法
7.2.1 數(shù)據(jù)集
7.2.2 技術防御
7.2.3 內容溯源
7.2.4 行業(yè)實踐
7.2.5 面臨挑戰(zhàn)
7.2.6 未來工作
7.3 實戰(zhàn)案例:VoIP電話劫持 語音克隆攻擊
7.3.1 案例背景
7.3.2 實驗細節(jié)
7.4 實戰(zhàn)案例:深度偽造鑒別
7.4.1 案例背景
7.4.2 實驗細節(jié)
7.4.3 結果分析
7.5 案例總結
●后記 AI安全發(fā)展展望●