SRE工程師應(yīng)知應(yīng)會(huì)97件事
定 價(jià):88 元
- 作者:(加) 埃米爾·斯托拉爾斯基, 詹姆·吳編
- 出版時(shí)間:2023/3/1
- ISBN:9787519876319
- 出 版 社:中國(guó)電力出版社
- 中圖法分類:TP393.092.1
- 頁碼:252
- 紙張:
- 版次:1
- 開本:26cm
本書內(nèi)容講述: Incident Labs的聯(lián)合創(chuàng)始人Jaime Woo和Emil Stolarsky從整個(gè)行業(yè)收集了97條簡(jiǎn)單實(shí)用的技巧, 包括值得信賴的最佳實(shí)踐和解決棘手問題的新方法。通過了解發(fā)人深省的推動(dòng)領(lǐng)域發(fā)展的問題, 以及我們給出的合理建議, 你將會(huì)提高和完善你的SRE技能。
站點(diǎn)可靠性工程(SRE)比以往任何時(shí)候都更加重要。知道如何保持系統(tǒng)的可靠性,已經(jīng)成為了一項(xiàng)關(guān)鍵技能。有了這本實(shí)用性很強(qiáng)的書,新手和老手都將能了解到許多在 SRE場(chǎng)景中發(fā)生的對(duì)話。你將獲得關(guān)于多個(gè)主題的可操作建議,包括如何采用SRE、為什么SLOS很重要、何時(shí)需要升級(jí)事件響應(yīng)機(jī)制,以及監(jiān)控和可觀測(cè)性有何不同等。
專家推薦
測(cè)試你的災(zāi)難恢復(fù)計(jì)劃。
——Tana Reilly
將同理心融入到SRE工具中。
——Daniella Niyonkuru
我能給團(tuán)隊(duì)的z佳建議。
——Nicole Forsgren
在哪里進(jìn)行SRE。
——Fatema Boxwala
面對(duì)第d一頁。
——Andrew Louis
預(yù)算有誤,現(xiàn)在該怎么辦?
——Alex Hidalgo
讓你的工作得到認(rèn)可:寫一個(gè)充分展示自我的文檔。
——Julia Evans,Karla Burnett
Emil Stolarsky是一名SRE工程師,曾在Shopify和DigitalOcean的負(fù)責(zé)Kubernetes平臺(tái)工作,負(fù)責(zé)緩存、性能和災(zāi)難恢復(fù)。業(yè)余時(shí)間里,他會(huì)聽Flume的音樂,并通過攀巖來克服恐高癥。Jaime Woo的職業(yè)生涯始于分子生物學(xué),之后他熱衷于講故事,在DigitalOcean、Riot Games和Shopify 工作過,在那里他又重新開始了工程通信方面的工作。他是一位獲得獎(jiǎng)項(xiàng)提名的作家,也特別愛吃餃子。
前言 1
第1 章 用六個(gè)詞來概括站點(diǎn)可靠性工程 6
Alex Hidalgo
第2 章 知道我們?yōu)槭裁凑娴男枰煽啃悦矗?8
Niall Murphy
第3 章 構(gòu)建自調(diào)節(jié)過程 10
Denise Yu
第4 章 SRE 家宴上的四個(gè)工程師 12
Jacob Scott
第5 章 可靠性堆棧 14
Alex Hidalgo
第6 章 基礎(chǔ)設(shè)施:這就是力量所在 16
Charity Majors
第7 章 關(guān)于彈性的思考 18
Justin Li
第8 章 開發(fā)周期中的可觀測(cè)性 20
Charity Majors, Liz Fong-Jones
第9 章 一切都是可以理解的 22
Bouke van der Bijl
第10 章 Wikipedia 是如何為你服務(wù)的 24
Effie Mouzeli
第11 章 為什么你應(yīng)該對(duì)TCP 有所了解? 27
Julia Evans
第12 章 管理接口的重要性 30
Salim Virji
第13 章 說到存儲(chǔ),請(qǐng)考慮分布式 32
Salim Virji
第14 章 數(shù)據(jù)基數(shù)的作用 34
Charity Majors, Liz Fong-Jones
第15 章 安全就像洋蔥 36
Lucas Fontes
第16 章 用話語記錄 38
Tanya Reilly
第17 章 通往SRE 之路 40
Fatema Boxwala
第18 章 親愛的未來團(tuán)隊(duì) 42
Frances Rees
第19 章 可持續(xù)性與職業(yè)倦怠 44
Denise Yu
第20 章 不要聽從老師傅的建議 46
John Looney
第21 章 面對(duì)次的事故呼叫 48
Andrew Louis
第22 章 SRE,文化至上 50
Matthew Huxtable
第23 章 在小型組織中人人都是SRE 52
Matthew Huxtable
第24 章 審計(jì)你的環(huán)境以促進(jìn)改善 54
Joan O’Callaghan
第 25 章 事故響應(yīng),從小處著手 56
Thai Wood
第26 章 獨(dú)當(dāng)一面的SRE:獨(dú)自一個(gè)人影響大規(guī)模的變革 58
Ashley Poole
第27 章 設(shè)計(jì)SLO 度量的目標(biāo) 60
Ben Sigelman
第 28 章 我有錯(cuò)誤預(yù)算——現(xiàn)在怎么辦 62
Alex Hidalgo
第29 章 如何改變現(xiàn)狀 64
Joan O’Callaghan
第30 章 問題定位方法論 67
Avishai Ish-Shalom, Nati Cohen
第31 章 初創(chuàng)公司如何建立 SRE 思維 69
Tamara Miner
第32 章 自力更生,在企業(yè)中落地SRE ! 71
Vanessa Yiu
第33 章 不知道沒關(guān)系,出錯(cuò)也沒關(guān)系 73
Todd Palino
第34 章 講故事是一種超能力 75
Anita Clarke
第35 章 讓你的工作得到認(rèn)可: 寫一份自夸的文檔 78
Julia Evans, Karla Burnett
第36 章 讓大家看到你的工作成果 81
Lorin Hochstein
第37 章 被忽視的工程技能 84
Murali Suriar
第38 章 卸下遠(yuǎn)程值守的包袱 86
Jason Hand
第 39 章 事件處理大師 88
Andrew Louis
第40 章 毫不費(fèi)力的事件管理 90
Suhail Patel, Miles Bryant, Chris Evans
第41 章 如果你在做運(yùn)行手冊(cè),就把它們做好 92
Spike Lindsey
第 42 章 為什么我厭惡我們的流程手冊(cè) 94
Frances Rees
第43 章 什么樣的工具運(yùn)行良好 97
Michelle Brush
第44 章 將同理心注入SRE 工具 99
Daniella Niyonkuru
第45 章 使用ChatOps 來實(shí)現(xiàn)共情 102
Daniella Niyonkuru
第46 章 迅速行動(dòng),唯快不破 104
Michelle Brush
第 47 章 能在生產(chǎn)系統(tǒng)中運(yùn)行才算確認(rèn) 106
Ingrid Epure
第 48 章 有時(shí)候修復(fù)本身就是問題 108
Jake Pittis
第49 章 傳奇故事 110
Elise Gale
第50 章 監(jiān)控指標(biāo)不是SLI( 衡量一切的陷阱) 112
Brian Murphy
第51 章 當(dāng)SLO 遭受質(zhì)疑時(shí)如何去改善 114
Narayan Desai
第52 章 產(chǎn)品可靠性的整體方法 117
Kristine Chen, Bart Ponurkiewicz
第 53 章 尋找失去的時(shí)間 120
Ingrid Epure
第54 章 答疑時(shí)間的意外收獲 122
Tamara Miner
第55 章 為內(nèi)部客戶建立他們真正想要使用的工具 124
Vinessa Wan
第56 章 個(gè)體和交互那些事 126
Vinessa Wan
第57 章 SRE 的人員能力基線 128
Effie Mouzeli
第58 章 遠(yuǎn)程高效或高效遠(yuǎn)程 130
Avleen Vig
第 59 章 余量和個(gè)體132
Kurt Andersen
第 60 章 系統(tǒng)余量的重要性 134
Kurt Andersen
第61 章 更少的電子表格,更多的餐巾紙 136
Jacob Bednarz
第62 章 巧妙地引入DevOps 138
Vinessa Wan
第63 章 在企業(yè)中有效的SRE 文化變革 140
Vanessa Yiu
第64 章 獻(xiàn)給我愛的所有SRE 142
Felix Glaser
第65 章 復(fù)雜:技術(shù)中超負(fù)荷的詞語 145
Laura Nolan
第66 章 我給團(tuán)隊(duì)的好建議 147
Nicole Forsgren
第67 章 創(chuàng)造你的工作清單 149
Daria Barteneva, Eva Parish
第68 章 按照SLO 操作 151
David K Rensin
第 69 章 英雄是必要的,英雄主義卻不是 153
Lei Lopez
第70 章 人們?cè)敢鈪⒓拥闹蛋喙ぷ?155
Miles Bryant, Chris Evans, Suhail Patel
第71 章 學(xué)習(xí)研究人的因素和團(tuán)隊(duì)文化,進(jìn)而改善呼叫器的疲勞度 157
Daria Barteneva
第72 章 優(yōu)化恢復(fù)的平均時(shí)間 159
Spike Lindsey
第73 章 減輕和預(yù)防級(jí)聯(lián)故障 161
Rita Lu
第74 章 實(shí)時(shí)健康度:可以衡量的指標(biāo) 163
Caitie McCaffrey
第75 章 幫助領(lǐng)導(dǎo)者優(yōu)先考慮實(shí)時(shí)健壯性的問題 165
Caitie McCaffrey
第76 章 作為外交官的SRE 168
Johnny Boursiquot
第 77 章 前瞻性部署的SRE 170
Johnny Boursiquot
第78 章 檢驗(yàn)?zāi)愕臑?zāi)備計(jì)劃 172
Tanya Reilly
第79 章 為什么對(duì)于SRE 實(shí)踐來說培訓(xùn)是重要的,
并且對(duì)于培訓(xùn)課程來說SRE 很重要 174
Jennifer Petoff
第80 章 單一化的力量 177
Chris Evans, Suhail Patel, Miles Bryant
第81 章 每個(gè)用戶價(jià)值對(duì)應(yīng)的字節(jié)數(shù) 179
Arshia Mufti
第82 章 把工程博客提上議事日程 181
Anita Clarke
第83 章 要讓任何人在你的上下文里運(yùn)行代碼 183
John Looney
第84 章 交易場(chǎng)所:站點(diǎn)可靠性工程和產(chǎn)品 185
Shubheksha Jalan
第85 章 透過團(tuán)隊(duì)看產(chǎn)品 187
Avleen Vig
第86 章 性能儲(chǔ)備金 189
Dawn Parzych
第87 章 重要但不緊急:SRE 路線圖 191
Laura Nolan
第88 章 那些50% 的事兒 193
Tanya Reilly
第89 章 遵循安全關(guān)鍵系統(tǒng)之路 195
Heidy Khlaaf
第90 章 適合且可實(shí)現(xiàn)的靜態(tài)分析 197
Heidy Khlaaf
第91 章 形式化規(guī)范的重要 200
Hillel Wayne
第92 章 社會(huì)技術(shù)系統(tǒng)中的風(fēng)險(xiǎn)與腐爛 202
Laura Nolan
第93 章 危機(jī)中的SRE 204
Niall Murphy
第94 章 預(yù)期的風(fēng)險(xiǎn)限制 206
Blake Bisset
第95 章 跨越局部風(fēng)險(xiǎn):細(xì)數(shù)憤怒的小鳥 208
Blake Bisset
第96 章 來自軟件安全專業(yè)人士的一些建議 210
J Paul Reed
第97 章 故障:讓我們有機(jī)會(huì)一窺缺陷 212
Lorin Hochstein
第98 章 第三代SRE 214
Bj?rn “Beorn” Rabenstein
作者介紹 216
編者介紹 237