第十六~十八章
- 導讀時間:2018/01/11 (四)
- 場地提供:PIXNET
- 章節內容:
- 第十六章 - 跟蹤故障 by 曾義格 (正瑋代打)
- 第十七章 - 測試可靠性 by Arrack
- 第十八章 - SRE部門中的軟件工程實踐 by Raix
導讀整理¶
討論與分享¶
- 第十七章社群討論連結
- 問題提問 by 正瑋
- CH16 - Tracking Outages
- Q: 你們有使用任何故障追蹤的工具嗎?
- Q: 你們如何避免重複的警報(消除重複的警報)?
- Q: 你們會從故障追蹤紀錄的歷史資料中分析哪些面向?
- CH17 - Testing for Reliability
- Q: 你們有進行「測試」嗎?針對 Dev、Ops、infra?
- Q: 續上,你們團隊願意投資多少資源在上述這些「測試」?
- Q: 書中提到金絲雀測試時,提到 CU=RK 的公式,有人可以解釋一下嗎?
- Q: 書中提到嘗試在團隊中建立一種注重「測試」的文化?有任何可以分享的經驗嗎?
- CH18 - Software Engineering in SRE
- Q: 如書中提到的案例 Auxon,你們團隊是如何做容量規劃(capacity plan)的?
- Q: 你們有在開發組織、公司、團隊內部使用的工具嗎?
- Q: 續上,你們公司願意讓員工投資多少資源在此?
- Q: 續上,這些工具有機會成為一種內部創業的機會嗎?
- CH16 - Tracking Outages
相關工具¶
- post mortem tracker: https://github.com/etsy/morgue