跳轉到

第十六~十八章

  • 導讀時間:2018/01/11 (四)
  • 場地提供:PIXNET
  • 章節內容:
    • 第十六章 - 跟蹤故障 by 曾義格 (正瑋代打)
    • 第十七章 - 測試可靠性 by Arrack
    • 第十八章 - SRE部門中的軟件工程實踐 by Raix

導讀整理

原始文件

原始文件


討論與分享

  • 第十七章社群討論連結
  • 問題提問 by 正瑋
    • CH16 - Tracking Outages
      • Q: 你們有使用任何故障追蹤的工具嗎?
      • Q: 你們如何避免重複的警報(消除重複的警報)?
      • Q: 你們會從故障追蹤紀錄的歷史資料中分析哪些面向?
    • CH17 - Testing for Reliability
      • Q: 你們有進行「測試」嗎?針對 Dev、Ops、infra?
      • Q: 續上,你們團隊願意投資多少資源在上述這些「測試」?
      • Q: 書中提到金絲雀測試時,提到 CU=RK 的公式,有人可以解釋一下嗎?
      • Q: 書中提到嘗試在團隊中建立一種注重「測試」的文化?有任何可以分享的經驗嗎?
    • CH18 - Software Engineering in SRE
      • Q: 如書中提到的案例 Auxon,你們團隊是如何做容量規劃(capacity plan)的?
      • Q: 你們有在開發組織、公司、團隊內部使用的工具嗎?
      • Q: 續上,你們公司願意讓員工投資多少資源在此?
      • Q: 續上,這些工具有機會成為一種內部創業的機會嗎?

相關工具

  • post mortem tracker: https://github.com/etsy/morgue