跳轉到

第十二~十五章

  • 導讀時間:2017/12/28 (四)
  • 場地提供:PIXNET
  • 章節內容:
    • 第十二章 Effective Troubleshooting by Eric Chen
    • 第十三章 緊急事件響應 by Rick Lin (請假,臨時由 Rick Hwang 代打)
    • 第十四章 緊急事故管理 by Rick Hwang
    • 第十五章 事後總結:從失敗中學習

導讀整理


討論與分享

  • 問題討論:為什麼對 #SRE 而言,不咎責(對事不對人)的事後檢討(事後回顧)很重要? by 正瑋
  • 討論:緊急事件處理
  • 共筆討論
  • 問題提問 by 正瑋
    • Ch 12 - Effective Troubleshooting
      • Q: Troubleshooting 無法教導,只能靠累積經驗?
      • Q: Text logs are very helpful for reactive debugging in real time, while storing logs in a structured binary format can make it possible to build tools to conduct retrospective analysis with much more information. 這段的意思什麼?特別是其中的 structured binary format 是為什麼?
      • Q: 你們有類似急救檢傷分類的方式評估意外事故嗎?
      • Q: 你們有建立常見問題偵錯表、分析表,可以用來幫助事故處理者能夠用比較系統化的方式來幫助故障排除嗎?(提供理性解法,避免壓力導致誤判)
      • Q: 如何重現事故?
    • Ch 13 - Emergency Response
      • Q: 針對事故,會補測試來預防未來再次發生?
      • Q: 平常有在做事故演練嗎?Chaos Monkey?
      • Q: 除了書中的這三種案例(Test-Induced、Change-Induced、Process-Induced Emergency),你還有遇過其他案例嗎?
    • Ch 14 - Managing Incidents
      • Q: 事故的前、中、後,你們會做些什麼?(Rick 提供)
    • Ch 15 - Postmortem Culture
      • Q: 不咎責 / 對事不對人的文化?你有嗎?你們會獵巫嗎?
      • Q: 事後檢討報告,你們有建立這樣的制度嗎?或是透過其他的內部知識共享方式?

延伸閱讀