SHOPLINE 服務的商家遍佈全球,公司成員們也須不斷地精進自己,才能為商家創造更多成功的可能性,而以公司 HRBP(HR Business Partner)的視角出發,貼近觀察公司團隊的需求,發現 SHOPLINErs 都很積極地想要和更多公司與專業職人進行深度的交流,有鑑於此,「SHOPLINE 職人聊天室」系列活動就因而誕生啦!

本次主題的職人,其特色是在一個研發團隊當中,有一組團隊是你最可靠、最安心、最能夠信任的—「SRE」(Site Reliability Engineering),這一組團隊在研發團隊中扮演著保障系統穩定運行的關鍵角色,通過自動化、監控、故障排除等方式來實現這目標,讓研發團隊可以安心的在系統之上 Coding、揮灑、展現無限的可能。

活動當日我們邀請到兩位業界資深的 SRE 職人:SHOPBACK Lisa 與 MaiCoin smalltown 前來分享,同時也邀請我們的 SRE Rich 一起聊聊作為 SRE 在處理 Alert Management 的時候的辛酸血淚,超級真實、乾貨滿滿。

本次與談者合影,左為 smalltown、中間為 Rich、右為 Lisa
本次與談者合影,左為 smalltown、中間為 Rich、右為 Lisa

Rich 分享過往 SHOPLINE 在警報管理上遇到的幾個問題,包含看見警報卻無法有效率地得知是哪個服務發生問題、找不到正確的窗口、查修步驟難以傳承、響應及處理時間難以追蹤分析等等的問題。選擇建立警報管理相關的各種規範,並做好內部訓練工程,再搭配導入合適的工具,才能有效的幫助工程師快速找到問題所在,迅速抵達救援現場。

Rich 分享過往 SHOPLINE 在警報管理上層遇到的問題
Rich 分享過往 SHOPLINE 在警報管理上層遇到的問題

Lisa 分享在 SHOPBACK 的警報管理經驗中,過去踩過的痛點。包含無效的告警過多、嚴重性不明確等等,在優化調整過後的做法也讓大家獲益良多。其中特別提到過往可能我們會直覺去設置短時間內增加大量流量的告警,有次遇到的狀況是短時間內減少大量流量,結果警報管理系統中一片風平浪靜。特別提醒各位,大量增加要設置、大量減少也必須要考慮到的。

Lisa 分享在 SHOPBACK 的警報管理經驗中曾踩過的痛點
Lisa 分享在 SHOPBACK 的警報管理經驗中曾踩過的痛點

Smalltown 分享在建置警報系統的時候,應該要專注在四大區域:「警報的設計策略」、「解耦合監控系統」、「完善的輪調機制」、「持續改善的文化」等去著手,並且需要安排時間進行定期演練、檢查與更新,也提醒了自動化很好但也需要留意自動化的風險。搭配完善的輪調機制去設計更符合人性的安排,以及需要持續地推進良好的文化。鼓勵團隊把 Blameless 的精神融入在 Postmortem 當中。讓該起床的人起床、該被解決的問題被解決,電話不會一路打到 CTO 手機去。(笑)

Smalltown 分享在建置警告系統,應專注的四大區域
Smalltown 分享在建置警告系統,應專注的四大區域

在活動前我們收集了參與者的提問,簡單的把問題分成:

  1. SLO 與 Alert 制定
  2. 監控經驗
  3. 開發者與 SRE 的角色

在問與答的時候三位講者也分享了他們各自的觀點,現場聊得熱火朝天,相信大家在當日晚上都有滿滿的收穫。

SHOPLINE 職人聊天室 活動花絮
SHOPLINE 職人聊天室 活動花絮

總結

透過本次的 SHOPLINE 職人聊天室,對於職人們來說更多的是去了解各家公司因為成本、營運條件、市場與團隊規模、時區等考量,會各自有不同的告警系統設計的思維,但也因此了解到即便是設計思維的不同,在設置告警系統的目的與痛點卻是大同小異的。今年度還有幾場職人聊天室會在下半年逐漸展開,期待下回見到你的身影喔!

如果你也是 DevOps 人,也不斷地追尋成長和挑戰,SHOPLINE Cloud team 正在招募 Cloud Engineer 和 DBA!心動不如馬上行動,點擊以下連結查看職缺

另外也歡迎直接將履歷投遞至 HR 信箱:recruit.tw@shopline.com

你覺得文章有幫助到你嗎?

歡迎給我們評論唷!

5 / 5. 共有 5

可以留下你的評論讓我們知道

延伸閱讀

追蹤電商教室,趨勢新知報你知