

來自支付寶的運維監(jiān)控經(jīng)驗
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??編輯:曉通宏志市場部
? ? ? 支付寶私有云中以業(yè)務為核心的監(jiān)控經(jīng)驗:
? ? ? 支付寶,除了常規(guī)的運維監(jiān)控和應用監(jiān)控,還有更多其他的訴求,如業(yè)務監(jiān)控、合作伙伴監(jiān)控和SOA環(huán)境監(jiān)控。
? ? ? 業(yè)務分析在支付寶的監(jiān)控體系中起著至關重要的作用:
? ? ? 實時BI——有時不是為了排查故障,而是為了確認沒有問題。
? ? ? 確定故障范圍——不同的業(yè)務特征,代表了不同的故障影響范圍;不同的影響范圍,應急人員有不同的策略。
? ? ? 業(yè)務與合作伙伴——比如銀行,單個銀行下跌,可能是銀行的問題;所有銀行下跌,可能是支付寶的問題。
? ? ? 業(yè)務與應用的關系——通過監(jiān)控不同的業(yè)務,可以快速定位故障。
? ? ? 業(yè)務與業(yè)務的關系——雖然沒有系統(tǒng)間的直接關系,但業(yè)務之間確實有可能會存在相互的影響。
? ? ? 業(yè)務與運維策略的關系——例如,確定機房引流,流量的分配。
? ? ? 業(yè)務與管控策略的關系——管控策略有很多,比如分組、降級、限流和引流,管控策略的制定和業(yè)務是息息相關。
? ? ? 很多公司都會采用在系統(tǒng)中埋點的做法進行監(jiān)控,而支付寶則采用了業(yè)務分析結合現(xiàn)象分析的做法來進行實時故障應急處理。埋點需要對所有服務器做埋點檢查,而故障的原因是無窮的,往往可以從現(xiàn)象癥狀上來判斷故障的原因。
? ? ? 此外,還有支付寶內(nèi)部基于日志的監(jiān)控解決方案。