一次用戶嚴重當機的急救場合當中,主要廠商的一位經理問道:系統會這麼無預警的突然當下來嗎?
問得好! (這當然是站在客戶立場的提問方式,好的問法,也是對自家頂級系統的表現的無奈質疑)
穩定度要求這麼高的重要系統,豈可在無半點徵兆的情況下「死當」(開起來還是當)?
我們且先來分析看看,何謂「無預警」和「突然」
預警主要有兩種方式:自動化和定期檢查
自動化通常是在「偵得異常狀況」或「某指標超過系統自設或管理者所設定的臨界值」時,以警示訊息通知負責人員處理
定期檢查則是以管理者基於「對系統特性的了解」與「對使用者狀況與變化的掌握」,從判讀系統的各項指標當中,預見潛在的問題,而著手調整預防
後者也是系統管理人員無可取代的價值所在
因為,自動化總有其極限,或未臻完善而待改進的地方
再說突然與否的問題
這其實是不精確的說法,因為人的時間尺度和電腦系統的可是差距十萬八千里
不過,儘管因人而異,大致上人們的感受是有一個平均值的,或說是常識
一個人如果纏綿病榻數月而後終,人們情感的醞釀預備期夠長,衝擊是不大的
若是昨天還來上班,今天就驚聞惡耗
人們走過他的辦公座位,看著凌亂的物品還定格於死者前一天回家前的情境,彷彿今天的行程還都鑲著他的名字
情感的容量不足以消化,太突然了
但是仔細追究起來,也許有些健康指標沒有定時監控、或間隔過長、或監控難度太高
若非意外事件,總是有跡可循
對於快速變化指標我們較易察覺
雖不易失算,但若變化的速度太快,常超過人們所能應付處理的速度
最容易被忽略的則是緩慢變化的指標
其要求相對應的長間隔監控,常令人們失去耐性,日久則輕忽怠忘
電腦的時間尺度則沒有這些效應,因此,系統必須自動化處理
如自體免疫機能般,是系統設計者要做的(如作業系統內建的 Health Checker)
對於細微複雜且與使用情境相關的,則需要足夠技術與敏感度的人的關照
這就是管理者可以努力的部份,也是晉用的系統管理人才必備的首要特質
勤學如春起之苗,不見其增,日有所長;輟學如磨刀之石,不見其損,日有所虧 -- 陶淵明
Add new comment