- 相關(guān)推薦
企業(yè)運維系統建立初探
【摘要】隨著(zhù)IT技術(shù)在企業(yè)的應用,很多企業(yè)已經(jīng)建立了核心業(yè)務(wù)系統,企業(yè)的運作已經(jīng)離不開(kāi)IT系統了。如何保障信息系統安全可靠的運行已成為企業(yè)最為關(guān)注的題目,而傳統的運行維護治理模式已經(jīng)不能適應目前環(huán)境下業(yè)務(wù)的需求。因此對IT系統需要一套治理系統來(lái)支撐,這就是運行維護系統。【關(guān)鍵詞】運維系統 運維服務(wù) IT技術(shù)
一、背景說(shuō)明
隨著(zhù)IT技術(shù)在企業(yè)的應用,很多企業(yè)已經(jīng)建立了核心業(yè)務(wù)系統,如ERP、OA、數據倉庫等,業(yè)務(wù)策略驅動(dòng)IT策略的建立,IT策略支持業(yè)務(wù)策略,由此,很多企業(yè)的運作已經(jīng)離不開(kāi)IT系統了,因此任何一個(gè)故障造成的損失,影響面是比較大,甚至影響整個(gè)企業(yè)的業(yè)務(wù)。而傳統的運行維護治理模式比較被動(dòng), 即只有當系統出題目時(shí), 才會(huì )引起留意和得到解決, 或者當業(yè)務(wù)受影響, 并被業(yè)務(wù)部分匯報投訴,才發(fā)現題目。 這種治理模式已經(jīng)不能適應目前環(huán)境下業(yè)務(wù)的需求。
其次,從生命周期的角度看,無(wú)論是硬件還是軟件,大致可分為規劃和設計、開(kāi)發(fā)和測試、實(shí)施、運營(yíng)和終止等5個(gè)階段。前面3階段從時(shí)間的角度看,只占生命周期的20%,其余80%的時(shí)間基本上是運維服務(wù),假如整個(gè)IT的運維做得不好,那么這些花費大筆投資建立起來(lái)的系統,無(wú)法帶來(lái)預期的效益,甚至于無(wú)法使用,由于使用者無(wú)法順利使用他們。
根據Gartner Group調查發(fā)現,在經(jīng)常出現的題目中,源自技術(shù)和產(chǎn)品方面的實(shí)在只占了20%,流程失誤占40%,職員疏失占40%。流程失誤包括變更治理沒(méi)有做好、超載、沒(méi)有測試等流程上的失誤或不完整,職員疏失包括遺忘、練習不足、備份錯誤及安全疏忽等。這就說(shuō)明IT運維方面的題目,更多的不是技術(shù)題目,而是來(lái)自治理方面,因此對IT系統需要一套治理系統來(lái)支撐,這就是運行維護系統。
二、信息系統運行維護面臨的挑戰
一般信息系統架構的層次如下:
由此,我們可以看到,為了保證應用系統的可用性,不但要保證應用程序本身的正確性和健壯性,同時(shí)還要保證從網(wǎng)絡(luò )到應用程序端到真個(gè)可用性,為此,從運行維護的角度來(lái)看,必須從整體的角度來(lái)規劃,對與應用系統相關(guān)的IT基礎設施、支撐平臺進(jìn)行集中監控,并與應用系統進(jìn)行關(guān)聯(lián),一旦出現故障,可以迅速定位并解決;同時(shí)定義相關(guān)的流程保證一個(gè)應用的變更不會(huì )對其他應用產(chǎn)生影響,對出現的題目從根源上找出原因,并進(jìn)行解決,從而保證系統的高可用性;诒救藢T服務(wù)治理的理解,基于ITIL的框架,提出運行維護系統建立的一些想法。
三、運行維護系統的設計
那么如何設計IT運行維護系統呢?主要從兩方面著(zhù)手,一是治理流程的設計,二是系統監控的設計。在治理流程方面,目前ITIL(IT Infrastruct Library)基本上成為事實(shí)上的標準,它是最佳實(shí)踐的結晶;在系統監控方面包括從IT基礎設施應用系統進(jìn)行監控,并實(shí)現事件的關(guān)聯(lián),以實(shí)現主動(dòng)的監控,實(shí)現故障的快速定位和預警,下面具體說(shuō)明。
。ㄒ唬┻\維系統的設計理念
運維系統的設計理念基于ITIL-IT服務(wù)治理框架,ITIL 將IT 服務(wù)治理分為:
●信息和通訊基礎框架治理,這部份將更側重于技術(shù)視角。
●服務(wù)治理,包括“提供IT 服務(wù)” 和“支持IT ”服務(wù)兩部分,關(guān)注在提供IT 服務(wù)過(guò)程中,監控,治理,處理解決題目的整個(gè)過(guò)程。
●面向業(yè)務(wù)的治理,將從業(yè)務(wù)的視角來(lái)看治理,將治理IT 服務(wù)與IT 服務(wù)所支撐的業(yè)務(wù)關(guān)聯(lián)。
1. 信息和通訊基礎框架治理
IT 基礎框架的智能治理是服務(wù)保障的基礎,應該是一個(gè)可以全面治理IT 基礎框架中所有產(chǎn)品和技術(shù)的平臺,并通過(guò)提供以下能力達到真正的業(yè)務(wù)價(jià)值、真正的投資回報、保障安全生產(chǎn),進(jìn)步服務(wù)水平。
IT 基礎框架的智能治理將覆蓋企業(yè)IT環(huán)境,提供包括廣域網(wǎng),局域網(wǎng),主機接進(jìn)網(wǎng)絡(luò ),網(wǎng)絡(luò )安全設備,Internet 服務(wù)的全方位的IT 從網(wǎng)絡(luò )到系統,應用,業(yè)務(wù)的監控治理,以及面向IT運維的事件壓縮,事件相關(guān)性分析,故障診斷,根源故障分析,自動(dòng)化的故障處理等一系列功能和工具。
2. 服務(wù)治理
今天,正進(jìn)行著(zhù)服務(wù)治理的革命。幾乎所有企業(yè)的IT 部分都正在向面向業(yè)務(wù)的服務(wù)提供者的轉變。IT部分就像一個(gè)合作伙伴一樣參與到企業(yè)的業(yè)務(wù)過(guò)程,主動(dòng)的提供服務(wù)職能,并向它的客戶(hù)-業(yè)務(wù)部分負責。
ITIL 將企業(yè)的IT 服務(wù)治理分為:
提供IT服務(wù),關(guān)注在提供IT 服務(wù)過(guò)程中和治理行為和手段;
支持IT 服務(wù), 關(guān)注在支持IT 服務(wù)過(guò)程中,處理題目,變更等的動(dòng)作和流程。
。1)提供IT 服務(wù)
提供IT 服務(wù)包括:制定規劃,為業(yè)務(wù)部分按計劃和服務(wù)質(zhì)量提供服務(wù)
保障提供服務(wù)的持續性。
在服務(wù)提供體系實(shí)現的主要任務(wù)是:
■服務(wù)水平治理
■可用性治理
■容量治理
■本錢(qián)治理
■應急方案
。2)支持IT 服務(wù)
支持IT 服務(wù)包括:為達到服務(wù)目標提供相關(guān)治理信息。為實(shí)現服務(wù)目標提供相應的支撐機制。
服務(wù)支持體系實(shí)現的主要任務(wù)是:
■配置治理
■幫助臺治理
■題目治理
■變更治理
■軟件控制和分發(fā)治理
3. 面向業(yè)務(wù)的治理
面向業(yè)務(wù)的IT 治理是從客戶(hù)視角的端到端服務(wù)監控治理,它的特點(diǎn)是:
提供直觀(guān)的監控視圖,能夠實(shí)時(shí)判定通訊和IT 基礎框架故障對業(yè)務(wù)的影響;
在發(fā)生影響業(yè)務(wù)的故障時(shí),IT服務(wù)保障部分能夠最快的獲知題目的發(fā)生,并迅速采取行動(dòng);
根據故障對業(yè)務(wù)的影響情況,決定處理的優(yōu)先級;
當業(yè)務(wù)服務(wù)發(fā)生題目時(shí)能夠確定故障所在的基礎框架層次;
通知相關(guān)客戶(hù)服務(wù)系統或大客戶(hù),告知題目的狀況和解決進(jìn)展;
面向客戶(hù)業(yè)務(wù)服務(wù),提供基于Web 的多種視圖,包括端到端服務(wù)監控層次模型,和監控構成服務(wù)系統的各個(gè)組件;
面向業(yè)務(wù)治理的宗旨是通過(guò)全面的業(yè)務(wù)系統和IT 框架系統監控,增強治理,進(jìn)步治理水平,并終極保障業(yè)務(wù)的成功運行。實(shí)現IT基礎框架端到真個(gè)監控和與業(yè)務(wù)的關(guān)聯(lián)。
。ǘ┻\維系統的設計目標
●確保IT流程支撐業(yè)務(wù)流程, 整體進(jìn)步業(yè)務(wù)運營(yíng)的質(zhì)量。
●進(jìn)步用戶(hù)的滿(mǎn)足度, 提升企業(yè)的社會(huì )效益和經(jīng)濟效益。
●實(shí)時(shí)實(shí)現對從IT的基礎架構到應用系統的端到真個(gè)運行情況進(jìn)行監控。
●提供從業(yè)務(wù)角度分析IT基礎設施(包括系統、網(wǎng)絡(luò )、數據庫、應用服務(wù)器)的能力。
●建立完善的支持服務(wù)流程和支持模式。
●建立滿(mǎn)足服務(wù)水平要求的服務(wù)水平治理。
。ㄈ┗贗TIL的理念建立規范的處理流程
在ITIL中要建立很多治理流程,在實(shí)際應用中,我覺(jué)得至少需要建立下面幾個(gè)流程:
。1)題目治理
建立并應用題目處理程序,以實(shí)現對題目診斷和確定解決題目的方案, 并將解決方案記錄在配置數據庫中,針對服務(wù)水平治理確定并實(shí)現內部的題目升級時(shí)間標準。
。2)資產(chǎn)治理
對于天天發(fā)生的事件, 題目, 變更處理, 新服務(wù)的配置, 各個(gè)組件的信息,資產(chǎn)治理的職責就是提供和維護這些信息, 它是與服務(wù)治理相關(guān)的最重要的任務(wù)之一。
。3)Help Desk治理
擔當服務(wù)中與業(yè)務(wù)部分和客戶(hù)的主要接觸點(diǎn)(point-of-contac)。存儲事件, 確定題目嚴重級別, 綜合支持團隊的努力, 確保及時(shí)正確地解決題目, 并提供SLA統計, 證實(shí)能夠達到預期的服務(wù)級別。
。4)變更治理
保證清楚的了解變更針對一個(gè)服務(wù)中任何組件的影響, 并保證對服務(wù)水平的影響最小, 變更治理包括SLA文檔和服務(wù)目錄的變更, 以及組織變更和針對軟件和硬件的變更。
。5)故障治理
故障治理的主要目標是盡可能快地恢復服務(wù)至服務(wù)級別協(xié)議(SLA)要求的水準,盡可能減少故障對服務(wù)運營(yíng)的不利影響,以確保最好的服務(wù)質(zhì)量和可用性級別。
。ㄋ模┻\維系統的組成
在一般的運維系統中,需要一個(gè)大房間,在大房間中分成以下幾個(gè)部分,每個(gè)部分都扮演相應的角色:
第一層:大屏幕分別顯示有,基于業(yè)務(wù)的視圖,基于IT基礎架構的視圖,基于網(wǎng)絡(luò )的視圖,當故障出現時(shí)能夠以特定的顏色顯示出來(lái),同時(shí)可以顯示一些公司需要直觀(guān)顯示的數據。
第二層:服務(wù)臺(Help Desk),主要提供:
●接受客戶(hù)的請求
●提供客戶(hù)使用上的題目咨詢(xún)
●提供客戶(hù)業(yè)務(wù)咨詢(xún)
●記錄并跟蹤故障和客戶(hù)意見(jiàn)
●根據知識庫,盡快解決題目
●及時(shí)通知客戶(hù)其請求確當前狀況和最新進(jìn)展
●根據服務(wù)級別協(xié)議,初步評估請求,經(jīng)歷解決它們或安排給一線(xiàn)工程師解決
●對客戶(hù)的故障從提出到驗證及終止的整個(gè)過(guò)程進(jìn)行治理
●協(xié)調一線(xiàn)工程師和值班工程師
第三層:一線(xiàn)支持工程師
●根據提供的監控界面迅速定位題目并解決
●對于臨時(shí)的解決辦法,還要把故障提交給題目處理流程
●根據服務(wù)級別,在題目未能及時(shí)解決時(shí)及時(shí)把題目提交給值班經(jīng)理
第四層:值班經(jīng)理個(gè)人
●協(xié)調技術(shù)專(zhuān)家,根據服務(wù)協(xié)議的時(shí)間要求,解決題目
●協(xié)調供給商,根據維護協(xié)議要求,解決題目
。ㄎ澹┻\維系統的功能設計
基于ITIL設計理念,我們把ECC的實(shí)時(shí)監控部分設計成層次架構,如下圖:
1. 事件采集層
在最基本的層次上,需要從被治理的IT基礎設施中獲取廣泛的,實(shí)時(shí)的數據,能夠從網(wǎng)絡(luò )、系統和應用層中捕捉、匯聚并處理大量數據的能力,我們通常稱(chēng)之為事件治理。
事件治理是整個(gè)面向服務(wù)治理系統的核心,在數據采集階段(包括網(wǎng)絡(luò )、系統和應用層)采集的信息,只有經(jīng)過(guò)事件治理服務(wù)器,轉變?yōu)橥坏母袷,再流進(jìn)智能化的治理層,實(shí)現事件的相關(guān)性分析。
數據采集層是整個(gè)治理系統進(jìn)行信息處理和智能化分析的基礎,因此需要充分獲得正確、實(shí)時(shí)、完整的治理數據。在數據采集層,應該進(jìn)行原始數據的過(guò)濾、分類(lèi)、分級等預處理操縱,從中提煉出重要的治理信息。數據采集層獲取信息的實(shí)時(shí)和正確性,以及對原始信息的預處理能力,將在很大程度上影響整個(gè)治理系統的治理能力和效率。
2.事件處理層
數據收集僅僅是實(shí)現業(yè)務(wù)和通訊及IT基礎框架治理的基礎,需求最簡(jiǎn)單的先決條件。實(shí)現真正的基礎框架智能化意味著(zhù)能夠從整個(gè)基礎框架產(chǎn)生的大量數據中,通過(guò)采用一系列先進(jìn)的過(guò)濾,事件壓縮,關(guān)聯(lián)和診斷的技術(shù)進(jìn)行處理,抽取治理職員需要關(guān)注的重要信息。好的基礎框架監控治理系統能夠將網(wǎng)絡(luò )以至IT系統的專(zhuān)業(yè)化知識融進(jìn)在治理系統中,根據基礎框架層各組成資源的特點(diǎn),從原始的治理數據中智能分析系統的真實(shí)狀況,判定資源實(shí)際的運行狀態(tài),分析故障發(fā)生的根源并提出解決建議,使運維職員解決題目更加正確和有效。一般包含以下功能:
。1)事件的存儲
將運行維護數據與歷史數據分開(kāi)存儲, 以確保治理的效率. 一般治理信息需要保存6個(gè)月甚至更長(cháng)的數據, 以進(jìn)行統計分析和存檔, 而在日常運行治理中, 一般只需要查看最近一周甚至更短的信息, 一般采用運行數據與實(shí)時(shí)數據分開(kāi)存儲, 運行數據采用高速的內存數據庫保證事件處理的實(shí)時(shí)性, 歷史數據采用穩定的關(guān)系型數據庫保證事件存儲的可靠性和容量,這種結構使事件的處理更加公道。
。2)事件壓縮
IT資源事件中有很多重復事件, 尤其在系統組件不穩定時(shí), 有可能會(huì )產(chǎn)生事件風(fēng)暴。過(guò)多的事件會(huì )使治理員的桌面上羅列大量事件條目,治理員無(wú)法獲取真正需要關(guān)注的重要事件,因此對重復事件進(jìn)行合并使事件條目清楚, 幫助治理員快速找到需要處理的故障是非常重要的。重復事件壓縮就是這樣的一個(gè)過(guò)程: 通過(guò)將從下層數據源所報告的相似事件加以匯總,合并成一條事件,該事件的內容包含了該事件重復的次數以及發(fā)生的起止時(shí)間。
。3)事件自動(dòng)化處理
可以對各類(lèi)事件信息進(jìn)行邏輯判定, 并做出相應的動(dòng)作, 如及時(shí)刪除不必要的信息、完成不同事件之間的關(guān)聯(lián)、對嚴重事件采用明顯的聲音報警、自動(dòng)升級警告級別假如嚴重事件在一段時(shí)間內沒(méi)有人響應、發(fā)送郵件進(jìn)行自動(dòng)通知等等。
。4)可用性的計算方法
根據故障樹(shù)分析FTA(Fault Tree Analysis)方法,結合可用性的計算方法,來(lái)計算服務(wù)的可用性。
組件可用率的計算方法:組件可用率 = (AST-DT)/AST*100%
AST——約定服務(wù)時(shí)間(Agreed service time)
DT——在約定時(shí)間內的實(shí)際停機時(shí)間(Actual downtime)
。5)可用性的評估指標
通常我們采用下面幾個(gè)指標來(lái)對可用性進(jìn)行評估:
、倬鶆驘o(wú)故障時(shí)間(MTBF-Mean Time Between Falures),它指的是從某次事故修復到下次事故發(fā)生之間的均勻間隔時(shí)間,又稱(chēng)為正常運營(yíng)時(shí)間(Uptime),它是用來(lái)描述服務(wù)的可靠性。
、诰鶆蛐迯蜁r(shí)間(MTTR-Mean Time To Repair),它指的是事故發(fā)生到服務(wù)恢復之間的均勻間隔時(shí)間,又稱(chēng)為停機時(shí)間(Downtime),它是用來(lái)描述服務(wù)的可維護性和適用性。
3.業(yè)務(wù)關(guān)聯(lián)層
業(yè)務(wù)影響分析, 基于CFIA等分析法,定義事件和業(yè)務(wù)系統的關(guān)聯(lián)關(guān)系, 自動(dòng)找到故障所影響的業(yè)務(wù)和服務(wù), 并根據關(guān)聯(lián)結果創(chuàng )建新的服務(wù)事件報警。
4.呈現層
提供基于Web方式的監控視圖, 可以為不同的治理職員提供不同的監控窗口, 以實(shí)時(shí)監控相關(guān)的事件信息, 事件窗口可以通過(guò)分組顯示不同類(lèi)型、級別、源、時(shí)間段內的事件信息, 治理員可以一目了然的看到目前是否有事件發(fā)生, 級別如何, 并對事件進(jìn)行一系列的處理工作。
5.報表處理層
各種監控信息存儲在關(guān)系數據庫中,可以利用報表工具進(jìn)行信息統計分析,天生各種格式的報表。
報表應用可以與實(shí)時(shí)故障監視環(huán)境實(shí)現無(wú)縫集成,為運維提供一種長(cháng)期的綜合視圖。報表應用幫助治理職員了解其各種基礎設施在各種不同期間的行為特點(diǎn),從不同設備、系統和服務(wù)的層次上對各種基礎架構的長(cháng)期行為特點(diǎn)進(jìn)行查看和分析。
。┻\維系統的設計要求
1.基于ITIL框架設計, 結構先進(jìn)
運維系統的設計要求基于ITIL的框架, ITIL的框架是最佳實(shí)踐的結晶。
2.可擴展性
假如需要一個(gè)新的展示層或者事件關(guān)聯(lián),必須能夠無(wú)縫擴充或集成到現有的治理框架中。為了保證隨著(zhù)系統架構的延伸擴展而產(chǎn)生的越來(lái)越多的事件信息的處理性能,在任意一個(gè)層次增加都不會(huì )影響整體框架結構。
3.集成性
集成企業(yè)現有以及未來(lái)可能要擴充的設備和治理系統。假如需要增加新的監控對象,則最多只需簡(jiǎn)單地增加一個(gè)探針,或增加一個(gè)新的關(guān)聯(lián)層 。
4.集中化
已經(jīng)處理的事件(重復壓縮和事件關(guān)聯(lián))集中在一個(gè)地方。因此治理員可以共享整個(gè)系統的事件信息。
5.關(guān)聯(lián)
由于事件關(guān)聯(lián)功能在整個(gè)系統治理中是分布的,因此為一個(gè)新服務(wù)增加新的事件關(guān)聯(lián)是非常輕易的。
6.冗余
數據顯示層和關(guān)聯(lián)層的設計將考慮冗余設計,當任何一個(gè)服務(wù)器失敗,數據采集層的探針將會(huì )自動(dòng)切換到另一個(gè)服務(wù)器。
綜上所述,運維系統的設計,主要從兩個(gè)方面來(lái)實(shí)現,一是治理流程的設計,二是系統監控的設計,通過(guò)上面的描述,我們看到,系統監控的作用:當系統出現故障時(shí)通過(guò)對系統各個(gè)層面的監控以及事件的關(guān)聯(lián),能夠保證快速定位故障,從而快速解決故障,使得故障對業(yè)務(wù)的影響降到最小,同時(shí)通過(guò)對系統性能的監控,進(jìn)行預警,可以做到防范于未然,防范故障于萌芽狀態(tài),保證系統的可用性;而規范的治理流程,保證所有的題目在每一個(gè)階段得到有效的處理。
【企業(yè)運維系統建立初探】相關(guān)文章:
建立民營(yíng)高科技企業(yè)的激勵體系初探03-25
建立我國個(gè)人破產(chǎn)制度的法律初探03-25
建立實(shí)時(shí)企業(yè)的策略分析03-20
企業(yè)業(yè)績(jì)評價(jià)體系初探03-22
企業(yè)環(huán)境成本管理初探03-20
零售企業(yè)維系顧客忠誠策略研究03-22
建立企業(yè)存貨內部控制淺析03-19
如何建立企業(yè)的質(zhì)量方針03-21
企業(yè)推行全面預算管理初探03-07