任何計(jì)算機(jī)系統(tǒng)都有出現(xiàn)故障的時(shí)候,可能發(fā)生在測(cè)試階段,也可能發(fā)生在系統(tǒng)剛剛上線,還可能發(fā)生在已經(jīng)穩(wěn)定運(yùn)行很多年的系統(tǒng)上,又可能發(fā)生在系統(tǒng)一個(gè)小小的升級(jí)之后。而這些系統(tǒng)出現(xiàn)故障所帶來(lái)的負(fù)面影響則可大可小,小到一個(gè)終端的軟件無(wú)法使用,大到整個(gè)系統(tǒng)癱瘓,所有業(yè)務(wù)不能辦理。由此便有了IT故障處理分級(jí)的運(yùn)作形式,將問(wèn)題或故障做到先后有序,將IT運(yùn)維故障劃分為普通、急、緊急……依靠這套省力的約定建立故障處理流程,是解放IT支持部門(mén)最有效的法則。
當(dāng)計(jì)算機(jī)故障升級(jí)到“核災(zāi)難”
佩特羅夫是原蘇聯(lián)一位年輕軍人、計(jì)算機(jī)工程師。1983年9月26日晚上,他正在莫斯科附近的某個(gè)導(dǎo)彈中心值班,他回憶說(shuō):“忽然,我面前的計(jì)算機(jī)屏幕變成了刺眼的紅色,刺耳的警報(bào)聲也隨之響起,聲音大得簡(jiǎn)直能把死人都從墳?zāi)估飮樞?。這是計(jì)算機(jī)預(yù)警系統(tǒng)發(fā)出美國(guó)向蘇聯(lián)實(shí)施核進(jìn)攻的警報(bào),美國(guó)人向我們發(fā)射核武器了!”一般人認(rèn)為,計(jì)算機(jī)按事先編制的程序工作,它提供的信息應(yīng)是絕對(duì)可靠的,計(jì)算機(jī)不會(huì)玩花招,但這次出現(xiàn)的情況卻不是這樣。警報(bào)還在不斷地響,佩特羅夫沒(méi)有被嚇呆,而是在積極思考。根據(jù)他掌握的情況來(lái)判斷,他認(rèn)為,美國(guó)沒(méi)有理由在當(dāng)時(shí)對(duì)蘇聯(lián)發(fā)動(dòng)核攻擊,唯一的可能是計(jì)算機(jī)出錯(cuò)。導(dǎo)彈中心接到佩特羅夫的報(bào)告后,急如星火地派人對(duì)計(jì)算機(jī)進(jìn)行緊急檢修。結(jié)果證明,錯(cuò)誤警報(bào)的發(fā)出完全是由計(jì)算機(jī)的故障造成的,計(jì)算機(jī)在這起故障中,充當(dāng)了挑起核戰(zhàn)爭(zhēng)的罪魁禍?zhǔn)住?
上面這個(gè)真實(shí)存在的計(jì)算機(jī)故障被列為IT界十大故障之首。雖然這起故障最終沒(méi)有引發(fā)全世界的“災(zāi)難”,但是不是今后的數(shù)十年之后,就會(huì)完全避免此類(lèi)事件發(fā)生呢?這引起了我們深深地思考。
作為IT運(yùn)維產(chǎn)品和服務(wù)提供商的北塔軟件認(rèn)為:“無(wú)論從技術(shù)角度出發(fā),還是就業(yè)務(wù)角度而言,我們都需要對(duì)經(jīng)常發(fā)生的IT故障進(jìn)行各種考慮和權(quán)衡。在看起來(lái)似乎無(wú)法立即解決所有故障的情況下進(jìn)行正確的權(quán)衡,則是IT運(yùn)維人員成功的關(guān)鍵。這意味著要首先確定有哪些系統(tǒng)出現(xiàn)問(wèn)題,會(huì)波及到核心業(yè)務(wù)的停滯范圍,以及理解并確定如何在出現(xiàn)故障的時(shí)候按照緊急度權(quán)衡,從而避免影響面最大的災(zāi)難事件發(fā)生。”
北塔軟件的技術(shù)專(zhuān)家以一家正在實(shí)施BTIM IT綜合管理系統(tǒng)的銀行IT系統(tǒng)為例,為我們說(shuō)明了故障和災(zāi)難的區(qū)別。例如,對(duì)于一般的電腦系統(tǒng)故障,信科部或業(yè)務(wù)部門(mén)通過(guò)通常的措施(如激線、重組、重起、切換、脫機(jī)交易、沖證等)在短時(shí)間內(nèi)能夠恢復(fù)對(duì)外的服務(wù),對(duì)銀行業(yè)務(wù)和客戶利益沒(méi)有造成重大影響,此類(lèi)事件稱(chēng)之為故障。如果信息中心發(fā)生嚴(yán)重故障,導(dǎo)致管轄內(nèi)大部分或全部的業(yè)務(wù)無(wú)法進(jìn)行,且在一天內(nèi)仍無(wú)法恢復(fù)正常對(duì)外服務(wù),此類(lèi)故障則要稱(chēng)之為“災(zāi)難”了。