首頁| 滾動| 美人潭| 百聞| 飯局| 房產| 汽車| 財經| 旅游| 教育| 生活| 文娛| 政務| 貼吧| 開封| 洛陽| 南陽| 許昌| 信陽| 平頂山| 濮陽| 三門峽| 鶴壁| 安陽| 商丘| 新鄉
“這些年大家都在談數字化轉型,但大家關注的核心焦點在建設上。怎么理解這句話?比如一家傳統企業要數字化轉型,會引進很多數字化系統、手段,例如上云,利用大數據、IOT驅動業務轉型升級。
但企業實現數字化后,會擁有上百個系統,很容易出現緩慢、崩潰現象,面臨很多挑戰。其次,企業在運維管理方面養了好幾十人的運維團隊,工作量很大,但管理模式過于傳統,效率很低。所以,這時候企業才開始用人工智能的手段來變革運維領域,解決企業各種系統運行問題。
云智慧總裁劉洪濤
不過,目前,大多數企業客戶還屬于上云,上系統的階段,還沒考慮到系統維護、運維的階段。這也是為什么企業IT領域,IT運維發展滯后的原因。”云智慧總裁劉洪濤說道。
云智慧成立于2009年,是一家全棧智能運維解決方案服務企業。今年6月,云智慧完成了由華山資本領投,紅杉資本中國基金、水木投資和浙民投/浙江絲路基金跟投的 2500 萬美元 D 輪投資。
數字化時代,傳統IT運維管理的機遇與挑戰
目前,我國IT服務發展已經進入到相對穩定的增長階段,有著極為可觀的市場前景。據相關數據統計,2017年中國IT服務市場規模為6077.7億元,同比增長16.2%,預計未來四年將保持13.8%年復合增長率,到2021年整體市場規模將突破萬億大關。
與此同時,越來越多的高科技企業加入到數字化轉型大軍中,而IT服務市場的競爭格局也發生著變化,優質IT服務企業開始進入大眾視野。
然而,在移動化、大數據、云計算、人工智能等新技術的推動下,企業的 IT技術架構悄然變遷,從傳統“IOE架構”走向“互聯網架構”。互聯網架構所涉及的網元數、技術棧、服務數等元素成倍劇增,使得運維壓力越來越大。
劉洪濤告訴i黑馬&數字觀察,企業一方面享受著數字技術帶來的創新成果,一方面卻又有意無意的忽略了IT自身的潛在風險,不能在IT出現問題的第一時間發現,并作出有效應對。
首先,從C/S架構到B/S架構,再到移動化的APP和小程序,加上云計算、物聯網、邊緣計算等技術的應用,企業IT架構越來越龐大,運維工作變得越來越復雜。
“一直以來,IT部門的職責局限于維護系統的穩定運行,鮮少與業務運行指標掛鉤,當業務出現波動后再從海量日志、監控數據中排查原因,往往已經造成難以彌補的損失。”
其次,龐大的數據量也是運維工作面臨的巨大挑戰。很多大型企業的服務器數量就達到上萬臺,每時每刻產生海量的數據,這些數據里還藏著大量關鍵信息,比如某系統的日志數據不正常,可能造成未來數小時整個業務流程的緩慢,甚至中斷。
第三,過去受限于技術和人力等方面原因,IT系統一旦出現故障,需要手工排查問題,效率非常差。
“科技進步推動IT從標準化、自動化向數字化、智能化轉變。如此高速發展、競爭激烈的經濟環境中,企業必須重新審視IT與業務的關系,否則就會被行業領先者和互聯網創新企業所淘汰。
與此同時,IT運維的角色正在發生根本性轉變,從默默無聞的支撐者變成業務運行不可或缺的賦能者。而智能運維(AIOps)作為AI、大數據技術與IT運維融合的產物,也成為傳統企業數字化轉型的必然選擇。”
智能運維是理念和策略,數據是基礎
2016年,Gartner首次提出智能運維(以下簡稱AIOps)概念。
在Gartner的《Market Guide for AIOps Platforms》報告中對AIOps做出了定義:AIOps平臺是結合大數據、人工智能(AI)或機器學習功能的軟件系統,用以增強和部分取代廣泛應用的現有IT運維流程和事務,包括可用性和性能監控、事件關聯和分析,IT服務管理以及運維自動化。
總的來說,與傳統IT運維相比,智能運維具有無可比擬的優勢。過去受限于技術和人力等方面原因,IT系統一旦出現故障,便需要大量資源手工排查問題,效率非常差。
智能運維不但有效減少告警的誤報率和錯報率,通過交易鏈自動追蹤和故障根因分析,幫助運維第一時間發現問題根源,并把故障的排查和修復時間縮短到數個小時。
舉個例子,一家大型企業可能有數百套IT系統,過去,出現故障后,如果依靠人力逐一排查,大概需要一周的時間。而使用智能運維平臺,不但有效減少告警的誤報率和錯報率,通過交易鏈自動追蹤和故障根因分析,能夠把故障的排查和修復時間縮短到數個小時。
在劉洪濤看來,智能運維并不是一個全新的理念,而是IT運營分析/運維管理(ITOA/ITOM)體系與大數據和人工智能技術結合的產物。
AIOps智能運維平臺以ITOM/ITOA系統所采集的運維大數據為基礎,利用人工智能和機器學習算法對運維數據進行深入分析,涵蓋IT監控,應用性能管理、外網監控、日志分析,系統安全等方面。
前幾年大家對AIOps爭論非常大,都在講自己對AIOps的定義與理解,以及接下來AIOps發展方向。當時對其爭論的方向有這幾個:第一類,AIOps是自動化運維,就是我們要把Ops消滅掉,通過自動化運維方式,用機器去取代人。第二類,利用智能化的手段,替代高重復性的工作,全程自動化、智能化操作。
第三類是我們理解的AIOps,AIOps的核心在于企業解決的不是運維的問題,而是如何提高運維效率,解決如何支持業務的問題。
“對于AIOps,我們的觀點是,第一,與其說AIOps是產品,不如說這是一種理念和策略。通過以數據為基礎,場景為導向,算法為支撐的AIOps平臺,為企業現有運維管理工具和管理體系賦予統一數據管控能力和智能化數據分析能力,全面提升運維管理效率。
第二,現階段AIOps的目標不是NoOps,而是BetterOps,通過更高效的運維幫助企業快速洞察人力難以企及的故障和問題,準確預測風險,化被動運維為主動運維。
可以這么理解,企業IT運維服務商,要幫助企業客戶把運維問題消滅在內部,讓使用者還沒有發現問題之前,運維系統已經把問題解決掉了,感受不到運維的存在,做到無感知的運維。就像我們在使用微信一樣,我們不會感覺微信背后有一個運維團隊存在,雖然它偶爾會出故障,但極少,他們的運維的工作做得非常多,才能實現這點。
第三,AIOps的基礎是什么?我們認為是數據。“因為AIOps需要收集企業內部系統、外部系統、第三方的各種數據,匯集到一起,通過AI的方式進行分析和處理,幫助企業運維人員用正確的運維動作和管理方式,提升整體的運維效率。”
總的來說,把日常的IT管理工作移交給擁有機器學習和自動化運維能力的智能運維平臺,大大降低企業管理的時間成本和人力、資金投入。
而運維管理人員也可以從篩查海量告警信息、執行重復性巡檢任務、人工判斷故障、手動解決問題的低效工作中釋放出來,專注于構建更加高效、高擴展的IT系統,支持企業的數字化業務發展,這也就是業界所倡導的“IT從運維到運營”之路。
AIOps智能運維平臺還能有效預測潛在的IT故障,并在無需人為干預的情況下提前解決掉這些問題,而應用系統故障率的降低,將有效提高云計算資源的使用效率。這得益于機器學習和深度學習算法在IT監控和應用性能管理系統中的持續積累,不斷記錄IT運維人員在不同場景下使用故障排除或修復基本問題的自動化工具的操作。
劉洪濤認為,企業采用AIOps的能力不僅取決于IT監控系統的數據規模和自動化系統的可用性,還取決于人員和流程的一致性。
服務商可以在很短時間內把AIOps智能運維平臺部署到企業,但是任何管理轉型都不是安裝一套系統那么簡單,需要根據業務特點對人員和流程進行調整,而這往往需要更多的時間。
那么,一個完整的AIOps智能運維平臺具備哪些要素呢?
劉洪濤指出,首先,這個平臺要具備完整的數據采集和數據處理能力,可以收集企業的多維度數據,并且聚合到一起,這是基礎。
其次,在具有海量數據基礎之上,平臺要具備AI能力,這個能力不是隨便一個算法就能解決的,是針對運維領域的算法能力。
第三,就是對客戶的業務要有充分和深度的理解。“我們知道,不同的行業,不同的公司,業務屬性都不同,服務商需要依據客戶的具體業務和應用場景,提供最佳實踐的解決方案,而不是一個標準化的產品。
基于此,我們要了解不同行業的特性,不同企業客戶的業務,對其業務要有深度的理解,進而針對他們的需求,提供個性化解決方案。
總的來說,我們的目標就是,一方面,要追求解決方案的標準化,要把很多需求做到模塊化,方便客戶調用。另一方面,對客戶的業務要有深刻的理解,針對不同的客戶,提供不同的模塊產品組合,滿足其業務需求。”
基于對客戶的理解,從單一產品到解決方案延展
i黑馬&數字觀察了解到,2009年的時候,很多中小互聯網企業的監控能力有限,Zabbix、Nagios等絕大部分監控工具提供的都是內網監控,只能監測內部服務器的運行狀態,當外網出現問題或監測服務器宕機了,就無法收到任何告警信息,往往要等憤怒的用戶打來投訴電話,運維工程師才知道網站或服務又不可用了。
云智慧看準時機,面向中小型互聯網用戶推出主動式撥測的網站監控SaaS服務——監控寶,這是一個簡單、易用,基于外網監控的工具,它不需要有過多的投入,就能迅速發現問題。監控寶恰好滿足了當時網站互聯互通的需求痛點,用戶增長相當快,2014年用戶已達18萬。
雖然監控寶做得非常成功,但是,大部分客戶都是小微企業,付費意愿不強,無法滿足云智慧進一步發展的需求。再加上,2014年移動互聯網的爆炸式發展,行業對APM的需求日趨火爆,云智慧順勢推出了APM應用性能管理平臺透視寶。
“當時我們發現,基礎監控是客戶最底層、最基礎的運維需求,再往深入的看,就進入代碼層面,叫應用監控,這就是后來我們所說的APM。”
據悉,APM和監控寶很大的不同在于它能夠服務大中型企業,解決的是復雜的IT系統性能問題。當時有三家公司同時進入這個對技術門檻要求很高的領域。
也就是說這個方向比原來的更有價值,客單價也從原來的一年幾千塊變成了幾十萬。因為APM滿足了大客戶的需求,而且大客戶都是有預算的。
隨后,云智慧又根據互聯網規模化發展的需求推出了另外兩塊業務,壓測寶和天機數據。其中天機數據聚焦政企大數據方面的應用,通過搭建大數據平臺,進行即時數據分析,提供業務發展和商業決策依據。
但是,i黑馬&數字觀察發現,當時市面上的幾家APM廠商過得都不太好,要么宣布轉型,拓展新業務,要么就是創始團隊退出,公司名存實亡,一時間APM被唱衰的論調此起彼伏。
“我們這幾家廠商從APM角度切入市場的戰略是沒有錯的。隨著企業系統復雜度越來越高,而IT對業務的支持或者業務對IT的依賴度也越來越高,這樣客戶對故障率、穩定性的需求愈加明顯,而APM就是能夠解決這些問題。
像BAT這類大型互聯網公司,自己做APM這件事很久了,沒有靠外面的一個產品或體系來做。因為一個互聯網公司從底層架構開始搭建到整個代碼開發完全都是自己的,所以對他們來說,自己去做APM是一個很自然的事情。”劉洪濤說道。
為什么后來大家都轉型了?
劉洪濤進一步解釋道,一年IT預算幾千萬甚至是上億的大企業,需要的是完整的解決方案,而不是一個工具化的產品,而APM并不是大型企業的剛需。而且做一個大客戶整個的銷售過程是很漫長的,從挖掘客戶需求到達成合作、簽訂合同、實施,半年時間過去了,同時還要有豐富經驗的客戶服務團隊才能做這種事。
幾十萬,很顯然,投入產出比不合理。這和中國APM市場的滲透程度有關:大客戶不愿意買工具類產品,用什么產品他們不關心,他們關心的是解決問題。總而言之,客戶對于故障分析這類問題的痛點是存在的,但客戶并不想去買一個工具性的產品。
“當時我們賽道的幾家都是看到市場有需求,才進來的,但后來我們也都發現了客戶不想要單一的APM的工具這個問題,這一點和美國那邊做單一APM產商活的很好的狀況不同。美國客戶是習慣購買單一工具類產品,因為他們的IT成熟度高,IT架構也比較清楚,客戶技術水平也高,而中國的客戶并不希望是買標準化工具。
就是因為我們這幾家都看到這個問題了,所以各自選擇了自己的下一步該怎么解決客戶問題的方向,發展到今天,大家的道路不同,結果也是不同的。”
經過思考,云智慧開始轉型,從單一的工具開始向一體化解決方案升級,目標客戶定位開始向中大型企業延展,云智慧認為,只有這部分客戶愿意為業務運維一體化解決方案買單。在此基礎上,云智慧針對傳統行業客戶和互聯網客戶,提供了差異化的產品和解決方案。
互聯網客戶的技術能力較強,對業務運維服務需求不大,更偏向于工具性服務,因此主打工具類產品即監控寶和透視寶。傳統行業客戶需要綜合性問題的解決方法,對這類客戶,云智慧直接提供業務運維解決方案。
談到云智慧的每次轉型升級背后的思考邏輯時候,劉洪濤指出,云智慧的基因來自對客戶業務和需求的理解,也是我們一直以來追求的。無論是初創階段做監控寶,還是轉型做APM,或者又升級做業務運維,智能運維,我們始終圍繞的是客戶到底要什么,我們做對客戶的業務,對客戶需求的深刻的理解。
基于這些理解,我們開始思考,到底做什么樣的東西才能夠滿足客戶需要。同時,云智慧也有自己的技術能力,把想做的東西通過技術做成產品化的東西,再落地。
“一直以來,我們對客戶的現狀和未來有深度的思考和理解,對IT行業有深度的思考,同時又有技術能力去實現我們這些想法,幫助客戶解決問題。”
圍繞上述思考,云智慧提出了智能運維實施的三階段戰略,第一,數據為先,在這個階段實現企業IT數據的完整采集;第二,初步智能化,幫客戶發現業務與IT的關聯關系,實現業務全鏈路追蹤和根因分析;第三,高級智能化,用AI幫助客戶解決更有前瞻性的問題,包括故障預測、容量規劃等。
概括來講就是,云智慧通過智能業務運維DOCP平臺,利用大數據和人工智能技術,以實時大數據處理、AIOps技術體系為基礎,由輕量級、低入侵、松耦合的一體化監控、業務運維和智能運維解決方案,以及IT性能監控、應用性能管理、業務效能分析等應用模塊為支撐構成一體化的數字化運維中心平臺。
這樣一來,企業客戶可以通過業務運維可視化大屏,找到亟需解決的IT問題,持續提升業務運營和IT管理效率。
DOCP是一個運維監控管理和大數據智能分析平臺,通過構建起支持數字化業務指標體系,可以全量采集不同數據源的IT性能數據、告警信息、業務指標數據,利用大數據技術對海量數據進行梳理、規范和關聯,利用機器學習、深度學習等AIOps方法體系實現根因分析和故障溯源,準確評估系統異常對業務造成的實際影響,實現監控、分析、發現、告警等數字化運維環節的高效管控和業務與IT數據的雙向驅動。
自從2016年云智慧推出智能業務運維DOCP以來,已經陸續在銀行、保險、證券、零售、制造、航空等多個行業的不同應用場景落地,并獲得了用戶的一致認可。
以金融行業為例,Fintech的發展推動傳統金融機構加速數字化轉型,利用AI、大數據、區塊鏈、物聯網、生物識別創新技術,重塑自身業務模式、內部流程和決策管理能力,滿足業務增長的需求。
而互聯網金融業務的持續增長,傳統以穩定可靠為先的IT管理模式和運維服務流程難以滿足個人消費者互聯網級的用戶體驗需求,因此需要更加精益、敏捷的新一代運維管理解決方案。
針對金融行業的需求特點,云智慧推出全棧智能運維解決方案,以數據為基礎,場景為導向,算法為支撐,面向雙態IT系統構建全棧統一監控平臺,實現豎井系統的數據連通;基于機器學習的跨系統調用鏈監控與追蹤,準確分析業務波動根本原因;依托PB級大數據能力,實時處理網絡、APM、日志數據,實現面向事件的異常檢測、根因分析、故障預測和智能告警,有效降低MTTR;圍繞業務目標,實現業務與IT的統一健康態勢可視化,支撐決策。
在最后,劉洪濤坦言,云智慧從網絡監控工具到一體化智能運維解決方案的過程中遇到很多困難與挑戰,“首先,從團隊自身的迭代就是很大的挑戰。我們原來的產品經理是做簡單產品的,現在他要提供復雜的解決方案;前端的售前,原來是產品銷售型變成解決方案型的售前;整個公司的客戶服務流程或者業務流程也會發生很大的變化。
其次,單一的Saas產品銷售是很容易的,客戶需要簽了合同,開帳號用就好了,但現在變成解決方案了,交付流程就變得很復雜,需要和客戶討論實際情況是什么樣,我們需要根據客戶的實際情況,提供相應的解決方案,而且還要讓這個方案落地。
而且當解決方案在在客戶那里上線以后,使用的過程中還會遇到各種問題,需要幫助客戶迭代升級維護。所以對于公司整體運營來說,挑戰非常大的。”