小嘰導讀:在解決實際問題的時候,很多人認為隻要有機器學習算法就可以了,實際上要把一個算法落地還需要解決很多工程上的難題。本文將和大家分享如何從零開始搭建一個GPU加速的分布式機器學習係統,介紹在搭建過程中遇到的問題和解決方法。
一 背景
在雲計算環境下,虛擬機的負載均衡、自動伸縮、綠色節能以及宿主機升級等需求使得我們需要利用虛擬機(VM)遷移技術,尤其是虛擬機熱遷移技術,對於down time(停機時間)要求比較高,停機時間越短,客戶業務中斷時間就越短,影響就越小。如果能夠根據VM的曆史工作負載預測其未來的工作負載趨勢,就能夠尋找到最合適的時間窗口完成虛擬機熱遷移的操作。
於是我們開始探索如何用機器學習算法預測ECS虛擬機的負載以及熱遷移的停機時間,但是機器學習算法要在生產環境發揮作用,還需要很多配套係統去支持。為了能快速將現有算法在實際生產環境落地,並能利用GPU加速實現大規模計算,我們自己搭建了一個GPU加速的大規模分布式機器學習係統,取名小諸葛,作為ECS數據中台的異構機器學習算法加速引擎。搭載以上算法的小諸葛已經在生產環境上線,支撐阿裏雲全網規模的虛擬機的大規模熱遷移預測。
二 方案
那麼一套完整大規模分布式係統機器學習係統需要哪些組成部分呢?
1 總體架構
阿裏雲全網如此大規模的虛擬機數量,要實現24小時之內完成預測,需要在端到端整個流程的每一個環節做優化。所以這必然是一個複雜的工程實現,為了高效的搭建這個平台,大量使用了現有阿裏雲上的產品服務來搭建。
整個平台包含:Web服務、MQ消息隊列、Redis數據庫、SLS/MaxComputer/HybridDB數據獲取、OSS模型倉庫的上傳下載、GPU雲服務器、DASK分布式框架、RAPIDS加速庫。
1)架構
下圖是小諸葛的總體架構圖。
|
|
資料獲取 | |
新聞資訊 | |
== 資訊 == | |
» 國標《智慧城市 智慧多功能杆 服務功能與 | |
» 人工智能之數據挖掘2020年第9期 | |
» 噴霧消毒殺菌機器人 | |
» 中國通信學會發布《全球人工智能基礎設施戰 | |
» 創澤集團受邀參加工信部 AI 精準賦能中 | |
» 人工智能案例 依圖科技:不斷崛起的AI | |
» 2020年麵向人工智能新基建的知識圖譜行 | |
» 破解AI工程化難題,AI中台助力企業智能 | |
» 淺析我國消防機器人發展現狀與趨勢 | 山 | |
» 【華為出品】智能體白皮書2020 | |
» “先行示範•智贏未來” 創澤 | |
» 創澤集團牽頭起草的全國首個《應用於滅菌消 | |
» 創澤集團智能機器人新品發布會!多款自主研 | |
» 人工智能人才發展報告:亞太地區創新與招聘 | |
» 創澤集團智能機器人“創創”受邀參加進博會 | |
== 機器人推薦 == | |
服務機器人(迎賓、講解、導診...) |
|
智能消毒機器人 |
|
安防巡檢機器人 |
|
人工智能垃圾站 |
|
== 信息推薦 == | |
|
機器人招商 Disinfection Robot 消毒機器人公司 機器人應用 智能垃圾站 消毒機器人價格 消毒機器人廠家 機器人政策 教育機器人 迎賓機器人 機器人開發 清潔機器人 消毒機器人 講解機器人 安防巡檢機器人 霧化消毒機器人 紫外線消毒機器人 地圖 |