性高爱久久久久久久久_明星h放荡系h文小说关晓彤_黄色美女网址_亚洲综合狠狠


首頁
產品系列
行業應用
渠道合作
新聞中心
研究院
投資者關系
技術支持
關于創澤
| En
 
  當前位置:首頁 > 新聞資訊 > 機器人開發 > 如何搭建一個GPU加速的分布式機器學習系統,遇到的問題和解決方法  
 

如何搭建一個GPU加速的分布式機器學習系統,遇到的問題和解決方法

來源:阿里機器智能      編輯:創澤      時間:2020/6/18      主題:其他   [加盟]

小嘰導讀:在解決實際問題的時候,很多人認為只要有機器學習算法就可以了,實際上要把一個算法落地還需要解決很多工程上的難題。本文將和大家分享如何從零開始搭建一個GPU加速的分布式機器學習系統,介紹在搭建過程中遇到的問題和解決方法。

一  背景

在云計算環境下,虛擬機的負載均衡、自動伸縮、綠色節能以及宿主機升級等需求使得我們需要利用虛擬機(VM)遷移技術,尤其是虛擬機熱遷移技術,對于down time(停機時間)要求比較高,停機時間越短,客戶業務中斷時間就越短,影響就越小。如果能夠根據VM的歷史工作負載預測其未來的工作負載趨勢,就能夠尋找到最合適的時間窗口完成虛擬機熱遷移的操作。

于是我們開始探索如何用機器學習算法預測ECS虛擬機的負載以及熱遷移的停機時間,但是機器學習算法要在生產環境發揮作用,還需要很多配套系統去支持。為了能快速將現有算法在實際生產環境落地,并能利用GPU加速實現大規模計算,我們自己搭建了一個GPU加速的大規模分布式機器學習系統,取名小諸葛,作為ECS數據中臺的異構機器學習算法加速引擎。搭載以上算法的小諸葛已經在生產環境上線,支撐阿里云全網規模的虛擬機的大規模熱遷移預測。

二  方案

那么一套完整大規模分布式系統機器學習系統需要哪些組成部分呢?

1  總體架構

阿里云全網如此大規模的虛擬機數量,要實現24小時之內完成預測,需要在端到端整個流程的每一個環節做優化。所以這必然是一個復雜的工程實現,為了高效的搭建這個平臺,大量使用了現有阿里云上的產品服務來搭建。

整個平臺包含:Web服務、MQ消息隊列、Redis數據庫、SLS/MaxComputer/HybridDB數據獲取、OSS模型倉庫的上傳下載、GPU云服務器、DASK分布式框架、RAPIDS加速庫。

1)架構

下圖是小諸葛的總體架構圖。






拯救渣畫質,馬賽克圖秒變高清,杜克大學提出AI新算法

杜克大學的一種 AI 算法PULSE可以將模糊、無法識別的人臉圖像轉換成計算機生成的圖像,其細節比之前任何時候都更加精細、逼真

餓了么推薦算法的演進及在線學習實踐

餓了么算法專家劉金介紹推薦業務背景,包括推薦產品形態及算法優化目標;然后是算法的演進路線;最后重點介紹在線學習是如何在餓了么推薦領域實踐的

百變應用場景下,優酷基于圖執行引擎的算法服務框架筑造之路

優酷推薦業務,算法應用場景眾多,需求靈活多變,需要一套通用業務框架,支持運行時的算法流程的裝配,提升算法服務場景搭建的效率

內容流量管理的關鍵技術:多任務保量優化算法實踐

通過分析其中的關鍵問題,建立了新熱內容曝光敏感模型,并最終給出一種曝光資源約束下的多目標優化保量框架與算法

CVPOS自助收銀的挑戰以及商品識別算法工程落地方法和經驗

針對結算收銀場景中商品識別的難點,從商品識別落地中的模型選擇、數據挑選與標注、前端和云端部署、模型改進等方面,進行了深入講解

面向動態記憶和學習功能的神經電晶體可塑性研究

神經形態結構融合學習和記憶功能領域的研究主要集中在人工突觸的可塑性方面,同時神經元膜的固有可塑性在神經形態信息處理的實現中也很重要

人工智能和機器學習之間的差異及其重要性

機器學習就是通過經驗來尋找它學習的模式,而人工智能是利用經驗來獲取知識和技能,并將這些知識應用于新的環境

滴滴機器學習平臺調度系統的演進與K8s二次開發

滴滴機器學習場景下的 k8s 落地實踐與二次開發的技術實踐與經驗,包括平臺穩定性、易用性、利用率、平臺 k8s 版本升級與二次開發等內容

如何更高效地壓縮時序數據?基于深度強化學習的探索

大型商用時序數據壓縮的特性,提出了一種新的算法,分享用深度強化學習進行數據壓縮的研究探索

基于深度學習目標檢測模型優缺點對比

深度學習模型:OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

傳統目標檢測算法對比

SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目標檢測算法優缺點對比及使用場合比較

基于深度學習和傳統算法的人體姿態估計,技術細節都講清楚了

人體姿態估計便是計算機視覺領域現有的熱點問題,其主要任務是讓機器自動地檢測場景中的人“在哪里”和理解人在“干什么”
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機器人未來3-5年能夠實現產業化的方
» 導診服務機器人上崗門診大廳 助力醫院智慧
» 山東省青島市政府辦公廳發布《數字青島20
» 關于印發《青海省支持大數據產業發展政策措
» 全屋無主燈智能化規范
» 微波雷達傳感技術室內照明應用規范
» 人工智能研發運營體系(ML0ps)實踐指
» 四驅四轉移動機器人運動模型及應用分析
» 國內細分賽道企業在 AIGC 各應用場景
» 國內科技大廠布局生成式 AI,未來有望借
» AIGC領域相關初創公司及業務場景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業化空間前景廣闊應用場景豐富
» AI 內容創作成本大幅降低且耗時更短 優
 
== 機器人推薦 ==
 
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人底盤

機器人底盤

 

商用機器人  Disinfection Robot   展廳機器人  智能垃圾站  輪式機器人底盤  迎賓機器人  移動機器人底盤  講解機器人  紫外線消毒機器人  大屏機器人  霧化消毒機器人  服務機器人底盤  智能送餐機器人  霧化消毒機  機器人OEM代工廠  消毒機器人排名  智能配送機器人  圖書館機器人  導引機器人  移動消毒機器人  導診機器人  迎賓接待機器人  前臺機器人  導覽機器人  酒店送物機器人  云跡科技潤機器人  云跡酒店機器人  智能導診機器人 
版權所有 © 創澤智能機器人集團股份有限公司     中國運營中心:北京·清華科技園九號樓5層     中國生產中心:山東日照太原路71號
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728