云原生計算服務,加速互聯網邁入智能時代
2023-04-24 15:12 欄目: 技術干貨 查看()
在阿里云云峰會2023北京站《互娛&游戲創新與商業增長論壇》中,阿里云智能基礎產品部副總裁,彈性計算&無影產品線總經理張獻濤,發表了《云原生計算基礎設施,加速互聯網邁入智能時代》的主題演講。他表示:未來將有更多的互聯網企業借助AI等新技術實現數字化轉型和業務升級。ChatGPT作為一種開放式人工智能技術,可以通過學習海量數據和深度神經網絡模型,實現自然語言理解和生成的任務。這一技術可以廣泛應用于聊天機器人、語音識別、翻譯等領域,將人工智能應用推向新的高度。隨著技術的不斷進步,ChatGPT未來還將有更多的應用場景和商業價值,對數字內容和互聯網行業的改變將是深遠的。 基于這一趨勢,互聯網企業需要及時跟進新技術的發展,提升自身的數字化能力和創新能力。而彈性計算服務則可以為企業提供靈活、高效的計算資源,幫助企業快速響應市場變化和業務需求的變化,實現數字化轉型和業務升級。此外,阿里云還提供了一系列AI能力和解決方案,如人臉識別、圖像識別、語音合成等,可以幫助企業實現更多的智能化應用。阿里云還通過建立智能生態系統,與合作伙伴共同推進AI技術的開發和應用,為行業數字化轉型和創新注入新動力。
阿里云智能基礎產品部副總裁,彈性計算&無影產品線總經理 張獻濤過去,我們經歷了傳統互聯網和移動互聯網時代,目前我們正在經歷視頻互聯網時期,特別是在互娛視頻領域,在過去幾年中得到了迅猛的發展。然而,隨著AIGC等新技術的不斷涌現,我們相信未來,互聯網將進入一個以數據為中心的智能互聯網時代。 在這個新的時代中,人工智能和大數據將成為互聯網企業的核心競爭力。通過對海量數據的收集、存儲、分析和挖掘,企業可以更好地了解用戶需求和市場趨勢,并快速響應變化,提供更優質、個性化的服務和產品。同時,人工智能的應用也將使得原本需要人工完成的任務得以自動化,提高效率和降低成本。在這一趨勢下,互聯網企業需要加快技術轉型和創新,抓住機遇。阿里云作為全球領先的云計算服務提供商,可為企業提供全方位、立體化的云端技術方案,幫助企業實現數字化轉型、智能化升級和業務創新。同時,阿里云還積極推廣AI和大數據技術的應用,為企業提供更多的技術支持和合作機會,共同推進智能互聯網時代的到來。在智能互聯網時代,基礎設施面臨著更高的要求。首先,隨著數據量的增加,高效的算力基礎智能推薦、大數據挖掘數據處理的效率都需要不斷提高。此外,客戶也需要更低延遲、更高性能的計算基礎設施。
其次,“小步快,快速試錯”一直是互聯網行業的迭代策略,為了迅速響應消費者需求的變化,企業需要彈性靈活的基礎設施來對業務波峰波谷的出現。因此,如何高效地管理基礎設施也是一個重要問題。
最后,出了更高的要求,基設施的投資也將持續增性、敏捷性和成本之礎是一個巨大的挑戰。
總之,阿里云彈性計算構建了針對互聯網企業的云技術基礎架構,不僅可以提供高效、穩定的底層服務,還可以支持大規模分布式訓練和推理性能,以及快速、敏捷的開發,同時實現了成本最優化。無論是小型創業公司還是大型企業,都可以利用阿里云彈性計算的優勢,輕松實現業務轉型和創新。阿里云一直在底層基礎設施方面不斷進行技術創新,以確保客戶能夠獲得流暢穩定的業務體驗。今年三月,彈性計算第八代企業級實例已經全面商業化。基于CIPU+飛天的技術架構,全系標配eRDMA能力可以讓數據獲得更高的流轉效率,并新增了加密虛擬機TDX能力。這兩者結合了云上安全計算和數據計算能力,為阿里云打造了一個全棧式云原生安全計算服務。除了性能和安全能力的提升,網絡及存儲I/O也得到了大幅度提升。存儲層面適配了NvME云盤存儲接口,這樣的接口可以實現超高性能ESSD支持共享塊存儲,使得傳統軟件上云時,可以獲得更加極致的性能。同時,阿里云還解決了傳統軟件上云過程中遇到的技術難題。
eRDMA是阿里云最新推出的第八代實例標配的產品能力特性,是中國推出的首個云上大規模RDMA加速能力,能夠大幅提升大規模分布式計算通信效率,并且能夠隨著阿里云的集群規模動態擴展,能夠輕松構建中國最大的RDMA分布式計算網絡,在大規模訓練方面,通過eRDMA可以實現上千臺機器同時進行訓練。在性能維度,Redis數據庫、結合大數據加速套件 MRACC的Spark大數據處理、AI訓練場景、HPC應用也都分別有著100%、25%、30%、20%的提升。

為了滿足不同場景下的需求,我們在第八代企業級實例中提供了多種選擇。用戶可以選擇最新的英特爾第四代至強可擴展處理器、AMD最新的Genoa處理器或阿里云自研的倚天710處理器,以適應不同架構和場景。其中,基于英特爾第四代至強可擴展處理器SPR的第八代企業級實例g8i,提供了場景化的超高性能。除了通用算力的提升外,還原生支持硬件加速能力,使AI訓練性能提升2倍以上,加解密、壓縮/解壓縮等場景下性能提升4倍以上。這為客戶提供了超高性價比的場景化計算服務。基于AMD的第八代企業級實例g8ae,則具有強勁的算力,單核性能相比上一代提升高達55%。這可以滿足用戶所有計算機密型業務對更高算力的需求,并且在實際高性能計算場景中,相比提升了100%。對于面向通用類應用場景的企業客戶,基于AMD的另一款第八代企業級實例g8a則性價比極高。總和性價比提升15%,在通用企業級應用場景下,性價比提升高達50%以上。最后,值得一提的是,基于阿里云自研的倚天710處理器打造的g8y實例,編解碼性能提升了80%,大數據性能也提升了70%。這為用戶提供了更強大的性能和更優秀的用戶體驗。倚天710是阿里巴巴第一顆為云而生的自研芯片,在CPU算力層面無超線程概念,用戶可享受極致的物理核性能和緩存QoS能力,以充分應對復雜的業務負載變化,CPU利用率即使達到85%以上,也不會出現算力爭搶的情況,所以非常適合大數據/數據庫類型業務的發展。不僅如此,業界主流的開源軟件以及阿里云主流的PaaS產品均已支持倚天實例,用戶無需擔心業務適配的問題,零代碼改造即可完成業務部署,就可以體驗g8y帶來的性能收益。除了一般計算能力,我們正在開發面向AIGC大模型的訓練和推理方案,并對支持GPT模型和Stable Diffusion大模型進行全棧優化。我們擁有超級計算集群、CPU/GPU集群和高性能并行文件存儲等算力資源,以及彈性RDMA高速互聯的網絡層面,這使得我們在AI訓練和推理方面表現出色。我們還提供 FastGPU 等高效部署工具,并在阿里云平臺上支持客戶任務的高效創建GPU集群。我們還支持cGPU技術,可實現GPU算力的切分、池化和虛擬化,以及分布式大型訓練部署。此外,我們還支持語言大模型和視覺大模型,并發布了模型服務。模型服務可與整棧軟件無縫對接,且使用阿里云 PaaS 和 IaaS 都可以獲得良好的技術支持。阿里云從2017年布局異構計算,2022年重點構建了面向元宇宙XR的應用開發、部署、發布生態;支持合作伙伴演唱會、數字人等場景應用;當前以語言大模型服務為契機,提供面向模型服務的彈性基礎設施,從底層到中間件的全系優化,用戶可以獲得開箱即用的效果。阿里云ECS采用cGPU,支持對多種多卡GPU實現靈活分割,結合CPU VM/容器虛擬化,實現對異構計算靈活切割與調度能力。通過cGPU技術,容器技術等可以在算力切分和池化方面做到無縫效果。盡管AIACC-Training主要集中于AI通訊方面的優化,但與eRDMA技術相結合,它實際上能夠提供比傳統IDC和其他云基礎設施更為強大的能力。
在當下火爆的大型模型和AI圖形計算場景中,AIACC-Training同樣能夠提供進一步的優化。例如,它可以將大型語言模型的分布式訓練性能提高50%,使AIGC的finetune訓練性能提高40%,將大型語言模型的推理性能提高50%,同時提高AIGC的推理性能80%,從而進一步提升客戶的AI業務競爭力。

我們認為,無影是阿里云算力的接入點。無論是通用算力還是智能化算力,用戶都可以通過無影端輕松獲取阿里云計算、存儲、網絡、AI、大數據等整體能力,讓智能化算力觸手可及。無影兼容大多數智能顯示終端,使開發和使用體驗進一步得到提升。同時,無影也更容易被各類軟件集成,拓寬了應用的業務邊界。我們還研發出自有硬件,如筆記本、盒式終端和一體機,供廣大消費者選擇。為了讓客戶在使用云上資源時希望能夠更好的管理和運維,過去幾年彈性計算產品線一直在構建云上自動化運維體系CloudOps來提升企業的運維效率,旨為云上業務安全高效的持續運營提供全方位的支持。
在效率至上的互聯網時代,CloudOps從成本、效率和穩定性三個維度,為企業帶來了顯著的效能提升,包括可以實現30%以上的成本優化、50%以上的人工效率提升,以及35%以上的故障恢復周期縮短,為業務穩定永續保駕護航。在之前,大家購買資源更多是為了恒定的業務需求,所以大多使用的是包年包月,但實際云更多時候是需要按量付費的,如何確保整個資源做到合理利用,我們有豐富的計費方式,企業使用云的時候,可以隨心所欲,實現成本的下降和資源彈性的雙重平衡。
我們希望通過全方位、立體化的彈性計算服務能力,為互聯網企業提供彈性、高性能與成本三方位兼顧的云原生基礎設施,讓企業更好地獲得彈性高性能低成本的資源,助力互聯網企業加速業務創新。
掃二維碼與項目經理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯網交流
鄭重申明:某某網絡以外的任何單位或個人,不得使用該案例作為工作成功展示!