解決方案
運用科技進行整合性創新
背景概述

隨著人工智能與邊緣計算的發展,各種數據科學的應用落地,在在線教育行業中部署相關的服務去支持業務開展已成為大勢所趨——深度學習下的圖像識別、NLP等技術給行業帶來新發展空間。

數據規模在不斷增長,使用公有云部署業務是一種便捷的模式。但越來越多企業用戶發現,大規模使用公有云基礎及其深度學習API服務,已成為每年開支中的大頭。混合云部署的模式業務的模式可能成為更合理的選擇,把部分重要業務部署在企業私有云中,不僅可獲得對業務與數據安全的全面控制,據第三方測評,對中小型規模集群、私有部署甚至可能降低高達70%的運維服務費用。把部分業務私有部署,已成為在線教育行業中穩健的選擇。

在混合云部署中,云原生計算成為先行崛起的理念。云原生計算依靠資源云化(虛擬化),應用云化(標準化、自動化、可拓展、高可用),云原生(互聯網規模、敏捷,彈性)的優勢,逐漸成為人工智能深度學習、數據科學等應用及服務的載體。

容器是云原生計算的基石,CNCF對云原生的定位為:容器化、微服務、容器可以動態調度。容器化、持續交付、DevOps、微服務組成了云原生計算的理念。一套適合的云原生計算平臺,可以支持多租戶兼顧應用服務、科研、教學等場地,利用自動化運維工具減少運維人員工作負擔,為最終用戶提供各層次的應用。

解決方案
從滿足應用需求的角度出發,建立一個高可擴展、易管理的AI云原生計算平臺環境。該平臺由提供算力的硬件平臺部分,以及提供資源調度與監控管理、用戶管理的容器云平臺組成。
AI云原生計算硬件平臺規劃圖
容器云設計圖
DGX系統
DGX-1具有通過NVLink(NVIDIA的一種高性能GPU互聯技術)在混合數據立方體網格網絡中連接8臺Tesla V100 GPU加速器的能力,搭配雙插槽Intel Xeon CPU和4個100 Gb InfiniBand網絡接口卡,DGX-1為深度學習訓練帶來了前所未有的非凡性能。此外,DGX-1系統軟件和功能強大管理庫可以適時調整,以用于擴展Tesla V100 GPU網絡中的深度學習,為有關生產和研究的深度學習應用提供靈活且可擴展的平臺。
NVIDIA DGX 系統支持內容包括:
01
NVIDIA 云管理:容器庫、容器管理、作業調度、系統性能監控,以及新軟件更新;
02
獲得超級新的軟件更新程序和升級程序;
03
與 NVIDIA 技術專家直接溝通;
04
包含指導文章、應用程序說明和產品文件的可搜索知識庫;
05
通過支持門戶和全天候電話訪問權限實現快速響應并實時解決問題;
06
NVIDIA DGX 系統深度學習軟件的生命周期支持;
07
硬件支持、固件升級、診斷,以及遠程和現場解決硬件問題;
08
次日配送替換零件。
T4服務器
用戶已經建立、訓練、調整和調整了模型后需要一個推理解決方案,可以部署到數據中心或云。方案中應該優化使用可用的GPU,以獲得最大可能的性能。可能還存在其他需求,例如需要A/B測試功能或支持具有多個同構或異構GPU的服務器的能力。
T4服務器搭載8張NVIDIA Tesla T4。Tesla T4可以加速語音、視頻、搜索引擎、圖像神經網絡的 Tesla T4 。Tesla T4 擁有 320 個圖靈張量(TURring Tensor)內核 + 2560 個 CUDA 內核。
GPU 支持混合精度,例如 FP32、FP16、已 INT8 。此外 Tesla T4 還支持 INT4 和實驗性的 INT1 精度模式,較其前身有顯著的進步。
Tesla T4 的功耗相當低調,服務器 PCIe 插槽的標準供電(75W)已經足夠,無需外接 6-pin 。散熱方面,它也無需加裝主動式的風扇(服務器典型的內風道設計已經足夠)。
Tesla T4 為人工智能視頻應用提供極具突破性的性能,其專用的硬件轉碼引擎將解碼性能提升至上一代 GPU 的兩倍。T4 可以解碼多達 38 個全高清視頻流,從而可以輕松地將可擴展的深度學習集成到視頻管線中,以提供創新的智能視頻服務。
TensorRT推理服務是Nvidia TensorRT推理平臺的一部分,它提供了一種新的軟件解決方案,擴展了模型和框架的實用性,非常有效結合使用TensorRT及深度學習框架和訓練好的模型,充分提高了GPU和CPU的利用率。它基于Nvidia Docker,可以從Nvidia GPU Cloud上獲得。
NVIDIA NGX軟件開發套件中包含的AI增強功能提供了支持,如去噪、分辨率縮放和視頻調速。
QQ
返回頂部