近日,UCloud 推出了 UAI-Train 智能一体化训练平台,结合此前已推出的 UAI-Service、GPU 及安全屋等 AI 系列产品,UCloud 现已初步形成一站式 AI 全服务。
UAI-Train 灵活便捷的训练任务托管服务,能够帮助用户摆脱资源采购运维烦恼,降低 AI 使用门槛;同时,平台采用按需付费模式,降低 AI 成本投入,避免闲置资源浪费。
随着人工智能产业的兴起,人工智能技术已经被广泛运用于各行各业。近年来,人工智能技术在图像(物体识别、人脸识别等)、自然语言(语音识别、翻译、对话机器人)、智能医疗、智能推荐(广告、新闻、视频)等领域取得了飞速发展。与此同时,人工智能技术对计算资源的需求也快速增加,因而“云计算如何服务于人工智能产业的发展”已成为公有云服务的一个新方向。
通常来说,构建人工智能服务包括三个步骤:大数据收集与处理、AI 模型训练、AI 模型在线服务,其中的每一个环节都需要投入大量计算资源。
对于大数据处理,可通过采购一定数量的云主机或物理机来搭建一个数据处理集群 ,也可通过采用 UHadoop 产品来搭建 Hadoop 或 Spark 集群来处理数据;对于 AI 在线服务,可通过使用云主机搭建服务集群或直接使用 UCloud AI Service 服务,来快速部署 AI 在线推理服务。
然而,对于 AI 模型训练,用户通常需要高性能的 GPU 资源来满足 AI 模型训练过程中所产生的庞大的浮点计算需求,以及处理随之而来的诸多挑战:
1.成本投入高:GPU 硬件或 GPU 云主机的采购成本非常高。一块 P40 GPU 的采购价格超过 5 万,即使是租用 P40 云主机,其成本也在 4500 元 /月以上,因此使用 GPU 硬件一次性投入的成本非常高。
2.资源闲置:自行采购 GPU 还会面临空闲资源闲置等问题。在 AI 算法研发、迭代过程中,算法设计、数据处理都需要花费大量时间,但此时 GPU 设备却通常因为无法被充分利用而造成闲置,进一步增加 GPU 的使用成本。
3.采购周期长:GPU 采购和备货周期比普通 CPU 服务器更长。即便使用公有云服务也无法像使用 CPU 云主机一样,随时随地购买使用 GPU 云主机。
4.运维成本高:训练环境配置、GPU 资源调度、数据存储、训练任务容灾等问题会随着业务量的增加而增加,从而不断提高 GPU 训练集群维护的运维成本。
诸多问题表明,对于从事 AI 业务的公司来说,所面临的挑战非常严峻。研发人员可能手握很好的 AI 算法模型和解决方案,却往往因为 AI 技术的高门槛要求而导致研发成本增加、研发周期变长。
为了帮助客户解决 AI 模型训练过程面临的四个关键问题,UCloud AI Train 平台基于 UCloud 性能强大的 GPU 云主机集群构建,为 AI 训练任务提供充足的计算能力。同时,提供一站式训练任务托管服务,包括自动实现计算节点调度、训练环境准备、数据上传下载以及任务容灾等功能,能够帮助用户从繁杂的 GPU 资源采购、管理、运维工作中解放出来。另外,UAI-Train 平台按照实际计算消耗付费,不但可以降低 GPU 的成本投入,而且可以避免闲置资源浪费。
一站式任务托管,实时训练状态追踪
UAI-Train 平台提供一站式训练任务托管服务,用户只需要提供打包好的训练镜像、数据源路径、数据输出路径以及训练所需的参数,就可以提交训练任务并等待任务结束。UAI-Train 平台将自动进行 GPU 资源调度、数据下载上传和计算节点容灾。
同时 UAI-Train 平台提供了图形化的实时日志输出,以及 TensorBoard 的实时展示( Tensorflow 和 Keras 可用),用户可以通过浏览器实时追踪训练的状态。
基于 Docker 容器技术,强大的 AI 兼容性
UAI-Train 基于 Docker 容器技术,提供兼容性极强的训练环境。用户只需将 AI 模型训练算法打包至 Docker 镜像中,即可以将训练任务提交至训练平台,训练平台将会负责:
1.训练数据下载;
2.训练任务执行;
3.训练结果输出并保存。
完全无需用户介入,整个过程如下图所示:
为简化 UAI-Train 平台的使用过程,UCloud 提供了 Python SDK 和基础 Docker 镜像,以此来协助用户封装 Docker 镜像。目前,UAI-Train 平台支持 4 种主流 AI 框架,包括镜像一键打包和测试工具以及基础镜像(后续还将计划增加对 PyTorch、CNTK 等开源框架的支持)。
同时,UAI-Train 平台也支持自定义 Docker 训练镜像,并提供了预装 cuda 和 cudnn 的基础镜像。
灵活配置选择,超高性价比
UAI-Train 平台目前支持 3 种 GPU 节点,按需使用收费,计费精确到分钟,具有极高的性价比。
UAI-Train 平台还计划逐步推出种类更丰富的硬件加速计算设备,包括更新的 GPU 设备、Xeon Phi 设备等,另外还将推出分布式训练集群支持。
应用场景一:快速 AI 转型
AI 模型训练任务执行环境配置复杂( GPU 驱动、AI 框架环境安装等)、GPU 资源采购周期长、成本高、运维工作繁杂等,这都成为企业快速转型 AI 业务的绊脚石。使用 UAI-Train 训练服务可以无需担心资源采购、环境配置、集群维护等问题,快速开展 AI 模型训练工作。
应用场景二:降低 AI 成本
AI 训练任务执行需要花费大量计算资源。GPU 硬件采购成本高,闲置资源浪费开销大。使用 UAI-Train 训练服务不仅可以获得充足的 GPU 硬件资源,同时又可以按照实际计算消耗付费,使用较小的投入获取充足的计算资源,具有极高的性价比,可以有效减低 AI 成本。
应用场景三:简化 AI 运维
大规模执行 AI 模型训练任务需要处理计算资源调度、任务管理、任务容灾等问题。UAI-Train 训练平台自动帮助使用者解决计算节点调度、任务管理、容灾等问题,更为使用者提供了图形化界面展示训练任务状态。
应用场景四:共享 GPU 资源
使用 GPU 云主机、物理机很难在团队之间、部门之间以及各类使用者之间共享 GPU 资源。UAI-Train 训练平台则可以同时满足成千上百个使用者共享整个 GPU 资源池,同时又提供了资源隔离、配额管理功能,可以满足 GPU 资源共享场景的需求。
在 9 月份由创新工场联合搜狗、今日头条发起的“ AI Challenger 全球 AI 挑战赛”中,UCloud 便作为唯一的 AI GPU 合作方,为大赛独家提供了 AI 模型训练服务( UCloud AI Train )。此次合作也验证 UCloud 在 AI 领域强大的研发实力、快速响应服务以及自身平台稳定性,为大赛的成功举办保驾护航。
作为国内领先的云计算服务商,UCloud 将继续深入研究 AI 训练平台的功能与性能,致力为用户提供更丰富的 AI 框架和分布式训练支持。同时,UCloud 还将结合 UAI-Service 在线服务平台,打造从 AI 训练到 AI 在线服务的一体化解决方案,全方位提升面向 AI 产业的服务能力。