UCloud AI Train 重磅来袭打造智能一体化训练平台

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2723 天前的主题，其中的信息可能已经有所发展或是发生改变。

近日，UCloud 推出了 UAI-Train 智能一体化训练平台，结合此前已推出的 UAI-Service、GPU 及安全屋等 AI 系列产品，UCloud 现已初步形成一站式 AI 全服务。

UAI-Train 灵活便捷的训练任务托管服务，能够帮助用户摆脱资源采购运维烦恼，降低 AI 使用门槛；同时，平台采用按需付费模式，降低 AI 成本投入，避免闲置资源浪费。

AI 模型训练的痛点

随着人工智能产业的兴起，人工智能技术已经被广泛运用于各行各业。近年来，人工智能技术在图像（物体识别、人脸识别等）、自然语言（语音识别、翻译、对话机器人）、智能医疗、智能推荐（广告、新闻、视频）等领域取得了飞速发展。与此同时，人工智能技术对计算资源的需求也快速增加，因而“云计算如何服务于人工智能产业的发展”已成为公有云服务的一个新方向。

通常来说，构建人工智能服务包括三个步骤：大数据收集与处理、AI 模型训练、AI 模型在线服务，其中的每一个环节都需要投入大量计算资源。

对于大数据处理，可通过采购一定数量的云主机或物理机来搭建一个数据处理集群，也可通过采用 UHadoop 产品来搭建 Hadoop 或 Spark 集群来处理数据；对于 AI 在线服务，可通过使用云主机搭建服务集群或直接使用 UCloud AI Service 服务，来快速部署 AI 在线推理服务。

然而，对于 AI 模型训练，用户通常需要高性能的 GPU 资源来满足 AI 模型训练过程中所产生的庞大的浮点计算需求，以及处理随之而来的诸多挑战：

1.成本投入高：GPU 硬件或 GPU 云主机的采购成本非常高。一块 P40 GPU 的采购价格超过 5 万，即使是租用 P40 云主机，其成本也在 4500 元 /月以上，因此使用 GPU 硬件一次性投入的成本非常高。
2.资源闲置：自行采购 GPU 还会面临空闲资源闲置等问题。在 AI 算法研发、迭代过程中，算法设计、数据处理都需要花费大量时间，但此时 GPU 设备却通常因为无法被充分利用而造成闲置，进一步增加 GPU 的使用成本。
3.采购周期长：GPU 采购和备货周期比普通 CPU 服务器更长。即便使用公有云服务也无法像使用 CPU 云主机一样，随时随地购买使用 GPU 云主机。
4.运维成本高：训练环境配置、GPU 资源调度、数据存储、训练任务容灾等问题会随着业务量的增加而增加，从而不断提高 GPU 训练集群维护的运维成本。

诸多问题表明，对于从事 AI 业务的公司来说，所面临的挑战非常严峻。研发人员可能手握很好的 AI 算法模型和解决方案，却往往因为 AI 技术的高门槛要求而导致研发成本增加、研发周期变长。

为了帮助客户解决 AI 模型训练过程面临的四个关键问题，UCloud AI Train 平台基于 UCloud 性能强大的 GPU 云主机集群构建，为 AI 训练任务提供充足的计算能力。同时，提供一站式训练任务托管服务，包括自动实现计算节点调度、训练环境准备、数据上传下载以及任务容灾等功能，能够帮助用户从繁杂的 GPU 资源采购、管理、运维工作中解放出来。另外，UAI-Train 平台按照实际计算消耗付费，不但可以降低 GPU 的成本投入，而且可以避免闲置资源浪费。

智能一体化训练平台的三大核心优势

一站式任务托管，实时训练状态追踪
UAI-Train 平台提供一站式训练任务托管服务，用户只需要提供打包好的训练镜像、数据源路径、数据输出路径以及训练所需的参数，就可以提交训练任务并等待任务结束。UAI-Train 平台将自动进行 GPU 资源调度、数据下载上传和计算节点容灾。

同时 UAI-Train 平台提供了图形化的实时日志输出，以及 TensorBoard 的实时展示（ Tensorflow 和 Keras 可用），用户可以通过浏览器实时追踪训练的状态。

基于 Docker 容器技术，强大的 AI 兼容性
UAI-Train 基于 Docker 容器技术，提供兼容性极强的训练环境。用户只需将 AI 模型训练算法打包至 Docker 镜像中，即可以将训练任务提交至训练平台，训练平台将会负责：
1.训练数据下载；
2.训练任务执行；
3.训练结果输出并保存。
完全无需用户介入，整个过程如下图所示：

为简化 UAI-Train 平台的使用过程，UCloud 提供了 Python SDK 和基础 Docker 镜像，以此来协助用户封装 Docker 镜像。目前，UAI-Train 平台支持 4 种主流 AI 框架，包括镜像一键打包和测试工具以及基础镜像（后续还将计划增加对 PyTorch、CNTK 等开源框架的支持）。

同时，UAI-Train 平台也支持自定义 Docker 训练镜像，并提供了预装 cuda 和 cudnn 的基础镜像。

灵活配置选择，超高性价比
UAI-Train 平台目前支持 3 种 GPU 节点，按需使用收费，计费精确到分钟，具有极高的性价比。

UAI-Train 平台还计划逐步推出种类更丰富的硬件加速计算设备，包括更新的 GPU 设备、Xeon Phi 设备等，另外还将推出分布式训练集群支持。

四大核心应用场景，助力企业 AI 业务发展

应用场景一：快速 AI 转型
AI 模型训练任务执行环境配置复杂（ GPU 驱动、AI 框架环境安装等）、GPU 资源采购周期长、成本高、运维工作繁杂等，这都成为企业快速转型 AI 业务的绊脚石。使用 UAI-Train 训练服务可以无需担心资源采购、环境配置、集群维护等问题，快速开展 AI 模型训练工作。

应用场景二：降低 AI 成本
AI 训练任务执行需要花费大量计算资源。GPU 硬件采购成本高，闲置资源浪费开销大。使用 UAI-Train 训练服务不仅可以获得充足的 GPU 硬件资源，同时又可以按照实际计算消耗付费，使用较小的投入获取充足的计算资源，具有极高的性价比，可以有效减低 AI 成本。

应用场景三：简化 AI 运维
大规模执行 AI 模型训练任务需要处理计算资源调度、任务管理、任务容灾等问题。UAI-Train 训练平台自动帮助使用者解决计算节点调度、任务管理、容灾等问题，更为使用者提供了图形化界面展示训练任务状态。

应用场景四：共享 GPU 资源
使用 GPU 云主机、物理机很难在团队之间、部门之间以及各类使用者之间共享 GPU 资源。UAI-Train 训练平台则可以同时满足成千上百个使用者共享整个 GPU 资源池，同时又提供了资源隔离、配额管理功能，可以满足 GPU 资源共享场景的需求。

在 9 月份由创新工场联合搜狗、今日头条发起的“ AI Challenger 全球 AI 挑战赛”中，UCloud 便作为唯一的 AI GPU 合作方，为大赛独家提供了 AI 模型训练服务（ UCloud AI Train ）。此次合作也验证 UCloud 在 AI 领域强大的研发实力、快速响应服务以及自身平台稳定性，为大赛的成功举办保驾护航。

作为国内领先的云计算服务商，UCloud 将继续深入研究 AI 训练平台的功能与性能，致力为用户提供更丰富的 AI 框架和分布式训练支持。同时，UCloud 还将结合 UAI-Service 在线服务平台，打造从 AI 训练到 AI 在线服务的一体化解决方案，全方位提升面向 AI 产业的服务能力。

目前尚无回复

GPU uai-train 训练 ucloud

UCloud AI Train 重磅来袭 打造智能一体化训练平台

AI 模型训练的痛点

智能一体化训练平台的三大核心优势

四大核心应用场景，助力企业 AI 业务发展

UCloud AI Train 重磅来袭打造智能一体化训练平台