降低 20%成本，国内首个 GPU 可用区上线

如果想在 V2EX 获得更好的推广效果，欢迎了解 PRO 会员机制：
https://www.v2ex.com/pro/about

如果你经常使用铜币置顶主题，持有 V2EX Solana Token 会在每日签到时获得额外铜币：
https://www.v2ex.com/solana

This topic created in 2697 days ago, the information mentioned may be changed or developed.

2015 年，UCloud 在国内云厂商中首先推出了 K80-GPU 云主机。此后，我们又相继推出了 P40、V100 等 GPU 云主机、定制化物理机以及 UAI-Train、UAI-Inference 等以 GPU 为基础的 AI 产品，为人工智能用户持续创造价值。如今，我们更进一步，推出专门的 GPU 可用区。通过对架构精裁，其相比于普通可用区，GPU 价格降低 20%，带宽价格降低 64%，并支持 10G/25G 物理网络和 VPC 私有网络，凭借独享性能、丰富产品互联、自助购买、按月租赁，帮助用户避免自行维护 GPU 集群做 AI 训练的高昂投入。

目前，福建 GPU 可用区 A 已对全部用户开放，并支持在控制台直接购买下单。

降低 20%成本，支持按月付费

GPU 使用成本高，一方面是 GPU 卡本身非常昂贵，另一方面功耗与机柜成本几乎占据了整体成本的 40%，而这部分成本可以被有效降低。为此 UCloud 在国内臻选电力成本较低且符合基础标准的机房建立 GPU 可用区。此次上线的 GPU 可用区位于福建省，为省级骨干 IDC 机房，符合国际数据中心标准 Tier3，提供移动线路。

UCloud 的云计算核心原本为标准可用区设计，目的是支撑上万级别的服务器，近百种不同的云计算服务。为了提升整体性价比，我们花费 1 周时间，便对 GPU 可用区快速进行了定制，推出了一个全新版本的迷你型云计算核心，内部代号“蚂蚁”。“蚂蚁”核心压缩了超过 50%的云控制面成本，依然能支撑起完整的物理云主机与网络产品并提供稳定的服务。

受益于功耗、机柜、云计算核心摊销成本的降低，GPU 可用区的物理云单价比 UCloud 其他标准可用区都要便宜 20%。以 V100 物理云为例，GPU 可用区在北京二可用区 E 的列表单价降低 5000 元 /月，和业内相比也有突出的价格优势。UCloud 亦提供更具性价比的 GPU 机型可供选择。

GPU 可用区的计费模式与其他可用区一致，物理机支持按月与按年付费，可随时释放。用户不必一次性投入巨大的开支，可自如增减集群规模，应对市场的动态变化。此外，福建 GPU 可用区提供移动单线网络，带宽费用比其他可用区降低 64%。

最大单精浮点性能 104 TFLOPs，独享物理机

GPU 可用区以成熟的物理云产品体系为依托。计算、存储、网络性能均没有任何虚拟化带来的额外开销。这对 AI 训练这样看重绝对性能的场景非常重要。

一台 GPU 物理机最大能支持 104 TFLOPs 的单精度浮点性能，约等于 2000 颗 CPU 的算力。采用 10G 与 25G 两套物理网络环境。25G 网络带来更高的集群运算效率，集群规模≥10 台计算节点时，均推荐采用 25G。和普通可用区提供的 GPU 云主机相比，整体性能翻倍。

物理云主机产品已实现后台资源交付入库、系统装机等流程高度自动化，并支持多种镜像、多种 RAID 模式可选。用户直接在控制台点选后就自动执行装机操作，30 分钟内装机完成即可使用，免去传统物理机运输、搭建、部署、调试等冗长过程。

物理云主机装机中

针对物理机难以避免的硬件故障隐患，UCloud 硬件运维团队维护了详细的固件问题列表，发现隐患会及时发起固件的全网升级；物理云主机在交付用户前、用户退还机器后均会自动执行完整的硬件检测。此外物理云集成了 UCloud 监控平台，通过监控提前发现磁盘故障、GPU 卡温度过高等硬件问题，并通知 NOC 团队快速处理(7*24 小时)。

GPU 物理云的网关有 A/B 两套互备集群，网络流量可在 AB 集群之间平滑切换。由于此架构，在主网关出现故障时能实现快速切换到备用网关，最小化对用户的影响；亦能通过集群切换实现网络架构的平滑升级。通过这套模式，北京地区的物理云集群实现了从 10G 网关到 25G 网关的在线动态升级，用户除了低峰期网络瞬断外完全无感知。未来 GPU 可用区的网关也能通过这种能力不断更新版本。

物理云网关互备集群

丰富的产品互联

GPU 可用区支持标准的网络产品，包括弹性 EIP、私有网络 VPC、NAT 网关等。未来计划将上线高速通道 UDPN，和广州可用区互联。

在 AI 训练场景下，TB 级别的训练数据如何搬迁上云是用户的核心诉求。UCloud 提供高性能 NAS 盘柜寄送服务，可支持最大 100T 的离线数据搬迁，传输作业完成后，会以低阶格式化方式擦除数据，以确保数据安全。

分布式训练场景下通常需要大容量的中央存储节点。GPU 可用区目前提供 SSD 磁盘的高性能物理机作为存储节点。后续将提供 UFS （分布式文件存储）产品，给用户提供最优的存储选择。

对福建 GPU 可用区有任何建议和疑问，欢迎点击 http://ucloudtml.mikecrm.com/aiTDtNg 垂询。

No Comments Yet

可用区 GPU 物理 ucloud