来自上海游族网络的运维总监李志勇,在 3 月 4 日云栖社区中带来的分享“如何运维千台以上游戏云服务器”。本次分享重点是云时代的运维,包括游戏上云部署整体方案、游戏服务器批量运维管理,并对企业选择 RDS 还是自建 MySQL 数据库给出了自己建议。
关于分享者: 李志勇, 2010 年加入游族网络,目前担任游族网络运维总监,全面负责游族网络运维业务。他具有十年运维工作经验,八年游戏行业从业经验,专注于游戏虚拟化技术和网络优化。
(捉急^0^,试了半天还是不会发图片,捉急的同学直接戳这里>>视频回放地址: http://click.aliyun.com/m/4550/)
分享正文:
!游戏产品架构进化史
经过近七年的高速发展,公司游戏服务器从 100 台增长到 10000+台,游族整体游戏架构也经过了三个阶段的演变: • 公司早期广泛使用的第一代架构,当时主流的产品都是以 DB+计算+前端这样的 3 个角色开发设计并部署,服务器以物理机为主,一个游戏区组需要 2~4 台服务器,不同的机器承担不同的角色。这种架构方案效率低,基本上不可能实现一天开 100 个区组( 100 个区组大概需要 400 台服务器); • 随着业务量的增长和虚拟化技术广泛使用,游族整体游戏架构更新为第二代架构,全面采用虚拟化技术,把一台高配的物理机器虚拟化成多台符合游戏需求的虚拟机来使用,并实现了 ALL IN ONE 的系统架构。该架构方案运维效率高,适合规模开展游戏运营,但不具备业务高可用特性,一天开 100 个区组成为常态; • 为了迎合大区大服、全球同服,游族融合了前两代架构的特点,推出了第三代架构,按角色分拆并形成服务集群模式。集群架构结合了物理机与虚拟化的优势,实现弹性扩容,游戏逻辑以服务进程或集群配置项的形式提供服务。该架构方案运维效率更高,可实现秒级开服同时具备业务高可用特性。
基于第二代架构,游族基于 OpenStack 自己的私有云,最初目标是为了提高服务器利用率、降低成本和实现分钟级开服。运维团队以 OpenStack G 版为蓝本进行调优并修改;整个网络采用的是 VLAN 模式,保证最大限度与现有网络架构保持兼容;存储方面使用本地磁盘作为存储。
通过底层优化后,游族私有云基本上可以满足业务的需求,目前 90%游戏业务运行在上面,虚机规模持续保持在 10000 台以上,游族私有云平台没有提供 WEB 管理界面,日常所有的操作都是通过命令行和脚本的形式进行操作,但对于虚拟机的增删查改,重新封装了一层简洁的 API 接口实现与游族运维平台的对接。经过评估测验,在高峰时期,整个私有云资源利用率可达到 83%。
!运维方式的转变
与三代架构相互对应是游族运维的三个阶段:
!游族作业平台 UJOBS
系统化运维过程中使用的作业平台( UJOBS )是属于 C/S 的架构,其核心部分由任务调度器和 agent 组成,通过调用 API 接口完成多种形式的指令下发。 UJOBS 简单的来说是为服务器管理提供了执行命令的通道,将所有的执行命令和脚本在目标服务器横向执行完,把输出结果记录日志里面,同时可通过 WEB 界面实时查看分析。任务调度器是用来全局策略控制,进行并发量控制。任务列表里面保存任务的完整信息。指令仓库保存常用的命令个脚本和上下文关联的命令组合。 在 UJOBS 平台上,游戏版本更新流程如下:
!数据库备份与恢复
相对于游戏版本更新备份而言,数据库备份更为重要。 ALL IN ONE 模式或者非集群模式的游戏业务场景下,会存在多达好几千个 MySQL 实例,若是要按常规的 MySQL 备份方案来实施,管理难度和成本都要翻好倍。因此游族网络采用 Xtrabackup 在主库上直接备份数据文件方式,备份文件暂存本地;本地备份完成后在备份系统选举一台远程服务器进行异地备份;备份策略每小时一次备份,半小时本地备份半小时远程备份。该备份方法在单主库业务场景下可能是最靠谱的数据备份方案,但备份过程对主库会有影响、(限制 IO 操作),最坏情况下可能出现 1 小时的数据丢失(业务接受少量的数据丢失)。
在数据恢复方面,通过一键恢复工具,只需要提供恢复的 IP 、时间段和业务信息(如库名)即可实现数据恢复; 24 小时内的数据通过本地的数据恢复(结合二进制日志),超过 24 小时的数据通过异地数据恢复。
!云上迁移历程
现在游族已经将几款老游戏迁移到阿里云上。在将 ALL IN ONE 架构平滑迁移到云上的过程中,首先要求就是迁移过程不能长时间停服,只能接受正常的版本更新的停服时间。整个迁移过程分为以下几步: 第一步提前准备资源,在阿里云提前申请好资源,初始化环境并把 VPC 与自有机房的网络打通,实现内网互通为数据同步做好准备; 第二步提前同步数据,使用 Xtrabackup 备份在线把 MySQL 配置成主从同步模式,将数据同步到阿里云 ECS ,在一段时间后完成数据迁移。 第三步正式迁移,正常的游戏停服维护时间( 0.5~2 小时)就可完成业务上阿里云的迁移。目前已经平滑完成 3 款游戏产品的迁移,每款产品准备时间 3~5 天,正式迁移用时 1~2 小时,在阿里云平台使用的虚机超过 1000 台。
上图为 ALL IN ONE 架构迁移在阿里云后的游戏部署:游戏逻辑运行在 ECS 上,业务中使用 VPC 网络,通过自建的 ULB 对外提供服务。游族网络下一步计划将集群模式部署在阿里云平台上,游戏逻辑将在 ECS 集群运行,后端数据存储在 RDS 集群中,前端通过 SLB 和负载均衡保证业务高可用,同时会接入 LOG 和大数据计算服务 MaxComputer 确保大数据业务。
在迁移到云的过程中,阿里云的技术支持起到了关键作用,线上线下及时沟通,以及特定技术的定制,保证了整个迁移过程的顺利进行。
在游戏迁移过程中,遇到了很多困难,其中一点是选择自建 MySQL 还是 RDS 。根据游戏迁移经验,解决该问题,他认为应从以下三个因素进行考虑: 1.实例数量:实例数量多且业务规模小(无需进行针对性的优化)适合自建 MySQL 服务;实例数量不多业务相对会比较集中,数据库负载较高需要针对性的进行优化适合使用 RDS 服务; 2.数据大小:数据量的大小会直接影响到数据库性能和数据备份的机制,数据量越大越需要对数据库进行精细化管理,数据的备份难度也越大,这种情况下建议使用 RDS 服务,反之可自建; 3.成本核算:从实例规格来看 RDS 会比 ECS 自建 MySQL 要贵,但若是必须用到 RDS 的某些特性(如:数据安全和稳定性)时成本也就不会放在首要位置了。
与此同时,大数据量的自建 MySQL 可以采用延时同步的方法,此方法已在游族网络的女神联盟(手游)的集群架构方案中在使用。游族运维团队独创的数据备份系统、 UJOBS 、业务网关等独具特色解决方案确保了其业务量在行业内处于领先地位。
QA 环节:
1 、游族目前 的运维人员数量是多少?
答:游族网络最初运维团队在二十人以上,经过技术优化后,目前团队人数在十人左右。从原来的十几款产品到现在的三十几款产品,运维业务量增长一倍,整个运维团队人员缩减一半。团队不断将技术转化为生产力,这是一个持续推进的过程。
2 、从运维小白到总监的成长过程?
答:首先,我对运维这个行业保持很高的兴趣。从游戏对战平台接触运维开始,就愿意持续花时间投入游戏运维,曾耗费两天三夜的时间来处理运维中遇到的故障。当然最初也是从底层的运维人员做起,团队管理是被逼出来的,是一个慢慢成长的过程。在团队中,学习应居于首位,每个运维人员需要不断地学习,提升自己的能力。
3 、 DB 除了 MySQL 还有其他类型吗?比如 NoSQL 这类数据库是如何管理和部署的?
答:游族网络的产品绝大多数都是使用的 MySQL ,有少数产品使用了 Mongodb ,因为量少暂时还是通过手工管理;缓存业务有使用 Redis 但不存储关键数据, Redis 的数据备份使用数据备份系统进行集中管理,所有的软件部署都是通过标准化的业务模板进行管理的。
4 、在新方案中,大数据计算服务 MaxComputer 的应用场景是什么?
答:在游族之前的架构中,游戏日志是分开存储,易丢失。在新的架构中,通过 Log 服务将游戏日志搜集到大数据计算服务 MaxComputer ,对后续的游戏和运维数据分析提供便利支持。
5 、数据库的部分是单 DB 多实例吗?有没有启用分布式 DB 的架构呢?
答: ALL IN ONE 架构下,在一个 MySQL 实例中只运行一个业务;在集群架构下,在单 DB 实例下,会运行多个业务,分布式 DB 架构也相应是必备的。
6 、游族私有云是用的 OpenStack ,本身组件很多,后续和公有云之间如何衔接的?
答:目前游族使用 OpenStack 仅限于机房,短时间内不会与社区版本同步,机房内修改和使用都很简单,整个 OpenStack 定制和修改不多,更多着重于框架的使用。
7 、国际节点和国内节点的高可靠链路如何建立?
答:该链路使用的基本资源是遍布全球的阿里巴巴骨干网,阿里云是将自己的资源分享出来给使用 VPC 的客户,实现国内外高可靠链路的建立。
视频回放地址: http://click.aliyun.com/m/4550/
幻灯下载地址: https://oss.aliyuncs.com/yqfiles/a4fa09bc8a0a2a559df4b93839437a88.pdf