V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ctrlmymood
V2EX  ›  服务器

请问大佬们,给 100 台服务器装软件、改配置等,运维,推荐什么方法好

  •  
  •   ctrlmymood · 166 天前 · 5790 次点击
    这是一个创建于 166 天前的主题,其中的信息可能已经有所发展或是发生改变。

    什么软件运维 100 台机器比较合适,后期理论可能扩容 1000 台

    需求:

    1. pxe 会批量部署基础软件,我目前主要方式写个脚本放在/etc/profile 文件,系统启动就检测,有就 ok ,没有就装
    2. 已经运行得机器,批量修改相关配置,或者部署软件之类,目前看 ansible 方式,或者 pssh 系列
    3. 后期涉及到装备开发,会批量给机器更新 bios 固件等

    提问:
    大佬们,我目前就是只能想到 ansible ,但是老板希望带 WEB UI 页面操作,但是我只会 python , 难整啊,半路侧开过来得

    52 条回复    2024-06-25 15:07:33 +08:00
    ladypxy
        1
    ladypxy  
       166 天前 via iPhone
    scam/ansubke/puppet
    xustrive
        2
    xustrive  
       166 天前
    100 台机器 这规模不得了。
    mightybruce
        3
    mightybruce  
       166 天前
    1000 台 ansible 也慢。

    还有一些基于 SaltStack 的自动化运维平台 可以看看
    huage
        4
    huage  
       166 天前
    我有一个疑问:有一百台服务器的公司,为什么让你来管?你经验丰富?
    huage
        5
    huage  
       166 天前
    你没经验但是老板信任你,你不是应该找有丰富经验的人组建团队么?难度你没经验也不找人,想从零开始搞?
    xderam
        6
    xderam  
       166 天前
    pssh 一把梭,ansible 入门门槛不低的。如果你的 100-1000 机器标准化的,ansible 给你带来的并不一定有 pssh 有多大效率。还有就是 你没说要不要状态一直保持。有这个需求就上 puppet 之类的。如果没需求,只是平时批量操作一下的话。saltstack 也可以,但也有一些些的门槛。

    老板喜欢 web 就给他弄个 web ,自己干活的时候还是 cli 。这样哪边都不得罪。

    最后 你没说这些机器平时的维护频率 场景等等,另外就是 huage 说的,这种规模不是个团队,最起码也得两个人管了。你们商量下,而且还有各种 oncall 和其它杂七杂八的事。恩。。。别着急, 等你离职的时候再来回复。
    dbak
        7
    dbak  
       166 天前
    国内 jumpserver 、spug 都行
    defunct9
        8
    defunct9  
       166 天前   ❤️ 13
    开 ssh ,让我上去看看
    ounxnpz
        9
    ounxnpz  
       166 天前
    如果是 AWS ,可以选择自建 AMI 镜像,其他云服务商也有类似的服务。
    Sayuri
        10
    Sayuri  
       166 天前
    ansible 2.10 + mitogen
    ctrlmymood
        11
    ctrlmymood  
    OP
       166 天前
    @huage #4 产线躺平,我这边老板想把活抢过来,服务器基本是组装好,固件刷好,极端条件 改一些配置或者部署一些不常用软件,然后检测通过,就卖了,不会长时间维护同一批货
    ctrlmymood
        12
    ctrlmymood  
    OP
       166 天前
    @huage #5 老板的意思 能搞就先搞搞看,要出一定成绩才有机会加人,的确从零开始,因为产线现在工控还是母盘挂载手动装、检
    williamherry
        13
    williamherry  
       166 天前
    ctrlmymood
        14
    ctrlmymood  
    OP
       166 天前
    @xderam 基本就是出厂前的固件、驱动部署、特定软件部署、版本检测,然后过了就卖给客户了,这边侧重点是卖硬件,同批次产品不做长期维护,但这个事肯定是长期重复做+不断提新需求
    ctrlmymood
        15
    ctrlmymood  
    OP
       166 天前
    @defunct9 这几乎不可能,基本内网,也不允许外访或者被外访
    ctrlmymood
        16
    ctrlmymood  
    OP
       166 天前
    因为目前的确是从零开始,我的想法是先把这个事情给做了,后期再优化给老板画饼 ,借鉴各位大佬的建议选择一种干

    我当下思路是:
    pxe 装机,再 ks 文件把所有能办的需求全部写入到一个 shell ,然后 pxe 过程中就把那些事情给办了,不行就放到/etc/profile 里,开机自动检测,有就不装,没有就装,唯一麻烦的收集结果 log 麻烦点
    ghostwwg
        17
    ghostwwg  
       166 天前
    ansible+awx 后者是前者的 webui 。
    sampeng
        18
    sampeng  
       166 天前
    如果是产品化,一个思路:去看 ubuntu 的 iso 怎么做的。打成 iso 。全自动安装。基本做完 iso 扔给工厂就不用管了。如果是脚本或者是工具,100 台。1000 台的时候你做得再好都是各种小事故不断。
    sampeng
        19
    sampeng  
       166 天前
    因为是 iso 了。。工厂或者生产的地方有个 pex 服务器。。只要开机就全自动安装上了。全自动。
    sampeng
        20
    sampeng  
       166 天前
    因为我们就是这么做的。之前就是 ansible.有多痛苦呢?产线的人可不懂命令,然后为了差异化各种参数。产线每生产几台就要找我们排错。非常通过。然后我就琢磨了一个 iso 的方式,这是唯一可解的。研发输出是什么产线做出来就是什么样子。iso 是可以 sum 验证的,只要 iso 本身没做错。和测试的结果是完全一样的。脚本就不一样了。。。

    当然,有非常多的技术细节要处理。但处理完了。以前,我们是天天被产线找。现在,CI 出 iso ,工厂自己去拿 iso ,校验完自己装,都不用他们操作。插上 u 盘启动(不能用 pxe 。。。fuck 。。。)。后面 iso 的安装都是全自动的。现在整个流程都不需要我们参与。
    buerle
        21
    buerle  
       166 天前
    ansible 或者 jenkins 写自动化脚本。 其他的一些 cicd 的应该也可以。
    dog82
        22
    dog82  
       166 天前
    我能想到的是写 ssh 脚本
    bthulu
        23
    bthulu  
       166 天前
    搞无盘系统, 你维护一台机子就行了
    NevadaLi
        24
    NevadaLi  
       166 天前
    @ctrlmymood ansible+awx +1 ,或者上 ansible tower ,都有 gui
    NevadaLi
        25
    NevadaLi  
       166 天前
    @ctrlmymood 监控可以用 checkmk 或者 Prometheus+grafana
    Hopetree
        26
    Hopetree  
       166 天前
    如果要管理,应该要上 CMDB 吧,有 CMDB 就可以通过 agent 批量跑脚本和命令了,1000 个不算啥,一下子跑完。如果不上 CMDB 那应该是 ansible 比较好
    NevadaLi
        27
    NevadaLi  
       166 天前

    checkmk 有 gui
    ugpu
        28
    ugpu  
       166 天前
    OP 的意思来看是卖机器 ISO 吧 ansible 啥的就算了.
    ugpu
        29
    ugpu  
       166 天前
    可以聘用我兼职 来一套 ansible + awx 图形界面 并且配置好. 嘿嘿嘿.
    ugpu
        30
    ugpu  
       166 天前
    上面开玩笑的... 讲道理 ISO. 其他的 学习+ 维护成本太高了.
    ansible 就算你学 时间成本在那 没办法的
    yinxs2003
        31
    yinxs2003  
       166 天前
    python 写个客户端,这个客户端就是 web 服务,把客户端部署到你需要监控的机器上,根据 url 进行执行安装命令就行了,顺便还能收集机器运行参数,感觉不用上面各位说的那些包什么的
    yinxs2003
        32
    yinxs2003  
       166 天前
    再写个 server 端下发命令就行了
    @yinxs2003
    aru
        33
    aru  
       166 天前
    直接 DD 就好了,自己维护一个源盘
    yinxs2003
        34
    yinxs2003  
       166 天前
    收集完参数还能生成报表,老板们最喜欢看报表了
    x86
        35
    x86  
       166 天前
    搞那么快做啥,慢慢整摸鱼不舒服吗
    dode
        36
    dode  
       166 天前
    多搞几个控制节点,并行处理
    Hopetree
        37
    Hopetree  
       166 天前
    你需要的是这种产品,有 CMDB 的管理平台
    ![]( https://tendcode.com/cdn/2024/04/202406201722810.png)
    baizhu
        38
    baizhu  
       166 天前
    看来用 ansible + awx 的不少哇
    sampeng
        39
    sampeng  
       166 天前
    @ugpu 卖机器,iso 是唯一解。ansible 是机器在自己手上维护。这么多楼都还在说 ansible+awx 。。。。卖出去的机器就是一锤子买卖
    elboble
        40
    elboble  
       166 天前 via Android
    没人提 ansible
    corvofeng
        41
    corvofeng  
       166 天前
    如果能连公网可以考虑 aws ssm 来管理 不能连的话可以考虑下腾讯的 blueking 仅建议
    lucky85984
        42
    lucky85984  
       166 天前
    都有 web 了还要你动手吗,坚决不给做
    ctrlmymood
        43
    ctrlmymood  
    OP
       165 天前
    @NevadaLi #24 thank you!
    ctrlmymood
        44
    ctrlmymood  
    OP
       165 天前
    @sampeng #18 不会制作 ISO ,老哥有没有推荐的网址供学习下,另外要搞国产系统,比如麒麟
    ctrlmymood
        45
    ctrlmymood  
    OP
       165 天前
    老哥是内存装特制系统吗? 这块有学习资料吗?以前搞过 openstack ironic ,但是镜像都是开发给的,现在这边没这种能力的开发,唉
    ctrlmymood
        46
    ctrlmymood  
    OP
       165 天前
    @ugpu #29 主要卖机器,但是现在上面的想法多了,主要是生意大了,小问题不断,领导们希望从产线把控质量检测这块,然后又走到自动化这块,
    成本卡的很死
    ctrlmymood
        47
    ctrlmymood  
    OP
       165 天前
    @Hopetree #37 老铁 ,大老板就喜欢这种,但是我理解这个一般需要定制开发,公司请不起,暂时也不想请
    ctrlmymood
        48
    ctrlmymood  
    OP
       165 天前
    @bthulu 老哥是内存装特制系统吗? 这块有学习资料吗?以前搞过 openstack ironic ,但是镜像都是开发给的,现在这边没这种能力的开发,唉
    duanxianze
        49
    duanxianze  
       165 天前
    这么大的规模就一个人搞嘛?不至于把?
    sampeng
        50
    sampeng  
       165 天前
    @ctrlmymood 只能说给了你思路。需要的就是你自己查资料了。看你回复都是直接伸手要。
    前面还有更简单的,dd 大法,以前做一个产品要生产上万的设备。只有 dd 大法是唯一解的。不过当时是系统盘不在 raid 上。有个母盘,买个硬盘拷贝器。一天生产上万机器都没问题。只要保护和做好母盘就完事了。这个只有是系统盘没有 raid 的情况。还有系统安装,数据初始化,很多工作也是要提前在系统里面做好的。也不容易。

    要想把一个事做完美是肯定要投入精力和查资料的能力的。
    给个思路吧,如果是 iso 路线
    1.iso 是怎么得到的,ubuntu 怎么做打包的。麒麟是怎么做打包的到的,只要是开源的你没找到说明找的方式不对
    2.打包的时候要处理哪些业务问题,能不能在打包过程中解决,产品怎么打进 iso 里面。这是第一步做到后才能考虑的第二步。
    3.打包自动化怎么做。有没有不变的部分。不可能自己电脑上打包。

    如果是 DD 路线:
    1.做好母系统,也就是系统在安装完之后,没有数据初始化时的状态。
    2.数据初始化怎么做?在哪一步做,初始化后怎么检查所有安装都是可靠的和靠谱的

    这条路是如果是产品化卖机器给别人,还想把质量做好唯一解。ansible 不是不可以。就等着每天救火吧。



    @duanxianze 我就一个人搞。。也就 1 个月的功夫。。。
    chilaoqi
        51
    chilaoqi  
       165 天前
    1Panel 年底支持多主机版本了。

    如果你这个软件可以上它的应用市场(或者自定义市场),我是不是理解为就可以了。
    顺带帮一个来我们公司的美女销售发一下推荐码,做的确实不错。

    https://imgur.com/a/tdrCza4
    eeFsulG2m52x5kD0
        52
    eeFsulG2m52x5kD0  
       161 天前
    有需要云服务费的发票的吗?腾讯云的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1577 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 17:00 · PVG 01:00 · LAX 09:00 · JFK 12:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.