V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
brainzhang
V2EX  ›  奇思妙想

能否建立一个的 AI 训练众包平台

  •  
  •   brainzhang · 2023-06-14 09:49:31 +08:00 · 5703 次点击
    这是一个创建于 463 天前的主题,其中的信息可能已经有所发展或是发生改变。

    已经有很多人讨论过这个点子了,就像挖矿一样;能否建立一个的 AI 训练众包平台;家里有显卡的小伙伴可以把闲置的设备租出去赚取收益;而没有强力计算设备的用户无需花费大量资金购买设备, 只需登录平台,提交任务即可进行 AI 训练;

    之前的技术瓶颈在于几乎不可能将大规模的 AI 训练拆分成一个个分布式的小任务,因为数据量庞大,并行交换要求高速的带宽等等;但是目前像 Stable Diffusion 这样的图像处理任务,一旦部署了稳定和标准化的模型,是可以将任务拆分为极小的数据单位的;这样技术上就能将一个个任务分配给某一台个人 PC 去处理;

    我拍脑袋想了一下,建立这样一个平台的难点在于反作弊和计算量评估;这两点应该都有合适的解决方案;

    • 反作弊可以参考挖矿的算法,为每个客户端生成一对 公 /私钥, 服务端下发每个计算任务时,采用私钥加密;客户端上传每个计算任务时,采用公钥加密;

    • 计算量评估先期可以采用服务端评估的方法;后期可以通过下发任务给配置类似的客户端,采用同一个客户端并行执行同一任务,然后比较计算时间,来建立一个靠谱的计算量评估机制

    • 最后是防止滥用和羊毛党,可以采用信用评分,对于完成任务优秀的客户端打高分,给它分配更多更高收益的任务,从经济系统上进行激励;

    我搜了一下,目前这个点子的相关项目不是很多,都在起步阶段,我觉得挺有前景的;

    大家讨论一下,这个项目在 技术 /商业 /可行性 上有哪里漏洞?

    我在 github 上建立一个一下项目,有兴趣的小伙伴可以去讨论下:

    https://github.com/aitobox

    第 1 条附言  ·  2023-06-14 11:14:43 +08:00
    我的描述可能不是很清楚;再补充一下;

    这个众包平台并不是要把大模型训练这个过程拆分;而是把一个个完整的任务,比如一个文生图这样的任务,分发给平台上各个接单设备;

    这种单个的、使用固定模型、使用标准化参数输入的任务,是可以分别派单的;

    这个平台不涉及高深的训练算法;只是想把咸鱼画图接单流水化而已;
    第 2 条附言  ·  2023-06-14 13:59:54 +08:00
    再次补充:

    这个平台可以先不涉及高大上的边缘计算、联邦计算、多卡并联等等等等;
    他就是个 AI 算力的咸鱼平台,可以先做一些单卡运算的推理任务;
    82 条回复    2024-06-03 15:52:33 +08:00
    xingHI
        1
    xingHI  
       2023-06-14 10:11:57 +08:00
    人工智能训练本质上也是数学计算的过程,所以分布式肯定是没问题的。但是有一些比较麻烦的问题
    1. 你不可能把整个模型都放在客户端,你需要对你的神经网络进行拆分,或者把特定的技术分开,这个拆分目前是否已经有成熟的方案?
    2. 神经网络的本质是完整的链接反应和反馈修正,万一某一台没有完成任务,你是不是需要重新分配,那么后面的连接内容是不是就不能继续,就要等待这个完成,这个如何进行优化?
    3. 从商业角度来看,你这一套东西之成本,是否比现在成熟的公有云 GPU 算力平台便宜?
    brainzhang
        2
    brainzhang  
    OP
       2023-06-14 10:13:51 +08:00
    拍脑袋简单想一下设计思路;
    简单的分为 Client 和 Server 两个部分:

    Server 端功能:
    =========

    - 用户注册和认证:提供用户注册和认证功能,确保只有经过验证的用户才能使用平台服务。

    - 任务管理:实现任务创建、分配和执行跟踪功能。将用户提交的任务进行分配给可用的 Client 端,并跟踪任务的执行状态和进度。

    - 收益统计和分配:记录用户的工作量和收益情况,并根据平台规则进行收益分配。确保公平和透明的收益分配机制。

    - 防作弊机制:实施防作弊机制,采用非对称机密算法确保 Client 端的安全性和工作量的保护。


    Client 端功能:
    =========

    - 安装和配置:用户加入平台后,需要下载和安装 Client 端程序,并进行必要的配置,包括与 Server 端的通信设置和密钥管理。另外要部署好完成任务所需要的环境,比如 StandAlone 的 Stable Diffusion 环境

    - 任务接收和执行:Client 端接收由 Server 端分配的任务,执行任务所需的计算操作,并生成结果。

    - 结果上传:完成任务后,Client 端使用公钥加密任务结果,然后上传至 Server 端进行验证和处理。



    防作弊机制:
    =========
    - 非对称加密算法:为每个 Client 端生成一对公私钥,Client 端只持有公钥。Server 端使用私钥对任务进行签名,Client 端使用公钥验证任务有效性,以确保任务的安全传输。

    - 结果加密:Client 端使用公钥加密任务结果,上传至 Server 端。Server 端使用私钥解密任务结果,确保结果的保密性和完整性。


    任务工作量验证和奖励机制:
    =========

    - 任务积分:根据任务的计算量大小,为任务分配一定的积分,以反映任务的工作量。

    - 并行执行和结果比对:Server 端可以将一个任务分配给多个 Client 端并行执行,然后将结果进行比对,以确保结果的准确性和一致性。

    - 信用评分:根据 Client 端的历史记录和表现,进行信用评分,评分高的 Client 端可以获得更高的任务奖励,激励诚实工作和打击造假。


    总体设计目标:保证平台的安全性、可靠性和公平性,促进用户的参与和奖励诚实工作。
    brainzhang
        3
    brainzhang  
    OP
       2023-06-14 10:18:38 +08:00
    @xingHI
    1. 现在想要实现分布式的神经网络训练肯定是技术难度极大的;但是本地跑一个图像生成的任务,肯定是能拆分独立运行的;先做简单的

    2. 先不优化,大力出奇迹;接入客户端多了,可以一个任务同时分担到多个矿工机器上去,最后人工或 server 端挑选跑的结果比较好的

    3. 这个跟公有云应该是错位竞争;它肯定不如公有云靠谱,毕竟接入的机器可能从 1060 到 A100 都有;但是肯定是能重复利用闲置设备的;这个我觉得算是众包和集中运营各有优势;这种众包形式可以给囊中羞涩的学生或者小工作室提供一个可选项;大公司就去租公有云;
    brainzhang
        4
    brainzhang  
    OP
       2023-06-14 10:20:28 +08:00
    可以更具体一步,当前把 stable diffusion 做成这种众包形式,我觉得技术上应该没有瓶颈吧;
    brainzhang
        5
    brainzhang  
    OP
       2023-06-14 10:22:15 +08:00
    至于模型太大,客户端太臃肿,这个真不用考虑;

    当时不是有一堆零知识证明的币,要挖矿就要先下载一个十几 GB 的数据包,大家不也是玩的不亦乐乎嘛
    crokily
        6
    crokily  
       2023-06-14 10:29:59 +08:00
    @brainzhang
    那怎么拆分呢,确定能拆的出来吗
    brainzhang
        7
    brainzhang  
    OP
       2023-06-14 10:32:44 +08:00
    @crokily 就拿 stable diffusion 举例子吧;最简单的,就是把 stable diffusion webui 的 Request 请求包装,传给客户端就可以了;每次生成一张图片,请求数据并不大啊;

    这个细节在于一个靠谱的、下载好常用模型的 standalone stable diffusion Client ;加入众包平台,等着平台派单就可以了;
    zooo
        8
    zooo  
       2023-06-14 10:39:23 +08:00
    之前有过类似的想法,我记得之前有个帖子讨论过这种情况,好像有人给出过一个项目在做类似的事情

    整体想法就是 将 AI 计算 与 挖矿的工作量证明结合起来

    难点是防止客户端恶意造假,比如并没有计算而给出错误的计算结果;还有就是估计计算量。

    第一点我觉得通过加密的方式也不太好结果,通过多个客户端冗余计算倒是可以解决一些,缺点就是计算浪费了一部分。
    hhjswf
        9
    hhjswf  
       2023-06-14 10:40:27 +08:00 via Android
    早就有了吧
    brainzhang
        10
    brainzhang  
    OP
       2023-06-14 10:43:59 +08:00
    @zooo 我看过那个帖子;我觉得非要跟工作量证明挂钩大可不必;这个目的并不是建立一个去中心化的绝对公正的平台;而是一个比较可行的众包平台;比如我作为运营商给计算用户分配任务,不需要绝对公平,只要让他觉得相对比较公平的任务积分就可以了; 初期甚至可以这样,人工来判断这个任务值多少积分,然后下发给合适的接单者;

    这个过程初期都可以用人工,后期完成的任务多了,设备也多了,可以从服务端进行统计,为每一个任务建立合适的积分奖励;
    brainzhang
        11
    brainzhang  
    OP
       2023-06-14 10:45:38 +08:00
    @hhjswf 我就找到了一个类似的,也是刚刚在做:
    https://github.com/aitobox/AI-Horde

    请问您有什么成熟的类似平台推荐一下?我去试用试用,感激不尽;
    zooo
        12
    zooo  
       2023-06-14 10:47:47 +08:00
    @brainzhang 那你这个项目就是偏向将 AI 任务拆分,分布式计算,通过用户自己使用自己的机器接任务。
    zooo
        13
    zooo  
       2023-06-14 10:48:33 +08:00
    我想太多了,想复杂了

    看到有加密就想到了挖矿哈哈哈哈
    OysterQAQ
        14
    OysterQAQ  
       2023-06-14 10:50:44 +08:00
    搜一下边缘计算的论文吧 还涉及到一堆恶意回传梯度的问题
    hhjswf
        15
    hhjswf  
       2023-06-14 10:52:40 +08:00 via Android
    @brainzhang 恒源云算力变现计划
    NSAtools
        16
    NSAtools  
       2023-06-14 10:58:01 +08:00
    了解一下东数西算战略
    brainzhang
        17
    brainzhang  
    OP
       2023-06-14 11:05:56 +08:00
    @hhjswf 这个我看了;感觉它做的比较高大上,是想要做一站式的分布式 GPU 平台;

    我想的这个比较简单,初期可以看成是 Stable Difussion 的众包平台;没有那么通用和底层;
    Pteromyini
        18
    Pteromyini  
       2023-06-14 11:09:50 +08:00   ❤️ 2
    你想做的实际上跟边缘计算有异曲同工之处,问题是现阶段技术没法做到,而深度学习网络拆分更是大问题,并行计算一直是研究的热门方向,很遗憾,目前并没有太完美的解决方案
    glfpes
        19
    glfpes  
       2023-06-14 11:10:52 +08:00
    单卡的训练,做成众包模式肯定没有问题

    只是需求端一般是公司或者是科研机构,比起成本更追求服务稳定性,所以这个众包平台的目标客户只能是个人玩家。目前个人玩模型的还是少数,预期也不太可能人均训练模型。所以可能需求不大。
    sujin190
        20
    sujin190  
       2023-06-14 11:11:26 +08:00
    数据安全也是一个很大问题,训练用的数据可都是各大公司的资产,云厂商可以通过签署合同承担责任,个人用户你没法约束他而且也不稳定,而且把现在普通显卡和专业超算算力差距会越来越大,大概率得不偿失

    再说吧复杂模型必须只能是大厂商巨额投入才能玩得动的,否则如何建立护城河,越是难以进入的领域就代表着越高的回报,资金对于他们来说完全不是问题,所以这个的发展方向只会是更大更贵更复杂
    brainzhang
        21
    brainzhang  
    OP
       2023-06-14 11:12:59 +08:00
    @Pteromyini 我的描述可能不是很清楚;这个众包平台并不是要把大模型训练这个过程拆分;而是把一个个完整的任务,比如一个文生图这样的任务,分发给平台上各个接单设备;

    这种单个的、使用固定模型、使用标准化参数输入的任务,是可以分别派单的;

    这个平台不涉及高深的训练算法;只是想把咸鱼画图接单流水化而已;
    chesha1
        22
    chesha1  
       2023-06-14 11:15:07 +08:00
    stable diffusion 本来就是推理,推理当然可以在边缘平台上随便拆分了,你的手机都能跑推理
    但是大家现在的需求主要是训练,这个不好拆分
    brainzhang
        23
    brainzhang  
    OP
       2023-06-14 11:19:58 +08:00
    @chesha1 对的;我就是想做一个比较通用的推理众包平台,上面可以运行 stable diffusion 文生图、声音转换等等现成的模型任务;这些任务是可以单卡运行的;

    至于需求,这个真不好说;我只能说这个跟公有云是错位竞争,面向个人爱好者和小工作室,不是给大企业训练模型用的;
    Genii
        24
    Genii  
       2023-06-14 11:27:50 +08:00
    联邦学习?
    monkeyWie
        25
    monkeyWie  
       2023-06-14 12:12:31 +08:00
    感觉是个不错的点子,就看怎么抽象和设计了
    xu11111111
        26
    xu11111111  
       2023-06-14 12:15:31 +08:00
    可是怎么确保不传回假的数据呢,我直接瞎掰一个结果返回给你你怎么知道
    就算采用多个设备一起计算
    可是不同的设备的随机过程就不一样啊?他和挖矿不一样带了一点开奖的性质在
    这样的话服务端怎么确保客户端真的算了呢

    - 任务积分
    - 并行执行和结果比对
    - 信用评分

    在可以造假的情况下,12 直接没有意义,3 应该是基于历史的 2 进行评分的吧,那也没有意义了

    人工判断?那也太闲了,不同人的主观性如何修正?

    综上,感觉不如直接卖设备
    chesha1
        27
    chesha1  
       2023-06-14 12:23:44 +08:00
    @brainzhang 关键是推理的需求真不大呀,训练需要快速出结果,迭代提高性能,算法工程师的工资烧着玩是大厂不能接受的
    但是推理不在乎速度有多慢,就还拿你举的 stable diffusion 的例子,我把参数设置好,跑一个小时还是两个小时有影响吗?睡觉的时候开着电脑跑就行了
    大多数人的手头的设备无法支持需求大显存的训练,但是推理还是能支持的,它们恐怕不太愿意再花钱买推理服务,毕竟手头也有设备,无非就是跑慢一点
    brainzhang
        28
    brainzhang  
    OP
       2023-06-14 12:23:50 +08:00
    @xu11111111

    反作弊确实是个问题;但我认为并不是无解的;

    1. 首先,像文生图这样的任务,如果传入相同的参数,指定同样的模型,其结果是固定的,并不是随机的;所以可以通过相同任务分给多个接单者,然后进行结果比对,来排查有没有作弊;

    2. 因为最终用户会感知结果好坏,可以像咸鱼那样,对接单者和用户都建立评分机制;久而久之,可靠的接单者和可靠的用户自然会脱颖而出;这样就形成了类似于 信用极好者与信用极好者 交易的氛围;就从经济机制上反作弊了

    3. 平台人工判读;首先我觉得做好了 1 ,2 ,需要人工判读的时候并不多;至于太闲了或主观性,想想内容审查就知道了;判断一个 AI 文生图好不好,总比内容审核靠谱简单多了;
    brainzhang
        29
    brainzhang  
    OP
       2023-06-14 12:26:15 +08:00
    @chesha1 您说的就是问题所在啊,有的人显存并没有那么大;他不可能为了生成一张图去买个显卡吧;也不太可能去买个公有云服务去搞一遍搭建吧;只能去用像 midjourney 这样的现成的服务;或者他就想一次快速生成 1000 张图片,去买公有云的价格肯定不便宜;

    一个 all for one ,one for all 的众包平台,会极大的降低成本;
    Pteromyini
        30
    Pteromyini  
       2023-06-14 13:21:52 +08:00
    @brainzhang #28 1 就有问题,结果不是固定的,他确实是随机的,训练过程必然会添加 noise ,2 好坏与设备无关,更多看运气,要不然也不会把深度学习称为炼丹了
    brainzhang
        31
    brainzhang  
    OP
       2023-06-14 13:38:27 +08:00
    @Pteromyini

    有 noise 的训练先不分给新来的接单者做;

    先把固定参数、固定模型的推理任务交给新人做;像 stable difussion ,固定的参数配置输入,结果是相同的,可以分给三个人同时做,然后比对结果;

    随机的训练交给"信用极好"者来做;信用只能通过时间和任务来累积;这样就从经济模型上规避作弊风险了;
    woctordho
        32
    woctordho  
       2023-06-14 13:45:16 +08:00 via Android
    AI Horde 已经相当成熟了,它就是一个大模型(包括图片生成和文字生成)的众包平台
    woctordho
        33
    woctordho  
       2023-06-14 13:46:48 +08:00 via Android
    建议楼主先搞清楚“训练”和“推理”这两个概念,普通用户输入文字输出图片不叫“训练”,叫“推理”

    随机数的问题只要给定随机种子就行了
    brainzhang
        34
    brainzhang  
    OP
       2023-06-14 13:50:24 +08:00
    @woctordho 是的;我的用词不严谨;这个平台主要作用是推理;

    当平台通过用户的推理任务完成度,建立信用机制后;可以引入一些训练的任务;
    lambdaq
        35
    lambdaq  
       2023-06-14 13:52:09 +08:00
    为什么要拿显卡训练,因为显存在 CUDA core 之间数据复制效率有要求。。。。

    你分布式训练,怎么解决各个显卡之间的带宽和延迟问题?
    woctordho
        36
    woctordho  
       2023-06-14 13:57:41 +08:00 via Android
    @lambdaq 分布式训练也有人试过,比如 https://training-transformers-together.github.io/

    他们估计分布式训练中 IO bound 的部分在过去两年里已经快了一万倍,继续进化的话因特网上通信的速度赶上几年前 NVLink 的速度也不是不可能
    brainzhang
        37
    brainzhang  
    OP
       2023-06-14 13:58:01 +08:00
    @lambdaq 前期可以只做单卡运行的推理任务;
    lambdaq
        38
    lambdaq  
       2023-06-14 14:04:06 +08:00
    @woctordho 延迟呢?一卡有难万卡围观?
    shalingye
        39
    shalingye  
       2023-06-14 14:05:36 +08:00 via Android
    这个项目我王多鱼投了!
    brainzhang
        40
    brainzhang  
    OP
       2023-06-14 14:06:51 +08:00
    @lambdaq 一个任务就在一张卡上跑啊; 想要快,就选性能强的节点,多消耗积分;
    youmilk
        41
    youmilk  
       2023-06-14 14:16:59 +08:00
    我前几年也有类似的想法😎
    kkwkk
        42
    kkwkk  
       2023-06-14 14:19:17 +08:00
    思路不错,其实不少人都弄着本地 sd ,刚开始只是想涩涩,所以 c 站模型产生很多很快,
    但是后面如果没能转为收入的话,大家也就渐渐停了下来。
    Wen2chao
        43
    Wen2chao  
       2023-06-14 14:20:25 +08:00
    @brainzhang
    colab 一天免费用几个小时.....给的 Tesla T4 。
    kkwkk
        44
    kkwkk  
       2023-06-14 14:24:40 +08:00
    colab 主要是得自己弄各种大模型和 lora 等麻烦,自己本地我们基本都弄三四百 G 的模型
    kkwkk
        45
    kkwkk  
       2023-06-14 14:27:34 +08:00
    @brainzhang 闲置显卡也得看是什么卡,各种卡之间训练出图速度差不少。
    还有就是是否是 torch2 等,虽然最新 webui 已经是默认的 torch2 了
    brainzhang
        46
    brainzhang  
    OP
       2023-06-14 14:31:51 +08:00
    @kkwkk 对;这是细节问题;估计平台还得对每一个接入设备打分;不过现在讨论的是大体框架有没有问题;技术上是不是有坑;
    kkwkk
        47
    kkwkk  
       2023-06-14 14:31:54 +08:00
    我觉得弄出图的还是麻烦了,因为涉及模型问题,大家一般都只会下自己喜欢的难以满足要求。
    所以还是训练比较切合闲置显卡利用,虽然其中也会涉及到大模型作为底模的问题,但不是很大(一般大家训练底模大差不差),最后就是涉及训练素材问题
    brainzhang
        48
    brainzhang  
    OP
       2023-06-14 14:36:22 +08:00
    @kkwkk

    1. 这种众包平台,对于个人用户来说(一般是小白,应用者),应该是是推理需求多,训练需求还是专业人士在公有云上跑合适
    2. 从技术上来说,训练任务不好反作弊,不好并行跑;
    kkwkk
        49
    kkwkk  
       2023-06-14 14:46:03 +08:00
    @brainzhang 如果是出图的话,因为是交付原图(原图包含图片信息),监督还有那么大必要么。
    我可以理解为让每个用户发出自己想要的出图的参数(大模型+lora+咒语),然后接单着参考自己的模型去考虑是否接这个单?
    brainzhang
        50
    brainzhang  
    OP
       2023-06-14 14:56:35 +08:00
    @kkwkk 大体思路是这样的;具体实现可以智能一点;比如接单者的环境上传到平台,平台收到任务,会自动寻找合适的接单者进行匹配;
    brainzhang
        51
    brainzhang  
    OP
       2023-06-14 14:58:23 +08:00
    最后就是模型越全,设备算力越强,接单能力就越强,信用值就会提高,同时积分积累会更快;这样就会良性循环;

    接单者就会自己去完善环境,尽可能多的配置最全的模型等等;
    Pteromyini
        52
    Pteromyini  
       2023-06-14 15:01:00 +08:00
    @brainzhang #31 深度学习不存在“信用极好者”
    kkwkk
        53
    kkwkk  
       2023-06-14 15:01:59 +08:00
    @brainzhang 这样的话我觉得可以弄个解析模型接单者路径中模型功能。
    然后还得有识别显卡的,因为有的大图得大显存才能弄
    brainzhang
        54
    brainzhang  
    OP
       2023-06-14 15:02:44 +08:00
    @Pteromyini 为什么呢?这个我不懂了;作为平台,我发现一个设备出图又快又好,不就是信用极好吗?
    haha512
        55
    haha512  
       2023-06-14 15:03:46 +08:00
    拆分是最大难点吧 。如果能保证很容易的拆分和分发任务,这个应该会挺有前景的
    shuianfendi6
        56
    shuianfendi6  
       2023-06-14 15:22:31 +08:00
    带宽不够,现在 PCIE 的带宽拷贝都不够,更不要提集群分布式了
    众包推理到是可能,不过已经有了端侧推理
    Pteromyini
        57
    Pteromyini  
       2023-06-14 16:36:37 +08:00
    @brainzhang #54 如果单纯评价时间是可以的,但是成像质量等其他指标并不好量化,而且具有随机性。
    pkoukk
        58
    pkoukk  
       2023-06-14 16:37:12 +08:00
    “Server 端可以将一个任务分配给多个 Client 端并行执行,然后将结果进行比对,以确保结果的准确性和一致性。”
    很好奇这一点,完全一样的参数给模型,模型返回的数据也必定完全一致么?

    另外,基于 client 比对,server 本身没有工作证明的话,有没有可能被 client 的垃圾提交淹没?
    我在你的 server 上注册一万个 client ,无论你给我发什么任务,我都返回一张固定的 doge 。因为没有工作证明,你无法判断我有没有实际去跑模型。我的资源消耗量是极低的,我可以用非常低的成本淹没其它正常玩家的提交
    Pteromyini
        59
    Pteromyini  
       2023-06-14 16:37:46 +08:00
    @brainzhang #54 作为推理这个方案是可行的,但是我不认为你的评价方式是合理的
    2n80HF9IV8d05L9v
        60
    2n80HF9IV8d05L9v  
       2023-06-14 16:47:59 +08:00
    技术方案应该可行, 但是需求方面我觉得:
    * 小模型用不上
    * 大模型用不上
    * 仅适用于, 穷且没人脉, 却又手里有一定规模数据的, 这个取交集应该很接近空集把..
    Muniesa
        61
    Muniesa  
       2023-06-14 16:52:20 +08:00 via Android
    只是 stable diffusion 倒还好,如果是不同的模型,可能还要考虑推理环境的一致性,以及模型权重文件的传输,现在模型权重文件动不动就几个 G ,带宽的成本也不能忽视
    2n80HF9IV8d05L9v
        62
    2n80HF9IV8d05L9v  
       2023-06-14 16:53:57 +08:00
    帖子里太长没看, 看到挖矿, 懂一点点, 提供一个看法:
    挖矿的核心之一是工作量证明, 工作量证明一般是计算时间无法绕过, 验证时间又极短.
    比如 btc, eth 那种找遍历找幸运数.
    比如 fil, chia 那种提前计算好存在硬盘上.
    他们其实都是在做无意义的事情, 答案并不重要, 重要的只是得到答案的过程所产生的成本, 进而产生的可信度


    而 AI 训练是说不通的, 是相反的, 他是过程不重要, 结果重要. 所以首先可以排除这种非中心化方案. 我觉得零知识证明在这里没法用的


    其次是中心化的方案, 那就简单了, 除了一点: 数据加密.
    woctordho
        63
    woctordho  
       2023-06-14 16:59:42 +08:00
    @kkwkk 从 AI Horde 的运行情况来看,大多数普通用户喜欢的都是少数几个最流行的模型,剩下的模型只要让少数几个 worker 认领就行了

    @brainzhang AI Horde 刚好有这么一套积分( kudos )系统

    如果你真的想搞挖矿、零信任那一套东西,可以看看 Bittensor
    hahiru
        64
    hahiru  
       2023-06-14 17:00:56 +08:00
    woctordho
        65
    woctordho  
       2023-06-14 17:04:37 +08:00
    你想要的东西应该就是 AI Horde 。。我觉得这样的平台只要有一个,然后大家一起建设就行了,没必要搞第二个,除非第一个真的太烂了

    你可以先在他们那里注册一个 worker 跑一段时间体验一下,然后想想有什么可以改进的地方,或者在国内搞点宣传
    brainzhang
        66
    brainzhang  
    OP
       2023-06-14 17:10:15 +08:00
    @woctordho 多谢多谢;大家集思广益果然开拓视野;我研究一下 Horde 看看;
    jiekeop
        67
    jiekeop  
       2023-06-14 17:10:35 +08:00
    支持 很有想法!
    brainzhang
        68
    brainzhang  
    OP
       2023-06-14 17:14:55 +08:00
    @pkoukk 这个问题我觉得已经说明了;

    1. 首先不能纯依靠算法,要有人工排查;你说的这种作弊或者攻击者人工 ban 掉
    2. 为了排除无效 Client 提交,初期那种简单的,固定输入固定输出的 task ;分给多个 client 执行;然后返回结果进行比对;如果 Client 是无效计算,那它就会被降权,降权到一定程度就标记为低信用节点,同理多次执行后可以筛选出高信用节点
    3. 引入积分制,信用高者获取积分有加成

    就像运营一个社区一样,多种措施保证参与节点的诚实度;
    misty8873
        69
    misty8873  
       2023-06-14 18:08:33 +08:00
    其实 IDC 机房的合作方式也可以。。有群么?
    rphoho
        70
    rphoho  
       2023-06-14 18:30:49 +08:00
    币圈很多这类项目了,包括最近 a16z 投的 gensyn 。个人感觉,去中心化的东西没有激励层是很难落地的,说白了就是发币,那么涉及到发币,你国内就玩不了。但如果想在海外玩,单单众包这套系统是很简单的,kubeedge 之类的拿过来包装下估计都能实现,如果项目没有啥核心技术的突破,比如 zkml ,分布式训练等,那就又变成提概念融资、挖矿、发币、崩盘的模式,而这是个重运营的项目,无关技术。
    brainzhang
        71
    brainzhang  
    OP
       2023-06-14 18:39:49 +08:00
    @rphoho 这个不是去中心的,也跟币圈和挖矿没关系;仅仅是拿挖矿打了个比方而已
    pkoukk
        72
    pkoukk  
       2023-06-14 18:53:48 +08:00
    @brainzhang
    也就是 PT 社区那样咯,小白想加入网络,得先做任务解锁等级,任务难度分梯度,奖励等级也分梯度。
    那怎么维持这个付出 /回报体系呢?如果靠多客户端比对,那势必存在任务的重复计算。
    类似 PT 这样的社区,上传也是要高于下载的。也就是说,对我来说,我付出的计算量总量是大于我本地计算的。
    适用场景倒是也有,如果显卡出图太慢,我就没事就挂着平台换积分,来换取平台的快速出图
    brainzhang
        73
    brainzhang  
    OP
       2023-06-14 19:12:35 +08:00
    @pkoukk 是这样的,具体的激励机制还没有想的太清楚;

    但是只要确定一点:就是这种众包形式总体上可以有效利用闲置计算资源,提高利用率;并且能有效的分配计算能力给最需要的人;这是有价值的;

    剩下的,就是设计一种机制,能最大限度的发掘这个价值出来;
    brainzhang
        74
    brainzhang  
    OP
       2023-06-14 19:16:12 +08:00
    另外,这个池子并不完全像 PT ;我认为大部分小白用户,是愿意付费(一元?)购买那些闲置算力,来生成一张好看的图片的;是能覆盖跑一张图片的算力成本的;这个是积分流转的另一个来源,可能是主要来源;

    中间平台抽一点税,这个机制应该就能长期运转下去;
    rphoho
        75
    rphoho  
       2023-06-14 19:45:17 +08:00   ❤️ 1
    @brainzhang 重新看了一遍,理解你的意思,你想做一个撮合平台并且设计了一套信用体系。不过你可能要从供需上去多琢磨琢磨这个产品,无论是咸鱼还是 pt ,他供需都能匹配的。因为做过 gpu 公有云,不过运营失败了,所以比较了解这行,其实 ai 看着很美好,实际需求很低,特别是低端卡,矿卡多到你根本抠不出利润,自然也组织不起这样的社区,我要用还不如用 autodl 之类的,还稳定。而高端卡是有需求,但好像这题无关。所以我更看好有发币的系统,然后反哺技术突破,如分布式训练或者 zkml 之类的,形成护城河。当然这只是个人看法,不一定对,我也想看看其他人有没有什么好想法。
    yankebupt
        76
    yankebupt  
       2023-06-14 20:53:56 +08:00   ❤️ 1
    @brainzhang 首先你说的这个技术还真有,叫参数服务器,我贴个相关论文精读视频吧……看看再说。或者你懒得看的话,用 AI 总结个概要读一下也行
    其次,家用显卡的弱鸡性能及家用网络的弱鸡参数交换性能,对于参数服务器基本可以忽略不计了,用的话,浪费比同算力集群高到不知道哪里去了,所以目前技术不要想。
    mikumkf
        77
    mikumkf  
       2023-06-14 23:17:25 +08:00
    做着得有自己的技术优势,比如有自己的一套分布式梯度同步算法
    ykk
        78
    ykk  
       2023-06-15 09:34:04 +08:00
    赞成,先从技术要求最低的做起,先做一个 AI 咸鱼,比如我手里有 20 个 A100 集群闲置,每张卡我可以提供一个 SD 服务,提供一些流行开源服务,大模型等等,然后买方直接来购买体验。

    对于小白来说,不需要再去 B 站学习怎么搭建和复杂的概念了(搭建对于我们这种算法工程师来说就跟吃饭一样),直接提供服务。

    更简单的,我现在就可以提供以上说的 AI 服务,op 如何包装前后端和推广出去?
    brainzhang
        79
    brainzhang  
    OP
       2023-06-15 09:58:14 +08:00
    @ykk 对,就是这样的;现在最傻瓜的办法就是咸鱼接单,人工服务;但是这个模式肯定是低效无比;

    如果把这个流程简化成美团接单,有硬件的把家里的显卡出租做 AI 骑手,有画图需求的就来平台点一单 AI 生图,SD 这样的服务 UI 搞简单,平台抽一点税,这个模式听起来是可以的;
    HungryOrangeCat
        80
    HungryOrangeCat  
       2023-06-16 11:10:33 +08:00
    分布式训练有点挑战的
    Satansickle
        81
    Satansickle  
       108 天前
    LZ 做的如何了,有闲置设备,想深入了解,base64 ( 5ZkAPJNc8P )
    Satansickle
        82
    Satansickle  
       108 天前
    @Satansickle 搞错了。eHN3d3BwcA==
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3111 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 00:39 · PVG 08:39 · LAX 17:39 · JFK 20:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.