现在不是 ai 火吗
我在思考各种 gpt, llama 这种 对于 ge 个人来说有没有什么好的方向能够 做些产品
怎么没有人想在开发一个国内得 huggingface 这种可以分享上传模型得网站
这样比如有个人训练得模型, 可以发到这个网站上, 用户可以付费使用, 网站本身也可以提成一部分
1
faceair 331 天前
https://www.modelscope.cn/models
https://openi.pcl.ac.cn/modelsquare/main 有几个了。一般模型文件都很大,需要很大的存储空间和带宽,个人或者小站长可能搞不起。 |
2
z1829909 331 天前
感觉成本不低, 一个模型几百兆几个 g, 带宽费用有点扛不住
|
4
me221 331 天前
modelscope 好像是阿里搞得
|
5
yinmin 331 天前 via iPhone 1
国内上线 ai 服务要牌照的,huggingface 模式不合法啊
|
6
extrem 331 天前
我是很好奇国内审查是怎么知道某些产品的技术实现是用了 ai,然后一定要求它搞个牌照的
|
7
F798 331 天前 via iPhone 1
闷声发大财
|
8
xiyan00 331 天前
楼上的路走窄了, 个人不是去搞大模型, 而是搞应用, 这块还是待开发的蓝海, 前景广阔
说白了是 v2 基因不同, ai 相关去即刻 |
9
jianchang512 331 天前
huggingface 这个都被墙了,知道处于什么顾虑吗
|
10
James369 331 天前
@jianchang512 也不知道是墙谁,真正搞技术创造的人,它根本就墙不住
|
11
mightybruce 331 天前
AI 早就内卷了, 现在已经不是一年前,多了解了解国内和国外做这方面的前沿吧。
另外自己训练和微调 没有 1 百万 以上的投入还是不要想了,这方面的确是有不少公司赚到钱。 做应用的开源大多是玩具。 现在能搞好 AI 应用的都是之前已经有相应的产品比如金山、腾讯文档 或者低代码平台 运维管理平台, 通过 AI 辅助使得更加智能和友好( AI 提效),而不是做一些通用的 AI 应用,通用 AI 比如写作、翻译国内外也快烂大街了。 |
12
mightybruce 331 天前
模型网站我也给一个吧,自己玩玩可以,赚钱没有技术,没有资金,还是不要想了
https://www.codewithgpu.com/image 可以在 autodl 上便宜租到一些 GPU 服务器,但是训练和微调需要的投入还是很高的。 |
13
mightybruce 331 天前
|
15
c5QzzesMys8FudxI 331 天前 via iPhone
国内有魔塔社区
|
16
NXzCH8fP20468ML5 331 天前 15
v2 只是一个休闲的科技社区,指望有上面高深的内容,真的是想多了。
不要说 AI 了,大数据都没见 v2 几个人讨论,Spark/Hive/Flink/Hudi/Paimon/ClickHouse/CDC/ETL ,这几个名词能在 v2 搜出几个内容来? 就连数据库都很少人进行严谨讨论,大部分时候都是赛博斗蛐蛐。 |
17
felixcode 331 天前 via Android 2
这里果粉浓度高,但凡苹果在大模型开发上有点优势,还不得吹翻了?(参考 M2 Ultra:干翻英伟达!决战 AI 之巅 的讨论)
|
18
xbird 331 天前
这不抄的 hugging face 吗?就跟国内 gitee 抄 github 一样。。。
|
19
gaobh 331 天前 via iPhone 1
在这里找合伙人,没钱被喷。发布产品和想法,被抄袭。哈哈,这里早就没什么人发正经东西了
|
20
fox0001 331 天前 via Android
想找正经的讨论都比较难
|
21
frankies 331 天前 via Android
个人没啥机会。
本来打了挺多,想想这一句就够了。 |
22
murmur 331 天前
i2ex ,不是 nv2ex ,大模型得要 nv 才行
|
23
lidongyooo 331 天前 4
额其实机会挺多的,大家要多结合一些垂直行业去找嵌入点。AI 本质上是提高生产效率,而一些传统行业还存在大量优化的空间。就算只会大模型微调,在市场上也能找到一份工资不低的工作。这就是搞技术的人要提高的东西,我们说广度并不是只局限于计算机领域的广度,要把各行各业结合起来。在技术人眼里不值一提、烂大街的技术,在外行看来可是很牛逼东西,而你就可以利用这个行业认知割韭菜。
|
24
xuanbg 331 天前
这玩意有啥好讨论的,实在是想不出来可以放在这里讨论的点
|
25
rm0gang0rf 331 天前
LLM 挺多的
|
26
chendy 331 天前 1
摸鱼论坛,唠正事干啥
|
27
clementewy 331 天前
@extrem 最大诚信原则,她觉得你是的时候,最好有牌照。
|
28
k9982874 331 天前 9
你以为这是个技术网站,其实是个情感网站
|
29
MuscleOf2016 331 天前
因为不会
|
30
MiketsuSmasher 331 天前 via Android 1
对啊,能上首页相关讨论的没见过几个,薅 ai 或大模型羊毛的倒是一大把
|
31
zw1027 331 天前
我一直以为这里是摸鱼论坛,偶尔针对一些问题互助一下而已
|
32
waltcow 331 天前
|
33
abelmakihara 331 天前
v2 是摸鱼论坛 不是技术论坛
|
34
johnnyyeen 331 天前
基础模型、算法研究个人就算了吧,
对工业场景、专业场景的强化,训练解决专门模型解决专门问题,感觉可以搞。 |
35
justfindu 331 天前
个人训练大模型属实有些些难了, 成本是个大问题, 语料是个大问题.
|
36
wangqifox 331 天前
@mightybruce 有没有类似的开源的模型管理平台,想在内部私有化部署一个
|
37
ShadowPower 331 天前 2
|
38
cherryas 331 天前 1
@ShadowPower 牛哇。完全看不出来是 ai 写的。 虽然回答内容属于纯纯的知乎高赞味。
|
39
zhusimaji 331 天前
当你在微调模型,发现需要 A100 H100 的时候就知道成本蛮高的
|
40
mightybruce 331 天前
@wangqifox 图像生成时有的,stable diffusion 可以加载各种微调模型
vercel 之前出了一个 ai playground, 它集成了各种开源和商业的 LLM 模型 sdk, 可以看看 https://sdk.vercel.ai/docs |
41
hiphooray 331 天前
因为都在刷论文 and 闷头卷,并且巨大的硬件成本使得开发者人数本就不会太多(来自一个具身智能算法开发者,以及拜托国内外 CS 的大佬们不要再创造新词汇了)
|
43
ShadowPower 331 天前 29
想给大家分享几点:
1. 虽然个人制作一个预训练模型不太现实,但是其实微调模型的门槛很低; 2. 如果你只有 6GB 显存,可以尝试微调 Qwen 1.8B 。虽然不能指望它给你准确回答问题,或者帮你写出正确的代码,但用于只需要想象力的文学创作方面还不错; 3. 零一万物的 Yi 系列模型其实很强,尽管中文互联网上讨论得少。主要优势在中文写作上。虽然它不那么遵循指令,然而 34B-Chat 的中文写作质量真的可以超过 GPT4 ; 4. 除了在 LLaMa 1 刚出来的那个时代,实际上,参数量大的开源模型效果往往不理想。参数量小的开源模型反而更实用; 5. 不要迷信 M2 Ultra 192GB ,想玩出花样,目前看来,NVIDIA 仍然是首选。 说说为什么参数量大的开源模型效果不理想吧。其实最大的原因在于参数量越大,训练成本越高。哪怕对于商业公司来说,预算也不是无限的。训练大模型其实有很多复杂的工程问题,需要多机器的都不简单。 参数量小的模型因为训练成本比较低,很快就能迭代新版本,不断地追加训练数据。 于是,小一点的模型相比大一点的模型,训练得更加充分,数据也更多样。 对商业公司来说,也更适合尝试不同的训练方法。全参数训练 6B 模型最低其实只要一块显卡,60 多 GB 显存。 还有,为什么不要迷信 M2 Ultra 192GB 。 我尝试了市面上绝大多数比较受欢迎的模型(仅中/英文),绝大多数有用的模型都在 1~34B 内。其中又有几乎 95%的模型在 1.5~14B 这个范围内。 M2 Ultra 192GB 的优势则是可以在输出效率能接受的情况下尝试 70B 、120B 、180B (只有一个)的模型。 不过很快你就会发现这些模型一点用都没有: 写作很差,都是那种总-分-总的议论文结构,而且非常机械、死板; 写代码或者回答问题都是错误百出……写代码最好的模型大多数有 34B 左右的参数量; 角色扮演也很无趣,输出实在是太正经了。无论扮演什么,都像在跟售后客服聊天,而且服务范围很有限。最好的角色扮演模型大多数是 13B 左右的参数量。原因很简单,网友自己微调模型,能接受的最高成本在这里。 另外大型语言模型其实可以量化运行,而且性能损失很小。llama.cpp 的 Q5_K_M 量化几乎不影响写作性能,依然能保持和 fp16 同等的质量。只是输出的内容不完全相同。 如果想用 M2 Ultra 192GB 训练模型,其实并不好使。坑很多,有这些: 运行不一定报错,但是训练出来的模型可能是废的。还不好排查问题在哪,网上没人讨论。比如,训练 Stable Diffusion 的 LoRA 拿来用,输出的图都是黑的…… 训练速度超级慢。要是模型本身就不大,其实用 NVIDIA 游戏显卡坑少效率还高。模型大到 NVIDIA 游戏显卡跑不起来的情况下,训练速度就相当慢了。你不会愿意把它放着跑个一两年,还保持满载。 PyTorch 的 MPS 后端跑很多模型看起来“能跑”,但是有一些算子实际上没有 MPS 实现,会回退到 CPU 上跑。所以不能光看显卡理论性能。 在训练的时候,ANE 是完全用不上的(推理的时候能用上,但它只能做 INT8/FP16 卷积)。而 NVIDIA 显卡的 Tensor Core 能用上。 个人玩 LLM 最具性价比的选择是 3090 ,进阶选择是两块 3090 ,缺点是噪声比较大,主板和电源要求也高。 4090 在噪声方面好一些,但是现在还是太贵了。 不捡垃圾,不买矿卡,不魔改的情况下,入门选择是 4060Ti 16GB 。 只想体验一下的话,租个 VPS 玩玩,或者用 llama.cpp 用 cpu 跑…… |
45
tangtang369 331 天前
这种要靠 gpu 跑的 个人自己做慈善 可能钱包吃紧
当然如果你也 ai 的问题也可以问我 |
46
anubu 331 天前
国内玩的话应该会接触到魔搭、autodl ,差不多就是 huggingface 、colab 一类,集成度比较低但能用。
模型和平台个人开发者应该没太多机会,都是比较重的方向。搞一些工具或应用,比如 RAG 、可控生成,似乎还有点意思。比如 langchian-chatchat 、fastgpt ,有能力也可以搞一搞应用框架一类。 目前的商业化落地比较困难,LLM 生态都是看着挺有意思,要做到能投产却很困难。有大量的开源项目,不怎么费力就可以跑个七七八八,但要做到融合到生产业务里就很困难了。基于 langchain 、llama-index 等框架,糊一个勉强能落地的应用,能从政企跟风项目层层外包中捞点汤喝已是不错的结果。 |
47
iorilu OP @ShadowPower 不错得经验分享, 我目前就一个小机器配 3060 12G, 装了 ubuntu 做测试机玩玩
如果想弄比如两块 4060ti 16G 之类得, 现在又方便能分布式跑在两块卡训练吗 |
48
ShadowPower 331 天前
@iorilu 只想双显卡加快训练速度的话,用 huggingface 的 accelerate 库就可以了,官方文档: https://huggingface.co/docs/accelerate/index
不过它只支持数据并行,所以不能解决那种一块显卡显存不够,用多块才够的问题。 之前看过一些框架,据说支持把模型拆分到多块显卡上训练。例如 DeepSpeed 、ColossalAI 之类的。只是我还没成功跑起来…… |
49
herozzm 331 天前
个人没机会
|
50
iorilu OP @ShadowPower 比如想专门微调用于中文写作生成的模型,能推荐下吗, 比如我想基于一个中文模型训练金庸全集写武侠,用那个模型比较好
本来我想找个中文的 GPT2 ,因为我觉得 GPT2 模型大小比较合适,但 gpt2 好像没公认比较好的中文模型把 另外比如用某个模型,那 embeding 是用模型自带的比较好还是用 bert 中文这种,毕竟 bert 也算是专门训练词嵌入的吧 |
51
ShadowPower 331 天前 1
@iorilu
Yi-6B 就挺好的,预训练数据里已经有好多小说数据了。 如果还想更小一些,还有 RWKV ,不过相关的生态比较少。 embeding 用这个: https://huggingface.co/moka-ai/m3e-base |
52
Huelse 330 天前
自从 v2 在墙外后就意味着有更多的情绪贴会被发出来,纯粹的技术讨论只在几个小分区里可以看到,算是各有利弊
回归本题,我认识的 AI 大佬都是博士以上的,他们大多没空在这类论坛上发帖,而且 AI 对硬件条件要求较高,不是每个人都能玩得动的,可以说是大公司或国家级别的资源才够,大概率都涉密 |
53
gitlight 330 天前
我还在天天调 BERT 洗 bad case(꒦_꒦) ,LLM 玩不起
|
54
zjuster 330 天前
v2 这里主要是“应用“,如何将 chatgpt 的服务接口封包为国内可用的第三方。 这个实际地多。
|
55
mightybruce 330 天前
看了看 ShadowPower 发的,其实个人玩玩还是可以的,
这类模型微调很多, 其实就是用语料训练一个 chatbot 半年前那个 AI 孙艳姿 唱歌 还火过,也是这类, 自己玩玩可以, 商业上谈不上。 另外,国内任何 AI 应用上线 还要接受《生成式人工智能服务管理办法》制约,敏感词是要过滤的。 国内外 AI 团队已经不再是简单的微调了,都已经上升到 AI 对齐了。 |
56
jim9606 330 天前 via Android
你如果是说当个 openai 搬运工的,大把,我差不多天天都能看到。
至于真搞训练的,不是要大把钱就是大把数据,跟小创业者也没啥关系。 而且你看那些追这波热潮的,哪怕是大厂,都是顶多换皮微调级别,真搞训练的怕不是连融资都拿不到。 |
57
isouu 330 天前
@ShadowPower 这是用 Base 模型还算 Chat 模型?训练数据的话是将知乎高赞回答喂进去的吗
|
58
ShadowPower 330 天前
@isouu Chat 模型,训练数据是一些大 V 的回答
|
59
isouu 330 天前
@ShadowPower 训练好的模型能够有哪些变现的场景呢?
|
60
veotax 330 天前
可以看看这个 langchain 平台,可以集成多种 GPT 接口:
Casibase:开源的企业级 AI 知识库,让 AI 助手学会所有企业内部文档知识!包括如下特性: 1. 支持 ChatGPT 、Azure OpenAI 、HuggingFace 、OpenRouter 、百度文心一言、讯飞星火、Claude 等众多国内外模型; 2. 支持多种 Embedding 嵌入 API 接口,如 OpenAI Ada, 百度文心一言等; 3. 支持多种文档格式:txt, markdown, docx, pdf 等,支持 PDF 文件智能解析; 4. 支持 AI 小助手通过右下角弹框嵌入到应用网站,进行在线实时聊天,支持聊天会话人工接入; 5. 支持多用户、多租户,支持 Casdoor 单点登录; 6. 所有聊天会话保存日志,管理员可查看、修改,方便审计、计费等操作; 7. 界面语言支持中文、英文等多语种。 Casibase 帮助实现企业内部员工知识分享与积累、智能客服等多种功能场景,也适用于个人知识库场景。目前开源版已达到 GitHub 1500+ stars ,用户好评如潮,欢迎体验~ - GitHub: https://github.com/casibase/casibase - 官网文档: https://casibase.org |
61
ShadowPower 330 天前
@isouu 我还没想过这个问题
|
62
isouu 330 天前
@ShadowPower 大佬加个微信吧 我也是在搞大模型训练的 咱们一起探讨探讨应用场景
|
63
nikenidage1 330 天前
@ShadowPower 这么整齐的标点符号,一眼 AI ,哈哈
|
64
fakecoder 330 天前
@ShadowPower #37 大佬这个牛哇,有教程不
|
65
uni 330 天前
@ShadowPower #37 这个效果看着挺牛逼的啊
|
66
gw1100 330 天前
可以搞,因为这种东西太多了,随便一搜你会发现各个方面都挤得太满了,https://whatsthebigdata.com/character-ai-alternatives-without-nsfw-filter/,不少人已经在靠这个那个的方式分摊成本赚钱了,你应该去找用户人群 233
|
67
declandragon 330 天前
现在 AI 模型互相训练,如果有一个模型的内容有很多假的或者有问题的,其他模型会崩塌的很快吧?
|
68
brom111 330 天前
主要是应用方面 大厂对于个人的体验上是降维打击的。自己搞确实没意思。
|
69
daiv 330 天前
|
70
highsun16 330 天前
@ShadowPower 知乎风格的微调大佬可以出个教程吗?
|
71
guotie 330 天前
因为大部分人不会,搞的人还是太少太少,虽然看起来很火
|
72
guotie 330 天前
不像学 java ,学 rust ,很快就能来一个 hello world
|
74
ShadowPower 330 天前 via Android
@daiv 是的
|
75
ShadowPower 330 天前 via Android 1
|
76
gowinder 330 天前 via Android
@ShadowPower 期待
|
77
highsun16 330 天前 via iPhone
@ShadowPower 期待🥰
|
78
daiv 310 天前
@ShadowPower #43 请问是否方便加 微信/QQ, 或者邮件, 联系你, (咨询这方面内容, 可付费)
我的微信: https://s2.loli.net/2023/07/12/cEJPlK4oFNkrwWb.png |
79
leo6668 270 天前
@ShadowPower 大佬用的 gpu 配置是咋样的?可以透漏一下吗
|
80
niunaisuan93 243 天前
@ShadowPower 老哥能简单给个教程吗 怎么用知乎的数据微调
|
81
ShadowPower 243 天前
@niunaisuan93 这模型的效果其实很差,大多数时候都会乱讲……我已经放弃了
之前找的网上的开源代码,简单改了改 |