V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  RoccoShi  ›  全部回复第 2 页 / 共 26 页
回复总数  512
1  2  3  4  5  6  7  8  9  10 ... 26  
确实,现在基本都是小红书和各类 AI 了
op 理解都没啥问题吧我感觉, static batching 和 continuous batching 区别就是每一次 decode 生成新 token 后如何处理, 和 prefill 没啥关系, prefill 肯定都是一起的

静态 batching 就是生成 eos_token 后的 sequence 还要等着 batch 里其他所有 sequence 都生成 eos_token 后一起输出

continuous batching 就是发现有 eos_token 就直接拿出来, 塞一个新的 sequence 进来, 至于 prefill 是塞进来后再做还是做好再塞进来, 都可以

PS: 随便找了个 huggingface TGI continuous batching 的伪代码 ( https://medium.com/@martiniglesiasgo/anatomy-of-tgi-for-llm-inference-i-6ac8895d903d)

https://i.imgur.com/byYMNgm.png

PPS: 理解可能也有问题, 也不是专业的, 就碰巧之前也看过这个博客, 期待其他大佬补充(
podreddit
claude, gemini, chatgpt
恭喜上岸
22 天前
回复了 sikuu2al 创建的主题 发音 优惠券读 quan 不读 juan。
螺蛳粉
搬家
sorry 没看到是 ipad, ipad 上我直接用的欧路词典的划线翻译, 开个分屏(
Bob (OCR 截图翻译 + 划线取词翻译 + 剪切板快速翻译) + 浏览器沉浸式翻译插件直接 pdf 全文翻译
25 天前
回复了 xuangoer666 创建的主题 Apple M2 尚能饭否
m1 都感觉性能足够, 最先遭不住的是硬盘和内存
29 天前
回复了 sikuu2al 创建的主题 生活 一个词总结你的 2024!
33 天前
回复了 CKAJ555 创建的主题 咖啡 大家有没有上班时间喝冰美式的习惯?
喝热的~
手上的模型都试了试, claude 和 gemini-exp-1206 可以理解, gpt4o 官网未降智版本可以答出隐喻的关系但是没有解释

gpt4o API, gemini-2.0-flash, gemini-1.5-pro 都完全没理解.
34 天前
回复了 weijancc 创建的主题 VPS 好家伙阿里云杀疯了!
有动态限速
35 天前
回复了 guoguobaba 创建的主题 OpenAI 现在怎么给 openai 交费
直接 apple 内购
36 天前
回复了 JunNKG 创建的主题 生活 今年买的最能增加幸福感的东西
这是天天自驾游吗
想省钱的话,google drive 和 youtube premium 都可以通过家庭组的方式订阅,2T + premium 一年才 100 不到
牛逼,这一年花多少万了都
1  2  3  4  5  6  7  8  9  10 ... 26  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1740 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 05:14 · PVG 13:14 · LAX 21:14 · JFK 00:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.