V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Daniel6606

商汤 + NTU 做了个不用 Vision Encoder 也不用 VAE 的多模态模型,结果还挺能打

  •  
  •   Daniel6606 · 3 天前 · 602 次点击

    博客: https://huggingface.co/blog/sensenova/neo-unify 叫 NEO-unify ,主要卖点是把多模态里最"理所当然"的两个组件都扔掉了: 1.不用 Vision Encoder ( CLIP/SigLIP 之类的) 2.不用 VAE

    直接从原始像素出发,理解和生成两条路径都塞在一个叫 MoT ( Mixture-of-Transformer )的骨干里。文本用自回归交叉熵,图像生成用 pixel flow matching ,统一训练。 比较有意思的几个地方:

    • 图像重建质量上,2B 的模型在 MS COCO 上跑出来 PSNR 31.56 / SSIM 0.85 ,Flux 的 VAE 是 32.65 / 0.91 ,差距没想象中大,而且这是在 90K pretraining step 之后的成绩
    • 把理解分支完全冻住,只训练生成分支,图像编辑居然还能用,ImgEdit 得分 3.32
    • 声称比 Bagel 数据利用率高——同样的 benchmark ,用更少的 token 训出来更高的性能

    模型还没开源,团队在 HF 评论区说正在准备,tech report 也在路上。 感觉这个思路(彻底去掉预训练编码器,让模型自己从像素里学表示)如果真能 scale 起来是挺有意思的,现在的多模态基本都依赖 CLIP 系的先验,这条路如果走通了架构会干净不少。 有没有做过类似 UMM 工作的 v 友,这种方向实际上训起来坑多吗?

    拿到了他们的 discord server 邀请码: https://discord.gg/vh5SE45D8b

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3578 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 10:28 · PVG 18:28 · LAX 03:28 · JFK 06:28
    ♥ Do have faith in what you're doing.