heimoshuiyu
V2EX  ›  输入法

用多模态大模型来做语音输入,效果碾压 typeless

  •  
  •   heimoshuiyu · 2 days ago · 454 views
    不是传统的 语音->文字->LLM 后处理,而是直接使用多模态大模型一次 prompt 完成任务。多模态大模型在音频训练数据量、上下文感知各方面都碾压传统 ASR 模型。

    所以我使用了安卓的无障碍权限获取屏幕上的文字和截图作为上下文,只有开源软件才能够信任,源码已传 https://github.com/heimoshuiyu/fcitx5-android 代码基本是 vibe coding ,质量不足以合并回上游,等有朝一日我熟悉安卓开发了把代码质量提提再发 PR (),遇到问题欢迎在这里回复或者提 github issue

    你可以使用任何支持语音和视觉(视觉是可选)的多模态 LLM ,例如
    - 小米的 mimo-v2.5
    - 硅基流动或本地 llamacpp 的 Qwen/Qwen3-Omni-30B-A3B-Instruct

    订阅服务是完全可选的,https://voice.aquarium39.moe 目前使用 gemini-3.5-flash ,是我感觉效果最好的模型,上游的 Google API 是 Zero Data Retention ,不会保留数据用于训练模型。typeless 30 刀一个月订阅服务只要 30 块,效果比 typeless 好而且还开源

    这里放 10 个 pro plan 兑换码,免费账户也有少量使用次数,感兴趣的可以自取 https://voice.aquarium39.moe

    VH-KAPT-Y4FS-QXC2
    VH-T9QY-HS6X-EU95
    VH-JL7K-NEAY-WUQN
    VH-NYLP-CD8Z-7NLV
    VH-GMMH-MEEW-MBZL
    VH-FMD3-TEMD-VSEL
    VH-EZD3-GSDC-MPHZ
    VH-CG4J-E8XY-L349
    VH-V5YM-AJFB-S68G
    VH-K69E-CE2G-RPGN

    随手录个 demo ,展示屏幕上下文感知的必要性和编辑能力 https://voice.aquarium39.moe/demo-1.mp4 已开无障碍访问权限,没开截图,没有提前配置任何热词
    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1101 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 17:52 · PVG 01:52 · LAX 10:52 · JFK 13:52
    ♥ Do have faith in what you're doing.