用多模态大模型来做语音输入，效果碾压 typeless

This topic created in 46 days ago, the information mentioned may be changed or developed.

不是传统的语音->文字->LLM 后处理，而是直接使用多模态大模型一次 prompt 完成任务。多模态大模型在音频训练数据量、上下文感知各方面都碾压传统 ASR 模型。

所以我使用了安卓的无障碍权限获取屏幕上的文字和截图作为上下文，只有开源软件才能够信任，源码已传 https://github.com/heimoshuiyu/fcitx5-android 代码基本是 vibe coding ，质量不足以合并回上游，等有朝一日我熟悉安卓开发了把代码质量提提再发 PR （），遇到问题欢迎在这里回复或者提 github issue

你可以使用任何支持语音和视觉（视觉是可选）的多模态 LLM ，例如
- 小米的 mimo-v2.5
- 硅基流动或本地 llamacpp 的 Qwen/Qwen3-Omni-30B-A3B-Instruct

订阅服务是完全可选的，https://voice.aquarium39.moe 目前使用 gemini-3.5-flash ，是我感觉效果最好的模型，上游的 Google API 是 Zero Data Retention ，不会保留数据用于训练模型。typeless 30 刀一个月订阅服务只要 30 块，效果比 typeless 好而且还开源

这里放 10 个 pro plan 兑换码，免费账户也有少量使用次数，感兴趣的可以自取 https://voice.aquarium39.moe

VH-KAPT-Y4FS-QXC2
VH-T9QY-HS6X-EU95
VH-JL7K-NEAY-WUQN
VH-NYLP-CD8Z-7NLV
VH-GMMH-MEEW-MBZL
VH-FMD3-TEMD-VSEL
VH-EZD3-GSDC-MPHZ
VH-CG4J-E8XY-L349
VH-V5YM-AJFB-S68G
VH-K69E-CE2G-RPGN

随手录个 demo ，展示屏幕上下文感知的必要性和编辑能力 https://voice.aquarium39.moe/demo-1.mp4 已开无障碍访问权限，没开截图，没有提前配置任何热词

多模态大模型语音