[开源]写了一个本地模型的实时字幕工具😂

爱意满满的作品展示区。

This topic created in 40 days ago, the information mentioned may be changed or developed.

虽然实时字幕工具已经很多了，不过目前没看到一个免费开源的实时语音翻译工具能满足我的需求：

完全本地推理，可以离线使用，隐私安全。
转录质量。个人体感 whisper 等国外的开源模型和系统自带 asr 工具其实对亚洲语言支持并不好，个人认为要处理中日韩语 asr ，现在能用的唯一开源模型就是 qwen3-asr 。翻译用的 Hy-MT2-1.8B 。
低延迟。在不牺牲质量使用原始权重的条件下优化了推理速度，在 rtx4090 上能够 500ms 左右实时看到结果

所以我做了这样一个本地运行的实时字幕工具。它基于 Qwen3-ASR-1.7B ，后端在本机启动 ASR WebSocket 服务，桌面端用 Tauri 做轻量字幕窗口。目标是本地单用户看直播、视频、会议等场景。

目前支持：

本地语音转文字 / 实时字幕
Windows/macOS 桌面客户端
后端在 Linux 或 WSL + NVIDIA CUDA GPU 上跑
可选翻译目标语言
系统音频和麦克风采集

项目地址及演示 demo:

https://github.com/vauxe/funyi

https://github.com/vauxe/funyi#demo

字幕

本地

实时

13 replies • 2026-06-05 15:25:26 +08:00

380cc

Jun 3 via iPhone

你好呀感谢分享想咨询一下纯 Macos 平台有没有比较好的本地实时翻译方案呢？我因为工作需要经常需要 support 日本那边的在线培训因为培训的语言是日语所以我在支持此类培训时存在语言障碍之前有网友推荐了我款软件用的 Macos26 自带的语言模型来进行听写同步用一个云模型进行翻译。多次使用下来发觉主要问题在实时听写不准导致翻译结果存在偏差。不知道有没有更好的方案来解决这个问题。谢谢你

hiqxy

Jun 3

楼上的确定不是拿来看片？

SHF

Jun 3

和微软系统自带的那个相比效果怎么样？
后端可以原生在 windows 上跑吗？不想开 linux 或 wsl ，能否用 llama.cpp ?

xxxaadsdss

Jun 3

@380cc 自荐一下，我倒是开发了一个已经上架到 appstore 了。名字叫“秒译”。不过是收费的。可以给 v 友优惠码，免费使用。需要优惠码的话可以找我哈

380cc

Jun 3

@hiqxy 技术培训，情况是这样，我们是家外企，需要想全世界分公司的技术人员远程授课，当前日本方面为了节省出差到上海的差旅费，在日本当地找了个日本的工程师代为授课，授课语言为日语，针对在日的技术人员和第三方外包技术人员。为了确保课程质量，我作为监督方来远程监督整个授课课程，课程是通过 MS Teams 来进行。但公司策略限制，无法使用内置的 copilot 进行实时翻译，所以我到处找方法，包括用手机 google tranlate app,发觉听写翻译延迟问题较严重。之前有个网友分享了个 app ，用的 macos26 自带的语言模型，实测下来感觉听写不少都不太对，导致翻译也不太对，需要的是日语转英文实时翻译，不需要日语转中文翻译。因为如果转中文翻译，则更看不懂是什么意思了。因为课程本来就是我用英语教授的，日方现在用日语对日本当地技术人员进行讲授。情况大概是这样。

380cc

Jun 3

@xxxaadsdss 谢谢,我晚上安装一下，方便的话发给我邮箱吧: cGVhY2Vtb25nZXIyMDA2QGhvdG1haWwuY29t

xxxaadsdss

Jun 3

@380cc 加下我微信吧。后续有什么问题可以帮忙反馈一下。eGlhb21pbmdfc29mdHdhcmU=

kvl

Jun 3

@380cc 看你 mac 的芯片和内存大小，我试了下，我这个项目在 M1 芯片 8GB 内存下把所有模型换成 4bit 量化是无法达到实时效果的。转录中日韩语的开源模型，机器配置高的话可以按参数量(显存预估=参数大小*2)试试 SenseVoice 、Fun-ASR 、Qwen3-ASR ，很多模型不是原生流式的，需要用代码处理成流式的。不行的话就只有 mac 自带或参数更小的模型了。

kvl

Jun 3

@SHF 效果肯定比 windows 自带的好，不然我也没必要重新写一个😂。后端用的一些性能优化的依赖只有 linux wheel ，目前不能在 windows 上跑，除非显卡性能够高，去掉一些优化也能实时。llama 能跑但是不快，达不到实时的性能

yukminnie

Jun 4

mark 一下。之前站内好像有个分享，用的是苹果自带的这个语音识别。但系统要求是 26 。
看了一下视频演示，感觉很 nice, 回来有机会试一下，已 star.

380cc

Jun 4

@kvl 你好，感谢回复我。我的设备是 m4 24G 内存的，你讲的很复杂，我也不懂开发。比方说我有一段我和医生的对话录音，我想在 macos26 上用千问 asr 1.7 本地模型把它转成 srt 字幕，让我知道我讲了什么，医生回答什么，旁边人又讲了什么。当前用 macwhisper 转录中文 srt ，结果乱哄哄的。用 Lazytyper 则它只生成一段文本，读起来又不太好理解。有什么办法可以在 macos26 上实现这个需求呢？

kvl

Jun 5

@380cc 只需要转录录音的话，不要求实时出结果，算力要求不高。如果你要自己实现，你需要用到 Qwen3-ASR 用来转录文字，和 Qwen3-ForcedAligner 用来生成时间戳，macos 的话用 mlx 格式的模型，这样速度会快一点。如果你需要现成的工具，你可以看一下这个项目 https://github.com/Blaizzy/mlx-audio 能否满足你的需求，它支持 Qwen3-ASR 模型，可以将音频转换成 srt 字幕文件。如果你打算自己(vibe) coding ，我在项目里也加了对 macos 的支持，和离线文件转录功能，必要的话可以参考。

380cc

Jun 5

@kvl 感谢回复。刚才我尝试了你推荐的 mlx-audio ，发现确实能生成 srt,但一行字幕显示太多字，离我预期的有较大距离。另外要靠命令行输出，也不太方便。