V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lonccc
V2EX  ›  问与答

mac 上基于麦克风和系统音频的会议事实转录和 AI 总结工具

  •  1
     
  •   lonccc · 4 天前 · 433 次点击
    之前一直用 teams 开会讲英文的时候喜欢打开 transcribe ,最近换了一个会议软件没有这个功能了。mac 自带的 caption 在投屏的时候有 bug 显示不出来,想找一个第三方软件,试了两个(应用商店 Noted ,Whisper Transcription )都不太行,要不语音识别质量太差,要不是离线识别。

    我感觉以现在的技术在 mac m 芯片上做一个实时转录再结合 LLM 做会议总结完全可行。我之前用过 mac 自带的 speech recognition api ,效果非常好,比 whisper 快且准确,可以结合 VAD ( https://github.com/snakers4/silero-vad ),说话人识别( optional ),做成 AI 会议记录 app 。

    不止用在在线会议,线下会议也可以。我感觉大有可为呀,上面两个 APP 我试用的都卖 20-30 刀一年,好评也很多。问问大家目前市面上有类似的 app 吗,没有的话我要自己业余写一个,核心可以开源,只提供 cli 界面,再做一个完整 app 出来卖。
    7 条回复    2025-01-14 16:28:56 +08:00
    lonccc
        1
    lonccc  
    OP
       4 天前
    btw ,还有一类 ai 工具是要加入会议室才能用,比如 https://otter.ai 。我们之前开会的时候都很排斥这种,一个第三方 app 加入会议室感觉很不好,毕竟大家还开了摄像头有时候还会共享屏幕。只基于本地的音频就更通用了,而且线下也能用。
    YJi
        2
    YJi  
       4 天前
    /t/1084519 之前好像有过类似讨论
    ivyliner
        3
    ivyliner  
       4 天前   ❤️ 1
    @lonccc 可以看看我开发的 App: BeMyEars https://www.engineerdraft.com/bemyears/ , 目前还差一个会议总结, 后续可以加一下.
    lonccc
        4
    lonccc  
    OP
       4 天前
    @ivyliner #3 对,就是我想的用 apple 自带的语音识别,效果很好。可以考虑往会议记录的方向做做,像这样 https://apps.apple.com/us/app/noted-record-ai-transcribe/id1446580517 按录音的时间轴显示文本,再加一个会议总结
    ivyliner
        5
    ivyliner  
       4 天前
    @lonccc #4 我简单看了一下感觉 noted 做的挺好的, 你是有什么不太满意的 ?
    lonccc
        6
    lonccc  
    OP
       4 天前
    @ivyliner #5 app 设计的还可以,但是识别的效果很差,很奇怪我安装之后没申请语音识别权限,也不能选择系统音频还是 app 音频。可能他们没用 apple 的语音识别
    ivyliner
        7
    ivyliner  
       4 天前
    @lonccc #6 我仔细试了一下 noted 发现有不少问题. 严格说我都用不上, 一打开就崩溃.
    底层的话, 用的是 whisper base 模型, 所以不可能很准确. BeMyEars 和 YPlayer 在实时性和准确性上可以吊打 noted :-)
    其中 YPlayer https://www.engineerdraft.com/yplayer/ 在中文转录上应该比 Whisper Transcription 还要好, 英文打平手, 因为都用的是 whisper :-)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2945 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 09:16 · PVG 17:16 · LAX 01:16 · JFK 04:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.