V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
UWoodman
V2EX  ›  程序员

请教下有什么好的 STT(语音转写)方案吗

  •  
  •   UWoodman · 125 天前 · 1965 次点击
    这是一个创建于 125 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求是这样,英文会议场景,想要在会议的时候使用转写,确保沟通的流畅性,不需要翻译,转录就可以了.

    看了火山的 API,有道 APP,其实最理想的是 Chrome 的 Live Caption,感觉又小又轻便,但是没有找到好的产品.

    试了下 mac 自带的 Live Caption,感觉也比较繁琐,每次需要去设置,用完还要去关闭设置,不知道各位大佬有没有更理想的解决方案

    12 条回复    2024-11-05 16:52:55 +08:00
    winterbells
        1
    winterbells  
       125 天前
    Word -> 开始 -> 听写
    ivyliner
        2
    ivyliner  
       125 天前
    可以试试 appstore 搜索: BeMyEars
    https://www.engineerdraft.com/bemyears
    alexnone
        3
    alexnone  
       124 天前 via iPhone   ❤️ 1
    飞书妙记
    zuiyue123
        4
    zuiyue123  
       124 天前
    我用过开源的在 windows 上监听麦克风,准确率很高
    starrn
        5
    starrn  
       124 天前
    @zuiyue123 whisper 吗
    noahlias
        6
    noahlias  
       124 天前
    英文的话 那 whisper 应该是效果比较好的了 找个快点的实现例如 fastwhisper 基本没啥问题

    国内的基本都是对标中文的 阿里的 funasr 还有最近的 SenseVoice 都还行
    kuse2001
        7
    kuse2001  
       124 天前 via Android
    飞书妙记,免费服务里最棒了吧
    zenghx
        9
    zenghx  
       124 天前
    微软 azure cognitive api
    devliu1
        10
    devliu1  
       124 天前 via Android
    可以看下 sherpa 项目,可本地运行
    zuiyue123
        11
    zuiyue123  
       122 天前
    @starrn 基于 funasr 的
    ivyliner
        12
    ivyliner  
       16 天前   ❤️ 1
    我对这方面研究还挺多的.
    在英文会议场景中, 需求主要有 2 类.
    1. 实时识别, 需要能进行流式处理
    2. 录音之后识别

    场景 1: 目前好像就 BeMyEars 可以做到, 而且还有翻译功能
    场景 2:
    飞书妙记, 每个月 300 分钟免费额度, 满足需求 2, 需要自己提前录音.
    whisper, 需要自己折腾一下命令行或者其它的工具, 缺点对中文不够友好, 需要 large 模型效果才比较可以
    funasr 还是不错, 缺点是没有标点
    SenseVoice 比如 funasr 好, 需要自己折腾一下命令行
    vosk-api 中文不够好, 上一代的产品不推荐.
    seamless_communication 大而全, 效果不好, 很重, 不推荐
    azure cognitive api: 付费, 挺贵的. 要自己写程序调用 api
    sherpa 需要自己折腾命令
    夹带私货: 我的 App: YPlayer 搜索下载即可使用, 中文转录效果比 whisper 好, 英文的话, 就是用 whisper.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3416 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:33 · PVG 19:33 · LAX 03:33 · JFK 06:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.