V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
guiyumin
V2EX  ›  分享创造

vget v0.12.1 发布,新增 AI 功能,语音转文字, 效果极好

  •  
  •   guiyumin ·
    guiyumin · 4 天前 · 700 次点击

    各位好

    vget v0.12.1 发布了

    https://github.com/guiyumin/vget

    https://vget.io

    这一版,有一个重大的更新: 语音转文字,英文是 speech to text ,或者是 Automatic Speech Recognition ( ASR )

    首先,你可以用 vget 下载视频,或者播客

    然后使用语音转文字功能,转录为带有时间戳的文本

    下一步,你可以继续用 openai api 来总结一下,当然,也可以复制粘贴去其他 ai 做一下总结

    目前支持的大模型是这些:

    • whisper-tiny
    • whisper-small
    • whisper-medium
    • whisper-large-v3
    • whisper-large-v3-turbo (推荐用这个,又快又准)
    • Parakeet-v3 这个不支持中文,但对其他语言支持良好

    命令行使用

    在 CLI 中使用 vget ai transcribe 命令即可进行语音转文字:

    # 基础用法:转写音频文件,默认输出 Markdown 格式
    vget ai transcribe ./recording.mp3
    
    # 指定语言:使用 -l 参数指定音频语言
    vget ai transcribe -l zh ./interview.mp3
    
    # 输出字幕文件:使用 -o 参数指定输出为 SRT 格式
    vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt
    
    # 转写视频文件:自动提取音频后进行转写
    vget ai transcribe -l en ./lecture.mp4 -o lecture.srt
    

    Docker Web 界面

    在 Docker 部署的 Web 界面中,点击左侧导航栏的 AI 图标即可访问语音转文字功能:

    1. 选择文件 - 可以从 /home/vget/downloads 目录选择已下载的文件,也可以直接上传本地文件
    2. 设置语言 - 选择音频对应的语言以获得最佳识别效果
    3. 选择格式 - 支持 Markdown 文本或 SRT 字幕格式输出
    4. 开始转写 - 点击按钮即可开始,转写完成后可直接下载结果

    支持的文件格式

    类型 支持格式
    音频 MP3, WAV, M4A, FLAC, OGG, AAC
    视频 MP4, MKV, MOV, AVI, WebM

    对于视频文件,vget 会自动提取音频轨道后进行转写,无需手动转换。

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2848 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:28 · PVG 22:28 · LAX 06:28 · JFK 09:28
    ♥ Do have faith in what you're doing.