各位好
vget v0.12.1 发布了
https://github.com/guiyumin/vget
这一版,有一个重大的更新: 语音转文字,英文是 speech to text ,或者是 Automatic Speech Recognition ( ASR )
首先,你可以用 vget 下载视频,或者播客
然后使用语音转文字功能,转录为带有时间戳的文本
下一步,你可以继续用 openai api 来总结一下,当然,也可以复制粘贴去其他 ai 做一下总结
目前支持的大模型是这些:
在 CLI 中使用 vget ai transcribe 命令即可进行语音转文字:
# 基础用法:转写音频文件,默认输出 Markdown 格式
vget ai transcribe ./recording.mp3
# 指定语言:使用 -l 参数指定音频语言
vget ai transcribe -l zh ./interview.mp3
# 输出字幕文件:使用 -o 参数指定输出为 SRT 格式
vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt
# 转写视频文件:自动提取音频后进行转写
vget ai transcribe -l en ./lecture.mp4 -o lecture.srt
在 Docker 部署的 Web 界面中,点击左侧导航栏的 AI 图标即可访问语音转文字功能:
/home/vget/downloads 目录选择已下载的文件,也可以直接上传本地文件| 类型 | 支持格式 |
|---|---|
| 音频 | MP3, WAV, M4A, FLAC, OGG, AAC |
| 视频 | MP4, MKV, MOV, AVI, WebM |
对于视频文件,vget 会自动提取音频轨道后进行转写,无需手动转换。