如果想在 V2EX 获得更好的推广效果,欢迎了解 PRO 会员机制:
https://www.v2ex.com/pro/about

如果你经常使用铜币置顶主题,持有 V2EX Solana Token 会在每日签到时获得额外铜币:
https://www.v2ex.com/solana
ymlluo
V2EX  ›  推广

Chrome 扩展 DualPiP v1.7- 给任意网页视频加实时字幕 — 直播/网课/无字幕视频都能用

  •  
  •   ymlluo · 1 day ago · 631 views

    很多时候想看的视频没有字幕:直播回放、没人翻译的网课、国外新闻直播、番剧。之前只能靠听。

    DualPiP 最近 v1.7 更新加了 ASR (自动语音识别)实时字幕功能。

    原理

    通过浏览器的音频捕获 API 获取视频音频流,发送到 Deepgram 云端通过 WebSocket 实时转写。也支持本地部署的 Whisper 服务器。预加载模式无延迟,实时字幕延迟大约 300ms 。

    Deepgram 为新注册用户提供 **$200 免费额度**,注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算,$200 额度足够转录约 476 小时音频——相当于看 238 部 2 小时电影

    适用场景

    1. 直播没字幕:YouTube/Twitch 直播大多没有实时字幕,DualPiP 可以实时生成
    2. 网课录像:大学网课很多没有字幕,开了 ASR 就有了
    3. 看生肉番:为没有字幕的番剧,自动生成字幕,
    4. 学外语:ASR 生成的字幕可以直接走 AI 翻译生成双语字幕,看英语直播时显示英文+中文字幕

    ASR 实时流和预下载批量模式有什么区别?

    DualPiP ASR 提供两种音频捕获和识别模式,适应不同的观看场景:

    实时流模式( WebSocket Streaming )

    音频通过 WebSocket 实时发送到 Deepgram 服务器,字幕延迟低于 300ms ,几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果,让字幕出现得更快。适合直播、视频会议、实时内容等需要即时反馈的场景。

    预下载批量模式( Pre-download + HTTP Batch )

    DualPiP 先将视频音频预下载并按时间段分割,然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容——可以在观看前提前生成完整字幕,播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。

    对比 实时流模式 预下载批量模式
    延迟 < 300ms 预下载完成后零延迟
    适合场景 直播、实时内容、会议 已发布的视频、需要完整字幕
    支持后端 Deepgram ( WebSocket ) Deepgram + 本地 Whisper
    字幕完整性 实时生成,偶有遗漏 完整覆盖全部音频内容

    如何用 ASR 字幕配合 AI 翻译生成实时双语字幕?

    DualPiP 的 ASR 和 AI 翻译可以配合使用,为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景:视频没有原生字幕,但你需要看双语字幕学外语

    ASR + AI 翻译的工作流程

    1. ASR 实时识别原文:Deepgram 将视频音频转录为原语言文字字幕
    2. AI 大模型实时翻译:DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言
    3. 双语字幕同时显示:原文和译文以双语字幕的形式叠加在视频上方

    为什么 ASR 字幕翻译强烈推荐使用 AI 大模型?

    ASR 生成的字幕与传统字幕文件不同——ASR 字幕是实时识别的语音转录,可能存在断句不完整、口语化表达多、专有名词无上下文等问题。AI 大模型翻译( DeepSeek 、GPT 、Claude 等)在翻译 ASR 字幕时显著优于传统机翻( Google 、Microsoft ),原因在于:

    对比维度 传统机翻( Google/Microsoft ) AI 大模型翻译( DeepSeek/GPT/Claude )
    上下文理解 逐句翻译,无前后文信息 DualPiP 发送最近 N 条字幕作为上下文历史
    口语化处理 直译口语,生硬不通顺 理解口语语境,翻译自然流畅
    断句补全 ASR 断句不完整时翻译错乱 能结合上下文补全语义,正确翻译
    专有名词 频繁翻错人名、术语 结合 DualPiP 的影片信息增强识别
    语气还原 机械直译 保留说话者语气和表达风格

    DualPiP 的 AI 翻译引擎使用滑动窗口上下文机制:每次翻译 ASR 字幕时,会将前面已翻译的字幕作为对话历史一起发送给 AI ,让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要——因为语音识别的断句和传统字幕不同,AI 需要结合前文才能正确理解当前句子的含义。

    适合的使用场景

    场景 说明
    看无字幕外语视频学语言 ASR 识别原文 + AI 翻译为母语,双语对照学习
    看直播或实时内容 直播没有预制字幕,ASR 实时生成 + AI 实时翻译
    学术讲座和在线课程 部分课程无字幕或仅有英文字幕,ASR + AI 生成中文翻译
    播客和访谈节目 纯音频内容通过 ASR 可视化为文字,再翻译为目标语言

    DualPiP 支持 30+ AI 翻译服务商,用户可以根据翻译质量和费用自由选择。推荐使用 DeepSeek V4 Flash(性价比高,翻译一部电影约 ¥0.2-0.5 )。

    哪些视频网站可以用 DualPiP ASR 自动生成字幕?

    DualPiP ASR 基于浏览器的 Audio Capture API 捕获音频,理论上可以为任何在 Chrome 中播放的视频自动生成字幕。 对于没有原生字幕的视频(如很多直播内容、小众平台视频、用户上传的无字幕视频),ASR 是获取字幕的唯一途径。

    常见问题

    Q:ASR 实时语音识别的准确率怎么样? Deepgram nova-3 模型在英语上的词错误率( WER )低于 8%,是 2026 年最准确的实时语音识别模型之一。中文、日语等语言的识别准确率同样出色。识别效果受音频质量、说话人口音和背景噪音影响,纯语音内容的识别效果最佳。

    Q:ASR 是 DualPiP 的免费功能还是 PRO 功能?

    DualPiP 基础功能免费,AI 翻译和 ASR 需要登录后开通 PRO 后使用。

    ASR 实时字幕是 PRO 功能。DualPiP 的 YouTube 网页内双语字幕和基础画中画播放器免费使用,ASR 、AI 翻译等高级功能需要 购买 PRO 。首次注册免费开通 7 天 PRO

    Q:能识别视频中的多种语言混合吗? Deepgram 的 Multilingual 模式支持在同一段音频中自动检测和切换语言,适合多语言混合的访谈、播客和教学内容。本地 Whisper 后端也支持语言自动检测,但切换精度低于 Deepgram 。

    下载

    Chrome Web Store: https://chromewebstore.google.com/detail/dualpip/ddkmobcljbfggkmibabekgpbighaogpn

    8 replies    2026-06-03 09:57:35 +08:00
    artv
        1
    artv  
       1 day ago
    试过了,非常好用。[旺柴]

    icemaple
        2
    icemaple  
       1 day ago
    你才是真正的英雄
    CCidea
        3
    CCidea  
       1 day ago
    @artv 兄弟,借一部说话
    artv
        4
    artv  
       16h 46m ago
    @CCidea 我没有,missav,jable ,123av 什么的我都没看过
    Chelseawin
        5
    Chelseawin  
       16h 2m ago
    这才是 AI 存在意义
    ymlluo
        6
    ymlluo  
    OP
       14h 59m ago
    @artv #1 这都被你发现了
    ymlluo
        7
    ymlluo  
    OP
       14h 58m ago
    @icemaple 哈哈,主要是为了学习
    ymlluo
        8
    ymlluo  
    OP
       14h 58m ago
    @Chelseawin 感谢支持
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1513 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 16:55 · PVG 00:55 · LAX 09:55 · JFK 12:55
    ♥ Do have faith in what you're doing.