Chrome 扩展 DualPiP v1.7- 给任意网页视频加实时字幕 — 直播/网课/无字幕视频都能用

如果想在 V2EX 获得更好的推广效果，欢迎了解 PRO 会员机制：
https://www.v2ex.com/pro/about

如果你经常使用铜币置顶主题，持有 V2EX Solana Token 会在每日签到时获得额外铜币：
https://www.v2ex.com/solana

很多时候想看的视频没有字幕：直播回放、没人翻译的网课、国外新闻直播、番剧。之前只能靠听。

DualPiP 最近 v1.7 更新加了 ASR （自动语音识别）实时字幕功能。

原理

通过浏览器的音频捕获 API 获取视频音频流，发送到 Deepgram 云端通过 WebSocket 实时转写。也支持本地部署的 Whisper 服务器。预加载模式无延迟，实时字幕延迟大约 300ms 。

Deepgram 为新注册用户提供 **$200 免费额度**，注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算，$200 额度足够转录约 476 小时音频——相当于看 238 部 2 小时电影

适用场景

直播没字幕：YouTube/Twitch 直播大多没有实时字幕，DualPiP 可以实时生成
网课录像：大学网课很多没有字幕，开了 ASR 就有了
看生肉番：为没有字幕的番剧，自动生成字幕，
学外语：ASR 生成的字幕可以直接走 AI 翻译生成双语字幕，看英语直播时显示英文+中文字幕

ASR 实时流和预下载批量模式有什么区别？

DualPiP ASR 提供两种音频捕获和识别模式，适应不同的观看场景：

实时流模式（ WebSocket Streaming ）

音频通过 WebSocket 实时发送到 Deepgram 服务器，字幕延迟低于 300ms ，几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果，让字幕出现得更快。适合直播、视频会议、实时内容等需要即时反馈的场景。

预下载批量模式（ Pre-download + HTTP Batch ）

DualPiP 先将视频音频预下载并按时间段分割，然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容——可以在观看前提前生成完整字幕，播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。

对比	实时流模式	预下载批量模式
延迟	< 300ms	预下载完成后零延迟
适合场景	直播、实时内容、会议	已发布的视频、需要完整字幕
支持后端	Deepgram （ WebSocket ）	Deepgram + 本地 Whisper
字幕完整性	实时生成，偶有遗漏	完整覆盖全部音频内容

如何用 ASR 字幕配合 AI 翻译生成实时双语字幕？

DualPiP 的 ASR 和 AI 翻译可以配合使用，为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景：视频没有原生字幕，但你需要看双语字幕学外语。

ASR + AI 翻译的工作流程

ASR 实时识别原文：Deepgram 将视频音频转录为原语言文字字幕
AI 大模型实时翻译：DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言
双语字幕同时显示：原文和译文以双语字幕的形式叠加在视频上方

为什么 ASR 字幕翻译强烈推荐使用 AI 大模型？

ASR 生成的字幕与传统字幕文件不同——ASR 字幕是实时识别的语音转录，可能存在断句不完整、口语化表达多、专有名词无上下文等问题。AI 大模型翻译（ DeepSeek 、GPT 、Claude 等）在翻译 ASR 字幕时显著优于传统机翻（ Google 、Microsoft ），原因在于：

对比维度	传统机翻（ Google/Microsoft ）	AI 大模型翻译（ DeepSeek/GPT/Claude ）
上下文理解	逐句翻译，无前后文信息	DualPiP 发送最近 N 条字幕作为上下文历史
口语化处理	直译口语，生硬不通顺	理解口语语境，翻译自然流畅
断句补全	ASR 断句不完整时翻译错乱	能结合上下文补全语义，正确翻译
专有名词	频繁翻错人名、术语	结合 DualPiP 的影片信息增强识别
语气还原	机械直译	保留说话者语气和表达风格

DualPiP 的 AI 翻译引擎使用滑动窗口上下文机制：每次翻译 ASR 字幕时，会将前面已翻译的字幕作为对话历史一起发送给 AI ，让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要——因为语音识别的断句和传统字幕不同，AI 需要结合前文才能正确理解当前句子的含义。

适合的使用场景

场景	说明
看无字幕外语视频学语言	ASR 识别原文 + AI 翻译为母语，双语对照学习
看直播或实时内容	直播没有预制字幕，ASR 实时生成 + AI 实时翻译
学术讲座和在线课程	部分课程无字幕或仅有英文字幕，ASR + AI 生成中文翻译
播客和访谈节目	纯音频内容通过 ASR 可视化为文字，再翻译为目标语言