V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
hugo2233

AI 开发了个《武林外传》全台词检索对应截图网站

  •  
  •   hugo2233 · Feb 6 · 1679 views
    This topic created in 93 days ago, the information mentioned may be changed or developed.

    https://wulinwaizhuan.hugo2233.dpdns.org/ 文本提取:PaddleOCR (PaddlePaddle 引擎) 暴力破解硬字幕。 数据归档:构建台词-时间戳-图片路径的索引。 抽帧处理:FFmpeg 获取关键帧。 图像预处理:OpenCV + NumPy 提高识别率。

    难题攻克: 针对 TV 录制版没有软字幕的问题,OCR 是唯一解。通过批量推理,将 80 集海量素材转化为可检索的 JSON 文件

    一开始 win 直接运行代码好慢 80min 一集 现在在 wsl 上运行 5-8min 一集舒服了

    参考项目 github 的 Cicada000/VV 感谢指导

    9 replies    2026-02-10 21:43:25 +08:00
    duuu
        1
    duuu  
       Feb 6
    厉害~学习了
    0xo
        2
    0xo  
       Feb 6
    是谁杀了我而我又杀了谁
    第 65 集
    34:18
    ---
    这个好像不对
    xkwdm
        3
    xkwdm  
       Feb 6
    ![]( )
    hugo2233
        4
    hugo2233  
    OP
       Feb 6
    @xkwdm 对的很多 子曰 都是子日
    没有校对
    cadl
        5
    cadl  
       Feb 9
    哈哈点子太好玩了,点赞。前几天看到你的帖子,昨天教不会写代码的老婆尝试 claude code ,就是拿这个当例子,搞了个《马大帅》版本的。

    https://biaoleme.llpsh.com/
    hugo2233
        6
    hugo2233  
    OP
       Feb 10
    @cadl 好耶
    hugo2233
        7
    hugo2233  
    OP
       Feb 10
    @cadl 你这个做的比我好 嘿嘿 识别好准 我还是不少错误哈哈哈 随机一集不错
    cadl
        8
    cadl  
       Feb 10
    @hugo2233 哈哈,调试的时候看剧照乐完了。我用的 macOS 系统带的识别做的,在我机器上跑比 PaddleOCR 要快
    hugo2233
        9
    hugo2233  
    OP
       Feb 10
    @cadl 我是 win 80min 一集 wsl 5min 一集
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1094 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 18:09 · PVG 02:09 · LAX 11:09 · JFK 14:09
    ♥ Do have faith in what you're doing.