V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
llr8031
V2EX  ›  云计算

关于风格迁移的全栈学习路线

  •  
  •   llr8031 · 2021-04-17 15:04:01 +08:00 · 1833 次点击
    这是一个创建于 1308 天前的主题,其中的信息可能已经有所发展或是发生改变。

    嗯…楼主是一个电信本科生(打算以后做云计算方面的?)是打算自己玩的一个小项目,大概想实现的功能如下,请问各位有经验的大手子能否提供一些学习建议和实现方法

    1.目的是实现实时视频的风格迁移 2.客户端是一个树莓派(配有显示器和摄像头),用来接收视频输入和进行视频输出。接收到的视频通过网线传输到本地的配有 GPU 的服务器上进行风格迁移,处理完之后再传回树莓派进行播放。(也不一定是树莓派,也可以是低功耗机器,总之就是低功耗) 3.希望能实现 2 个以上的并行处理

    emmmmmmmm 算法其实不是想专攻的重点,目前的想法是将算法封装成 API 直接调用,摄像头似乎可以挂载成网络摄像头被服务器使用,但是封装和视频如何处理并传回实时播放没有头绪=。=

    学过 C++和 python,不过应该还要学更多的语言吧=。=

    感谢大佬们!!如果有相关的资料也麻烦您们评论一下喔

    2 条回复    2021-04-17 19:10:45 +08:00
    crclz
        1
    crclz  
       2021-04-17 17:26:53 +08:00
    我的印象中,实时风格迁移应该是基于输入图片,并且输出图片的。实现的方法有 3 种(大概,我不是很清楚)。

    第一种是 ContentLoss + StyleLoss + 优化输入像素,这种方法做不了实时。
    第二种是训练一个网络进行风格迁移(每一种风格需要训练新的网络),这种可以实时。
    第三种是 CycleGAN,性能什么的我不太了解,最好去调研一下。

    对于风格迁移,我想说的是,如果不是真的系统学习过神经网络,那么要么去 github 找完全开箱即用的代码,要么就下定决定学习神经网络。


    既然风格迁移是基于图像、生成图像的,那么,你的输出也是图像流。你就应该考虑以下方案:
    1. 传递图像流。树莓派接收到一张图片,就显示一张图片。
    2. 图像流编码为视频进行传递,树莓派进行解码并显示视频。这种你就可以参考网上的一些直播的解决方案。

    1 和 2 对树莓派的网络和 CPU 都有不一样的取舍,最终效果还是得 2 种都试试。当然,可以先不管风格迁移,重点关注实现树莓派上的视频显示。用一个高斯模糊或者其他的简单的滤镜处理图像临时代替风格迁移,来探究这一局部的解决方案。
    llr8031
        2
    llr8031  
    OP
       2021-04-17 19:10:45 +08:00 via iPad
    @crclz 感谢回复 wwwwwwww,看到直播和显示图片流有所启发了,确实是打算直接用 GitHub 上的代码来处理,我再研究一下怎么缝合这些功能
    再次感谢🙏
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1097 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 19:13 · PVG 03:13 · LAX 11:13 · JFK 14:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.