V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
minsheng
V2EX  ›  Apple

视频软编码的时候 M1 确实不如八核 i9

  •  2
     
  •   minsheng · 2021-07-22 13:15:57 +08:00 · 12588 次点击
    这是一个创建于 1220 天前的主题,其中的信息可能已经有所发展或是发生改变。

    刚刚编译了一个有 Apple NEON 补丁的 ffmpeg,随便拿了一集 Rick and Morty,用 x265 做了一个压片测试,结果如下:

    • Intel,用时 12min11s 。
    • M1,用时 13min24s,慢了 10%。

    Intel 的结果:

    encoded 34437 frames in 731.41s (47.08 fps), 1413.17 kb/s, Avg QP:29.99
    
    ________________________________________________________
    Executed in  731.75 secs    fish           external
       usr time  132.28 mins  140.00 micros  132.28 mins
       sys time    1.63 mins  756.00 micros    1.63 mins
    

    M1 的结果

    encoded 34437 frames in 804.03s (42.83 fps), 1413.12 kb/s, Avg QP:29.99
    
    ________________________________________________________
    Executed in  804.08 secs    fish           external
       usr time   91.92 mins    0.09 millis   91.92 mins
       sys time    0.41 mins    1.30 millis    0.41 mins
    

    感觉有两点:

    • Intel 的 Mac 其实一开始性能要更好,但是跑久了之后可以明显感觉到降频。
    • 比较好奇为什么 M1 的 usr time 比 Intel 小那么多,不知道这是怎么算的,毕竟 M1 虽然是大小核,但也是 4+4 八核处理器。
    78 条回复    2021-07-30 16:46:48 +08:00
    moonkiller
        1
    moonkiller  
       2021-07-22 13:21:46 +08:00
    单一项测试没有意义
    你还没测 4K 等其他分辨率的

    这里有个其他人的测试
    &feature=emb_title
    lloovve
        2
    lloovve  
       2021-07-22 13:22:23 +08:00 via iPhone   ❤️ 4
    这俩功耗差的不是一点半点
    wellsc
        3
    wellsc  
       2021-07-22 13:23:54 +08:00 via iPhone
    看功耗
    icyalala
        4
    icyalala  
       2021-07-22 13:42:25 +08:00   ❤️ 4
    不太清除楼主用的编译选项和编码方式。。
    如果只用 CPU 编码的话,Intel 上能用到 AVX2 之类的 SIMD 加速,ARM 的 NEON 是比不上的。
    苹果的 M1/A14 有 AMX2,性能大约是 NEON 的两倍,
    但是这个指令集并没有公布,只能通过 Accelerate.framework 访问。
    如果只使用 NEON,同等条件下可能比不过 Intel/AMD 的。
    ililu
        5
    ililu  
       2021-07-22 13:45:37 +08:00
    入门级产品干嘛要和 i9 比?
    minsheng
        6
    minsheng  
    OP
       2021-07-22 13:54:47 +08:00   ❤️ 1
    @icyalala 用的是 x265 软编码,Intel 用的是 Homebrew 版本,M1 用的是 https://github.com/Vargol/ffmpeg-apple-arm64-build 。编码选项用的是 constant RF = 25 。

    > 如果只用 CPU 编码的话,Intel 上能用到 AVX2 之类的 SIMD 加速,ARM 的 NEON 是比不上的。

    我好奇的就是能不能比得上,我感觉好像已经很接近了。
    zhchyu999
        7
    zhchyu999  
       2021-07-22 13:56:42 +08:00   ❤️ 18
    楼主说的是实际测试结果。可是 2#、3#和 5#这样的忠诚的粉丝回复的是啥,无脑护主
    icyalala
        8
    icyalala  
       2021-07-22 14:10:58 +08:00
    @minsheng 看了下那个 patch,主要还是用了 <arm_neon.h> 里的 intrinsics,适配的是通用的 arm64 架构,
    如果用苹果的 Accelerate 里面的 API 的话,应该还能有些提升,但是那样就不通用了。
    wydinhk
        9
    wydinhk  
       2021-07-22 14:18:38 +08:00   ❤️ 1
    @zhchyu999 结果差不多的情况下,功耗确实是差别最大的啊。。。M1 的 CPU 软编顶多跑到 20W,16 寸没用过,i9-9880H 满载功率怎么也得有个几倍吧,网上看过数据 macOS 下 cinebench 70W,win 下 PL1 能到 100W……
    expy
        10
    expy  
       2021-07-22 14:28:00 +08:00   ❤️ 1
    可以把 preset 开到 slower 试试,发片那些压制组最低都是这个设置。
    我的陈年 i3 转码 480p 都慢成🐶

    ffmpeg -i input.mp4 -c:v libx265 -crf 22 -preset slower -c:a copy output.mp4

    encoded 305 frames in 114.22s (2.67 fps), 419.26 kb/s, Avg QP:27.60
    yzwduck
        11
    yzwduck  
       2021-07-22 15:01:21 +08:00   ❤️ 1
    > M1 的 usr time 比 Intel 小

    因为 Intel i9 是 8 核心 16 线程。16 线程的 usr time 加起来,比 8 线程的 usr time 加起来多是正常的,即使前者的 wall time 要少。
    mikeven
        12
    mikeven  
       2021-07-22 15:08:34 +08:00
    问题是 M1 是 4 大核加上 4 小核,本质上是 4 核处理器,,都快打平了 8 核 i9 了,,这还怎么比
    M1X 据说是 8 大核,到时候可以比比
    zhs227
        13
    zhs227  
       2021-07-22 15:08:50 +08:00
    如果用 videotoolbox 来利用 m1 的硬编能力,就吊打 i9 了。纯软编 m1 肯定比不过 i9,吃惊的是差异没有想象中的大。
    longbye0
        14
    longbye0  
       2021-07-22 15:15:21 +08:00
    有谁对比过 M1 硬编和 nvenc 吗
    devcat9
        15
    devcat9  
       2021-07-22 15:16:27 +08:00
    中高配 i9 MBP 两三万。。。
    中高配 M1 MBP 一万多。。。

    怎么比
    muntoya
        16
    muntoya  
       2021-07-22 15:23:56 +08:00
    降频主要是因为发热问题,不止 CPU,独显不小心启动更可怕。如果是短时间爆发比如开发编译,i9 还是挺好的。
    lloovve
        17
    lloovve  
       2021-07-22 15:24:24 +08:00 via iPhone   ❤️ 21
    @zhchyu999 你从哪看出我是忠粉,你这脑回路真清奇,我都没有 M1,我只是说了功耗不一样,有问题么,你是无脑黑才对。
    MrKrabs
        18
    MrKrabs  
       2021-07-22 15:40:08 +08:00
    四小核也就一个大核的水平吧
    MrKrabs
        19
    MrKrabs  
       2021-07-22 15:42:16 +08:00
    我经常用 m1 压片,15w 的功耗这速度已经不错了
    erwin985211
        20
    erwin985211  
       2021-07-22 15:44:26 +08:00
    所以 m1 只铺低端线呀。不过就 mac 那种散热设计只能五秒真男人吧,物理法则是无法抗拒的
    QlanQ
        21
    QlanQ  
       2021-07-22 16:09:27 +08:00
    @zhchyu999 我不太懂,上面咋护主了,m1 和 i9 价格相差那么 大,这对比是不是 没啥意义呀。。。
    ipwx
        22
    ipwx  
       2021-07-22 16:17:06 +08:00   ❤️ 4
    吃惊的是差异没有想象中的大。
    liangch
        23
    liangch  
       2021-07-22 16:24:25 +08:00
    真要软编码,不要丢给台式机么。场景不对。
    stoneabc
        24
    stoneabc  
       2021-07-22 16:26:58 +08:00
    @zhs227 quicksync 也不是吃素的
    ZRS
        25
    ZRS  
       2021-07-22 16:37:16 +08:00 via iPhone
    M1 毕竟只有 4 个大核…
    linhongye
        26
    linhongye  
       2021-07-22 16:59:19 +08:00   ❤️ 4
    测的情况不够完整, 有些情况是 m1 更快, 有些情况是 i9 更快.
    特别是 m1 用上硬解码的情况下, m1 直接起飞...
    实际上, 即使是 i9 更快的那些场景, m1 也没有输太多...
    然后再考虑到 m1 是第一款桌面端 ARM(高通那个能算?), 而且价格比 i9 便宜那么多, 而且功耗低那么多, 不惊艳到人是很难的.
    过了一段时间, 抛去了被惊艳滤镜以后, m1 依然是现在非常好的一个选择.
    实际上, 在 mac 生态中, 综合考虑(降频、续航、温度、价格、日常作业流畅度), m1 就是目前最好选择. 买 mac 还选 intel 的, 唯一剩下一些理由就是屏幕尺寸和非常少见的兼容性问题了.
    dadachen1997
        27
    dadachen1997  
       2021-07-22 17:09:44 +08:00
    m1 硬解码可以设置 crf 吗
    6IbA2bj5ip3tK49j
        28
    6IbA2bj5ip3tK49j  
       2021-07-22 17:20:56 +08:00   ❤️ 6
    吃惊 intel 真拉垮,i9 只赢 10%
    (而且我还脑补了 i9 的风扇起飞
    minsheng
        29
    minsheng  
    OP
       2021-07-22 18:20:53 +08:00
    @yzwduck 因为 Intel i9 是 8 核心 16 线程。16 线程的 usr time 加起来,比 8 线程的 usr time 加起来多是正常的,即使前者的 wall time 要少。

    感谢。那是不是因为在这个工况下,实际计算电路负载高,超线程很难发挥作用,所以 usr time 就相对很少,远远没到两倍的差距?

    @mikeven 我不是果黑,我只是想提前幻想一下 M1X 对我的老 i9 的巨大提升……

    @zhs227
    @longbye0 我是特意想看看软编码能力,想看看 M1X 能否有希望吊打 i9 。感觉硬编码质量实在很难接受。

    @xgfan 测的时候女朋友在做饭还真没听到……不过抽烟机一关瞬间整个人就不好了。
    minsheng
        30
    minsheng  
    OP
       2021-07-22 18:24:52 +08:00   ❤️ 1
    @linhongye 其实我觉得现在这个结果就已经很惊艳了,几乎是 1/2 的核心数还能勉强战平。只是这段时间刚好刷到一些知乎,看到很多人都在说 M1 只是靠专用电路,而且感觉很多测评确实只测硬编码,于是就想跑来自己看看,感受一下。

    其实搜 V2,之前好像有人做过类似的测验,去年十一月。我同时也好奇这么久过去了,上游的库有没有对 M1 做更好的优化。

    不是专业测试,甚至没怎么手压过片,随便测测玩玩。
    Jooooooooo
        31
    Jooooooooo  
       2021-07-22 18:36:27 +08:00
    因为 m1 的优势在电池.
    zhs227
        32
    zhs227  
       2021-07-22 18:39:18 +08:00
    @dadachen1997 不能。选项少的可怜
    longbye0
        33
    longbye0  
       2021-07-22 18:49:06 +08:00
    @minsheng turing 系的 nvenc 的编码质量已经提升很大了,264 已经超过 x264 了。

    虽然软编支持参数多,但一般人也不懂不会去调。
    cwbsw
        34
    cwbsw  
       2021-07-22 19:36:20 +08:00
    x265 竟然只慢 10%,那换 x264 搞不好能持平甚至反超。
    GeruzoniAnsasu
        35
    GeruzoniAnsasu  
       2021-07-22 19:44:20 +08:00   ❤️ 12
    我对 M1 的态度:

    - 辣鸡 ARM 怎么可能打得过 x86
    - 看数据有什么用,跑分都是针对性优化过的,没看到那一堆协处理器吗
    - 真的假的,你们不是买了心疼花的钱强行吹吧
    - 好像还真可以
    - 卧槽?这也能打平手
    - 卧槽? intel 什么辣鸡
    - 呜呜呜我的 10 代 i5 谁来接盘 呜呜呜
    charlie21
        36
    charlie21  
       2021-07-22 19:53:31 +08:00
    一台允许暴力使用的电脑,就该高功耗,续航短,浪费电,风扇飞起
    风扇又不贵
    dadachen1997
        37
    dadachen1997  
       2021-07-22 20:04:26 +08:00
    @zhs227 那感觉实用性不是太高啊,真的要压制,各种参数还是需要调的。只适合一般用户使用
    YsHaNg
        38
    YsHaNg  
       2021-07-22 20:49:57 +08:00
    @minsheng 没记错 neon 是 64 or 128 avx2 可是它的两倍
    gemepio
        39
    gemepio  
       2021-07-22 21:17:07 +08:00
    说一个自己的 case, 同样一段 c++代码,只进行简单的数值计算,M1 和 PC ( i5-7600k ) 用相应平台最新的 g++去编译,PC 耗时是 M1 的 1.5 倍左右
    beginor
        40
    beginor  
       2021-07-22 22:02:11 +08:00 via Android
    交叉编译一个 Android ROM 试一下, 有没人人测试过?
    minsheng
        41
    minsheng  
    OP
       2021-07-22 22:48:05 +08:00 via iPhone
    @GeruzoniAnsasu 其实你要看新的 iPad Pro 和 iMac 的宣传文案里面,跟各自上一代的提升,你就会发现卧槽原来库克之前说的 iPad 比 90%的电脑快不是在骗人
    minsheng
        42
    minsheng  
    OP
       2021-07-22 22:52:04 +08:00 via iPhone
    @gemepio 是的,我之前测了编译公司的 iOS 项目,情况差不多
    minsheng
        43
    minsheng  
    OP
       2021-07-22 22:54:32 +08:00 via iPhone
    @YsHaNg 我不懂 CPU,但我想如果多了一倍的 NEON 处理单元,会不会可以乱序执行达到类似的性能?

    当然了,Apple 主要面向自己平台做优化,让所有人都用 Accelerate,把 BLAS 改出花,所以可能做自己的私有 ARM 扩展更划算。
    minsheng
        44
    minsheng  
    OP
       2021-07-22 22:56:55 +08:00 via iPhone
    @charlie21 那是你性能还不够高。Intel 单核要是跑到 20W (才叫性能释放)的话,40 核就要飞到 800W 了,而 Mac Pro 配超大杯 M1X 可能只需要 200W 。功耗能做下去,规模就能堆上来,对性能总归是好的。
    YsHaNg
        45
    YsHaNg  
       2021-07-23 00:27:51 +08:00
    @minsheng overhead 会抵消部分性能 这个要实际测 neon 本身也很多限制 功能缺失 完善的相当缓慢 大概相当于 sse2 到 ssse3 之间 这么多年了 sse2 其实都还没完全体 去年之前都没有办法 load/store 32bit int gcc 刚支持 等业界用上又要 3 5 年
    NXzCH8fP20468ML5
        46
    NXzCH8fP20468ML5  
       2021-07-23 01:08:44 +08:00
    M1 是 SOC,Intel 是 CPU 。
    如果你的应用刚好碰上 M1 自带电路实现的范围内,功耗,性能绝对吊锤 Intel 。
    如果不在范围内,和 Intel 还是有一定差距的,但差距比我们印象中的 Arm 和 x86 差距要小的多。
    czhu
        47
    czhu  
       2021-07-23 04:12:49 +08:00   ❤️ 1
    i9 的风扇起飞了没?
    我对 i9 的性能没抱怨,但是放在笔记本里,至少在 MBP,散热是个大大问题,体验太差了。这锅不知道该是 Intel 还是苹果背。
    M1 现在对一部分人的短板是内存只有 16G,接口只有两个。大多数用不到,不代表没人有这个刚需。
    希望 M1X 能解决这两个痛点吧。
    GeruzoniAnsasu
        48
    GeruzoniAnsasu  
       2021-07-23 04:39:11 +08:00
    @xxfye
    刚到我的第二阶段_(:з」∠)_

    目前的现实情况是,工作环境暂时找不到 “不在范围内” 的场景。M1 多媒体性能(编解码)和通用计算性能(编译)都已经跟 intel 旗舰不相上下,那还找什么场景,香就完事了
    acupnocup
        49
    acupnocup  
       2021-07-23 07:17:41 +08:00 via iPhone
    看完更觉得 m1 香了
    当然了 追求极致生产力的照旧可以考虑选择 i9
    或者 Mac Pro +m1
    crystone
        50
    crystone  
       2021-07-23 08:56:56 +08:00
    我只想知道 m1x 什么时候发布
    NonClockworkChen
        51
    NonClockworkChen  
       2021-07-23 09:18:11 +08:00
    @ililu 神 tmd 入门级产品
    ililu
        52
    ililu  
       2021-07-23 10:33:15 +08:00
    @NonClockworkChen M1X 才是中高端产品
    liprais
        53
    liprais  
       2021-07-23 10:36:02 +08:00 via iPhone
    @xxfye 所以 m1 编译快也是用了专门的协处理器是么?
    wzw
        54
    wzw  
       2021-07-23 10:45:11 +08:00
    @crystone 我也想知道 M1X
    mikeven
        55
    mikeven  
       2021-07-23 10:49:32 +08:00
    @minsheng #44 从 M1 来看,M1x 单体 TDP 大概只有 50w,Mac Pro,iMac Pro 用的顶级芯片有可能是 4 个 M1X 封装的 Chiplets
    Lemeng
        56
    Lemeng  
       2021-07-23 10:57:04 +08:00
    功耗差太多
    garipan
        57
    garipan  
       2021-07-23 10:59:24 +08:00
    不同的编码和时长,可能会有完全不一样的结果。
    cpstar
        58
    cpstar  
       2021-07-23 11:00:44 +08:00
    我没搞明白,从 LZ 到一众恢复,搁这儿强烈比较一个十项全能选手和一个百米冠军?
    各位继续。。。
    wellsc
        59
    wellsc  
       2021-07-23 11:06:33 +08:00 via iPhone
    @zhchyu999 功耗差别不是客观事实嘛,护主这种描述怎么应该用在主观感受的事情上面
    sgissb1
        60
    sgissb1  
       2021-07-23 11:53:38 +08:00
    是送 i420 进去编码么?还是楼上说的 MP4 文件转?

    比较感兴趣这个话题,有没有更详细的信息可以了解下(分辨率,转码参数之类)。
    icenine
        61
    icenine  
       2021-07-23 15:13:47 +08:00
    最近用 4A 小机箱配了个 11 代 i7 的 itx 主机,才知道 intel 现在 CPU 这发热功耗真是太高了,不超频全核睿频 170 多瓦,用下压式散热器,坚持几十秒就超 100 度撞温度墙降频了。
    不是说 i9 性能低,是热功耗与性能比值低,笔记本上散热肯定是有限的,也就限制它性能了。
    M1 制程和架构上的优势,在笔记本上它只要不发热降频就赢了。
    a719031256
        62
    a719031256  
       2021-07-23 15:37:24 +08:00
    @cpstar

    都是为了秀
    sidkang
        63
    sidkang  
       2021-07-23 16:44:16 +08:00
    @cpstar 这结果都已经到一个可比阶段了,有什么不能比的,我也没搞明白
    6IbA2bj5ip3tK49j
        64
    6IbA2bj5ip3tK49j  
       2021-07-23 16:53:09 +08:00
    @cpstar 对于 MBP 而言,Intel 十项全能在哪儿?
    daimon1
        65
    daimon1  
       2021-07-23 18:00:12 +08:00
    太吃惊了,竟然有 10%这么大的差距
    cpstar
        66
    cpstar  
       2021-07-23 18:59:15 +08:00
    @xgfan 64# 需要这么直接较真呢?我跟这说处理器呢,你跟我说 MBP 。
    @sidkang 62# 是在比啊,十项全能里也有百米比赛
    NeezerGu
        67
    NeezerGu  
       2021-07-23 19:07:20 +08:00   ❤️ 1
    @zhchyu999 这不很常见吗?
    我的 giegie 不仅能唱能跳学习成绩还好。
    神马?你说 xx 学习成绩更好?他有我 giegie 唱的好跳得好吗?
    神马?你说 xx 唱的更好跳的更好?他有我 giegie 学习成绩好吗?
    神马?你说 xxx 唱得更好跳得更好,学习成绩也更好?你举特例有什么意思,个无脑黑的玩意,滚!
    6IbA2bj5ip3tK49j
        68
    6IbA2bj5ip3tK49j  
       2021-07-23 21:06:57 +08:00
    @cpstar M1 主要战场不就是在 MBP/MBA 上的吗。
    桌面至尊 i9 啥的再强再全能也跟 M1 八竿子打不着啊。
    bitdepth
        69
    bitdepth  
       2021-07-23 21:59:52 +08:00 via iPad
    @zhs227 硬壓應該要和 10th gen or 11th gen Intel GPU 比好不

    @longbye0 你比的高 qp 和 B slice 過?
    johnkiller
        71
    johnkiller  
       2021-07-24 00:02:43 +08:00
    啊! m1 连 i9 都打不过,垃圾货有什么好舔的。
    johnkiller
        72
    johnkiller  
       2021-07-24 00:03:03 +08:00   ❤️ 1
    ( doge
    bitdepth
        73
    bitdepth  
       2021-07-24 00:52:49 +08:00 via iPad
    @longbye0 這個拿專業卡比的啊
    longbye0
        74
    longbye0  
       2021-07-24 15:47:32 +08:00
    @bitdepth https://en.wikipedia.org/wiki/Nvidia_NVENC

    自己去查 20 系和 T4 卡核心代号是啥,是不是都用的第六代 nvenc 。

    别回复了
    mbooyn
        75
    mbooyn  
       2021-07-25 01:18:46 +08:00
    上来就软解干 i9,这么顶的么?
    bao3
        76
    bao3  
       2021-07-26 12:12:18 +08:00 via iPhone
    为啥我看到这个评测结果,觉得 M1 好优秀,价格便宜,功耗低,而且软解居然只比 i9 低 10%,这太赞了,软解是 4 核心对 8 核心,猛! 至于硬解,大胆想一下,即使 M1 和 i9 打平,那也是超级赞的啦
    shengmi
        77
    shengmi  
       2021-07-26 15:34:16 +08:00
    最近发现盒盖后第二天打开,腾讯视频 APP 竟然能让 M1 感觉到卡,期间就在前台呆着,必须结束了重新启动 APP
    qwetrz007sh
        78
    qwetrz007sh  
       2021-07-30 16:46:48 +08:00   ❤️ 1
    M1 这个芯片真的是看需求,目前 b 站吹得太厉害了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2649 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 10:19 · PVG 18:19 · LAX 02:19 · JFK 05:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.