V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
edis0n0
V2EX  ›  程序员

为什么音频最近几年没有出现类似图片的 webp、视频的 vp9 av1 这样的低损高压缩率编码方式?

  •  
  •   edis0n0 · 2022-12-15 20:06:27 +08:00 · 6016 次点击
    这是一个创建于 708 天前的主题,其中的信息可能已经有所发展或是发生改变。

    自测了一下 vp9 还是挺强的,就是 youtube 码率给的太抠了导致暗处细节明显不如同分辨率 h264 。

    49 条回复    2022-12-18 01:42:48 +08:00
    V1Eerie
        1
    V1Eerie  
       2022-12-15 20:59:21 +08:00   ❤️ 2
    从需求驱动的角度来说:由于音频文件在网络上传输过程中的传播和存储速度比图片和视频要快得多,并且对音频数据压缩变形生成损失不大,所以目前还没有可以像 webp 、vp9 av1 等低损、高压缩率的编码方式出现。
    在无线传输领域:蓝牙技术 LE Audio 最新设计的 LC3 编解码器在降低了延迟的同时保证了音频质量,而来自高通的 Snapdragon Sound 技术也在确保优质的声音体验。
    单就存储的格式而言:最近 FLAC 风头正盛。FLAC(Free Lossless Audio Codec)是一种无损音频编码方式,它可以保证音频文件在压缩后不会有任何失真且可以保持原来文件的完整性。FLAC 可以大量减少音频文件的大小,而削减掉的部分只是无用的数据,可以将原来的音频文件完整地压缩成原来的 1/4 大小或者更小。它已经获得了硬件解码支持,有广泛的技术前景。
    lambdaq
        2
    lambdaq  
       2022-12-15 21:25:04 +08:00
    音频好像已经做到极限了。人声部分的优化特别多。
    lloovve
        3
    lloovve  
       2022-12-15 21:27:10 +08:00 via iPhone   ❤️ 4
    谁说的,查一下 Google 的超低码率编码器
    codehz
        4
    codehz  
       2022-12-15 21:28:05 +08:00
    盲猜:
    视频编码损失好衡量,有一堆现成算法可以非常精确的比较压缩造成的损失
    音频编码损失全靠玄学(
    lhbc
        5
    lhbc  
       2022-12-15 21:32:50 +08:00 via Android
    @V1Eerie flac 是无损压缩,并不是“去掉无用数据”
    flac 可以完整复原原文件

    你这是 chatGPT 的答复?
    KevZhi
        6
    KevZhi  
       2022-12-15 21:40:38 +08:00
    音乐容易被重复收听,很多人有把音乐下载到本地的习惯。播放器也会帮助缓存。并且音乐文件的数据量上限是比较低的。这个时候对于一个高压缩率编码需求不那么明显。
    iOCZ
        7
    iOCZ  
       2022-12-15 21:50:30 +08:00
    技术回报不太高了
    V1Eerie
        8
    V1Eerie  
       2022-12-15 22:09:29 +08:00
    @lhbc 词措问题,削减单指减少占用的数据位(由于采用压缩算法,可以由更少的数据位存储数据)我认为可以这样理解,这是无损的毫无疑问。

    第一段和第三段是 ai 的 reply ,没标注引用,不过很明显,你把问题丢进去再问它也是这么个回答。
    twy2004
        9
    twy2004  
       2022-12-15 22:19:07 +08:00
    因为意义不大,音频本来文件就小,压缩没什么意义。
    edis0n0
        10
    edis0n0  
    OP
       2022-12-15 22:34:05 +08:00
    @twy2004 #9 错了,有意义,即使在美国也有很多人家里连宽带都没有(这是马斯克做星链的目的之一)。而且尽管美国不少地区人都用上了万兆宽带,也有很多人在这方面很抠的,像我的一个很有钱的美国客户家里宽带只有 10Mbps (可能是偏远地区吧,我不了解具体情况)(对这种小带宽用户,尽管串流一个 1Mbps 的 16kHz FLAC 还是没什么问题,但如果你想放一个 10 分钟的 FLAC 音频进你的产品安装包,他就会增大差不多 60MB ,他要多下载 1 分钟)
    dnsaq
        11
    dnsaq  
       2022-12-15 22:44:31 +08:00 via iPhone
    @twy2004 任何技术都有它存在的理由 怎么会没有意义 你太高估现在的传输能力。
    kennylam777
        12
    kennylam777  
       2022-12-15 23:15:16 +08:00   ❤️ 2
    @edis0n0 嗯, 壓縮的確有意義, 即使不談特別慢的終端網速, 任何事情只要有規模, 追求效率就是降低成本。

    中國的寬頻夠好了吧, 強勢的政策令 FTTH 的覆蓋率很高也很便宜, 但 B 站一類的仍然會在追求壓縮率, 老實說 B 站比 YouTube 壓得還要狠, 在中國 6Mbps 就是稱為藍光等級的串流。

    說白了其實羊毛出自羊身上, 伺服器一方每 Mbps 成本仍然十分昂貴, 這時候有一個能省 10%的標準出來, 也就可以省下 10%成本, 作為營運方不香嗎?
    mayli
        13
    mayli  
       2022-12-16 00:04:35 +08:00 via Android
    Opus?
    squarefong17
        14
    squarefong17  
       2022-12-16 00:48:45 +08:00   ❤️ 1
    因为大部分人对音质的感知不如视频清晰度和码率明显,花大力气研究这个收益不大。往前推五年八年,能看到一堆带独立音频芯片的音乐手机,在那里卷解码能力,卷调音,卷推力,两千的音乐手机,音质咋一听,相当不错。现在呢,虽然说不带音频芯片的手机平均水平也上去了,但是旗舰机也都不卷音质了,甚至都学苹果,砍掉有线,就用蓝牙。消费者也是,买个百元入门级 tws ,支持个 sbc ,最多 aac ,很多人真的能接受这个音质的。市场反馈说明在乎高码率音频的是少数,在意音质的会要求什么采样率什么无损压缩,但大多数情况,aac 那种真就够了,反正用户也没有能还原这个音质的设备。
    mingl0280
        15
    mingl0280  
       2022-12-16 00:56:01 +08:00 via Android
    没需求。
    音频的行业需求已经萎缩了,再提高音质确实没有什么可感知的效果,没人有动力去整这个。
    另外楼上的某人,现阶段 mp4 带的 128kbps aac 已经够绝大多数场景使用了,128kbps 才占一个 6Mbps 带宽的 1/60 ,2%……这东西再省不省个 10%都真的无所谓。
    ysc3839
        16
    ysc3839  
       2022-12-16 00:59:53 +08:00 via Android
    可能是用户没需求,现在 AAC 都还没完全淘汰 MP3 呢。
    xiadong1994
        17
    xiadong1994  
       2022-12-16 01:10:31 +08:00 via iPhone
    低码率高质量的压缩算法的推动力不是用户的带宽或者下载时间能节省多少,这都是次要的,主要是为了降低服务商的存储成本。
    edis0n0
        18
    edis0n0  
    OP
       2022-12-16 01:14:07 +08:00
    @xiadong1994 #17 例如游戏总要把音频下载到本地再播放吧(我目前还没见过串流音频的游戏),3GiB 的资源包里音频占 2GiB 我觉得不太合适
    xiadong1994
        19
    xiadong1994  
       2022-12-16 02:17:31 +08:00
    @edis0n0 节省用户的存储现在不是一个很重要的动力,而且没有视频压缩节省的多。
    shyangs
        20
    shyangs  
       2022-12-16 02:23:11 +08:00
    因為人類大多是 火眼金睛 配上 木耳 。
    dcsuibian
        21
    dcsuibian  
       2022-12-16 03:03:22 +08:00
    https://www.v2ex.com/t/884497
    个人观点:音频压缩有用,但需求小,不出名。

    与视频相比,音频的尺寸小多了,大家都能接受。
    其次,音质的变化不明显,用户设备也不一定能听得出来。

    至于图片压缩,更多的是担心带宽而不是流量和存储。如果图片不压缩,那么网页的加载时间就会变得很长,用户体验糟糕。而音视频都可以慢慢放。
    msg7086
        22
    msg7086  
       2022-12-16 03:18:37 +08:00
    Opus 表示你在说什么? 64K 的 Opus 质量已经相当好了,96K 你已经基本听不出和高码 MP3 的区别了。
    lhbc
        23
    lhbc  
       2022-12-16 04:07:23 +08:00 via Android
    其实音频编码的技术发展是 DTS-HD Master Audio 和 Dolby TrueHD
    至于 web 端,没什么技术收益而且技术进步空间不大
    gzlock
        24
    gzlock  
       2022-12-16 04:25:19 +08:00
    google lyra
    meta encodec
    BigShot404
        25
    BigShot404  
       2022-12-16 06:50:46 +08:00
    音频格式并非越好越普及,而是兼容性和厂商支持排第一,就像当年 YAMAHA 的 VQF 明明压缩率和还原度都比 MP3 强,但就是普及不了。
    wangsd
        26
    wangsd  
       2022-12-16 10:33:19 +08:00
    有啊 Opus
    Slurp
        27
    Slurp  
       2022-12-16 10:52:18 +08:00 via iPad   ❤️ 2
    Opus 已经够低了,而且是开放格式,任意商用。Discord 、腾讯会议、YouTube 都是这个方案。

    有些垃圾游戏直接 wav 套层加密,导致安装包巨大的事就不多提了。
    lslqtz
        28
    lslqtz  
       2022-12-16 12:04:16 +08:00   ❤️ 1
    通常没有需求, 因为音频相比其它数据小了非常非常多, 无损压缩也不一定会有很大的压缩率差别, 而像 Opus 这种有损压缩编码器甚至整个有损音乐都已经在逐步被试图淘汰, 还有诸如 TAK 此类的格式一直比较冷淡. 总的来说在兼容性和效率方面考量都没有太大必要.
    lslqtz
        29
    lslqtz  
       2022-12-16 12:05:42 +08:00   ❤️ 2
    Google 的 VP9, 如果不是 YouTube 推动, 到现在必然也是一潭死水. 内容提供商的决定权才是最重要的.
    当然, 部分厂商是在自己的客户端已经使用此类方案的, 只是不普及而已.
    wxf666
        30
    wxf666  
       2022-12-16 14:40:33 +08:00
    @msg7086 @Slurp 其实我觉得,即使是 32K 时,AAC he_v2 的质量也比 OPUS 高(但专门转码人声的话,确实 OPUS 强)

    @lslqtz 不会吧。。难道现在各种视频、应用等,都用的 FLAC 吗?
    msg7086
        31
    msg7086  
       2022-12-16 16:13:34 +08:00
    @lslqtz 音频不一定是音乐。普通视频配套的音频一般没有保持无损的必要( 900k 的 flac 和 96k 的 opus 普通人的收听设备未必能分辨得出来区别)。收藏用 FLAC 真的就只是为了——收藏——而已。
    noErr
        32
    noErr  
       2022-12-16 16:21:28 +08:00
    @msg7086 正解
    sgissb1
        33
    sgissb1  
       2022-12-16 16:36:03 +08:00
    因为有很多学术流氓占据了这个领域,音视频领域是一个专业性很强的。

    金字塔低端,用开源搭建一套音视频系统的水货满街爬,号称庄家一大堆,这群人解决了最原始的需求,但解决不了音视频中的技术难点和技术痛点。
    金字塔顶端,做算法的,又是一群高知(资)人群占据(高资历,高学历),动不动就发 paper ,算法看上很牛逼,但是一工程化就遇到困难,或者一坨一坨的,技术有突破,有推进,但那也仅限于 demo 或者实验室环境。然后这群人里不乏一堆学术流氓,阶级固化比较严重。
    金字塔中间,鱼龙混杂,这群人是工程实力有的,但有些人只是不够用,有些人只是过剩(和所处岗位有关)。

    所以整个音视频格局里面的分工,包括编解码在内,想出一个可商业化的技术太难了。什么时候清晰化分工,明确技术层次上升通道,而不是看学历看背景,看会写 ppt ,这玩意就发展比较良性了。
    sgissb1
        34
    sgissb1  
       2022-12-16 16:41:51 +08:00
    很多规模大一点的公司,其实养着一大批算法高知,但也没看到他们的 paper 或者算法有真正落地的,这就是一大问题。而做工程的人,动不动就被业务追着打。

    很多规模小一点的公司,他们虽然不怎么养算法高知,但对原始需求解决能力的人很渴望和需要,因此也不太愿意投入资金,因此也有不少从开源拿来主义的庄家,他们虽然解决了原始需求,创造了业绩,但对整个圈子技术推进很多时候意义不大,因为很多技术讨论的时候,你会发现对方说的东西,对于一个懂的人来说毫无意义。

    这就是音视频行业的格局,因此这块的核心技术,其实还是被少数群体(不一定是公司)占据着。发展慢是完全正常现象。
    byzod
        35
    byzod  
       2022-12-16 19:39:37 +08:00
    可能是因为音频维度低吧

    图像是二维的,眼睛的脑补已经很强了,但是低于一定质量时识别内容会变得非常困难,即使是对于满足功能性的图片,也有比较高的清晰度要求
    而声音是一维的,天然的码率就低,而且对于语言这种接近于非模拟的信号,借助脑补其码率需求可以低到非常扣扣索索的程度。比如曾经的 amr 录音格式,甚至可以以 5kbps 的全损音质录音,而你还能听懂录的是啥

    对于娱乐需求,质量的要求反过来了;按照水果的说法,解析度满足视网膜屏的标准后,再提高图片质量意义并不大,哪怕继续探求全色域 HDR ,由于技术原因并没有形成巨大需求;反倒是由于带宽的普遍提高,一般档次图片的流量越来越大,反向刺激了编码技术的发展
    而 hifi 领域则可以说是无底洞,但是由于其特殊性,更多对质量的追求体现在硬件上,再加上图片创造者(广义上)远远多于音频创作者,其流量的大小远不足以刺激编码技术的发展

    说到流量,除了流量,单位时间流量(生造词)也是影响编码需求度的重要因素。
    由于视觉输入很快,图片的单位时间流量可以高到近乎无穷,滚轮一划拉,几十上百张图片就过去了;而不管是视频还是音频,都只能以 1.0x 最多 2.0x 的速度播放。一曲 20M 的无损音乐你能听上几分钟,而 20M 的高清图片只够划拉几秒,20M 的网络视频也能放几分钟……但是由于高清和 4k 显示器的出现,这个时间也在逐渐接近几秒
    就这样,音频卡在了中间的尴尬地位,码率挺高,但又没有高到现有技术无法承担的程度,并且目测也不具有继续增加的趋势

    对于这种问题,一般来说最经济合理的解决方案就是:不解决,凑合用
    lzgshsj
        36
    lzgshsj  
       2022-12-16 20:12:56 +08:00
    因为事实就是世界上大部分人听不出 3-4MB 和 30-40MB 的音频的差距有多少,网不行就老老实实 128kbps 的 mp3 也无所谓。
    楼上已经说很多了,在这上面投入成本和收益不对等,自然没有商业研究突破的热情。当然我还是相信总有一天会有技术突破。
    PrinceofInj
        37
    PrinceofInj  
       2022-12-16 22:21:08 +08:00
    二十年前我记得就在捣鼓 aac 和 flac ,那会儿还比较流行 ape 格式。我还记得再龙卷风上问过长期保存的 cd 盘应该用什么方式比较好,后来我决定用 aac 抓轨,结果就是那些 aac 文件我到现在还在听。悲观估计,再过二十年,还是 aac 和 flac 的天下
    jim9606
        38
    jim9606  
       2022-12-17 02:02:45 +08:00
    音频这边的压缩改进主要不是用在网络流媒体上了,我知道这类技术用在蓝牙上还是有需求的,保持质量极限压低码率好在低带宽的 BLE 链路上传输。
    edis0n0
        39
    edis0n0  
    OP
       2022-12-17 02:07:48 +08:00
    @jim9606 对,昨天晚上睡觉的时候想到了这个,没补充上来
    wxf666
        40
    wxf666  
       2022-12-17 06:02:51 +08:00
    @jim9606 和 AAC 相比咋样?可以代替它用于一般音频上吗?(比如视频中的音频流、平时音乐 /人声存储啥的)
    iClass
        41
    iClass  
       2022-12-17 08:04:25 +08:00 via Android
    人類生活在噪音的世界裡 128kbps 足夠 🎧
    janus77
        42
    janus77  
       2022-12-17 16:28:21 +08:00
    一是纯音频形式的内容不多,一般都是音频和视频流混合起来输出的,一个视频里有百分之八九十的体积都是视频流,既然如此不如压缩视频收益来的大
    二是音频本身的体积不够大,对于高品质内容来说,视频一般都是几十分钟甚至几个小时起步,音频长的也就几十分钟。(当然有例外的,但是总的来说是这样)所以上 G 的视频比比皆是,上 300M 的音频都不多,压缩的需求也不大
    而图片:虽然体积不大,但是架不住他的量多啊,用图片呈现的资源网站比用纯音频(注意是纯音频)呈现的资源网站要多多了,量级达到一定程度以后也不得不考虑压缩了,况且图片本身的原始文件质量也越来越高,压缩图片的技术本身也和压缩视频的技术相互影响促进。
    lslqtz
        43
    lslqtz  
       2022-12-17 17:38:30 +08:00
    @msg7086 音频不一定是音乐, 但音乐是很主流的音频应用.
    视频的音频, 一般的通常也是 mp3 aac 等常见有损格式和编码器, 包括爱优腾和 bilibili.
    游戏的音频, 我能见到的是 wav/mp3 比较多.
    这里说的不仅仅是无损, 也说到了有损编码器在兼容性和效率方便的必要性问题, 大厂可能会自己实现或者专门针对这方面优化以提高自家的兼容性和降低成本, 但小厂不一定会这么做, 因为开发成本也是成本.
    lslqtz
        44
    lslqtz  
       2022-12-17 17:39:49 +08:00
    另外对于视频内容来说, 就和楼上说的一样, 主要体积是视频流而不是音频流, 所以更喜欢在视频本身上做压缩来获得收益.
    lslqtz
        45
    lslqtz  
       2022-12-17 17:43:57 +08:00
    @wxf666 蓝牙编码器的其中一种就是 AAC, 另外的主流两种是 AptX 和 LDAC.
    前者可以用于一般音频, 后两者...
    不得不说, 蓝牙确实是有这方面的需求的, 既要无损又要高压缩率以在有限的信道上提高稳定性, 和楼主的要求一致, 但不一定能对于普通音频文件应用.

    其实想想 2022 了 CD 这种 16bit/44.1kHz 的介质还没淘汰... 就感觉.
    wxf666
        46
    wxf666  
       2022-12-17 18:23:41 +08:00
    @lslqtz 为啥不能应用于普通音频文件应用呢?
    lslqtz
        47
    lslqtz  
       2022-12-17 18:43:54 +08:00
    @wxf666 可能受专利保护吧.
    systemcall
        48
    systemcall  
       2022-12-18 00:50:29 +08:00
    串流的话,现在的 opus 足够好了
    蓝牙之类的,也有 aptx 和 aac 。蓝牙一般 100kbps 还是可以保证的,现在的编码够用了
    音频本来就没多大,opus 或者 aac ,给个 100 多 kbps ,大多数人听不出来和 flac 之类的无损压缩有什么区别
    而且这东西本来也就弄了很多年了,没什么新鲜的东西了。2G 时代的 AMR ,现在不也在用?
    视频的话,因为 0 几年还在用录像带,所以相对而言比较新。图像也没什么新东西了,webp heic avif 都是用的视频的编码
    jim9606
        49
    jim9606  
       2022-12-18 01:42:48 +08:00
    @wxf666 @lslqtz 视频的话通常继续用 AAC-LC 或者 opus 就够了,带宽没紧张到那种地步。
    AAC 本身有一个 HE-AAC 的版本,但仅在低码率有优势,FFmpeg 指南建议只在低于 32kbps/ch 的时候考虑使用。
    aptx 和 LDAC 估计也是这个问题,不是低码率就没优势,运算更复杂,兼容性肯定打不过 AAC-LC 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2434 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 15:46 · PVG 23:46 · LAX 07:46 · JFK 10:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.