jojotree
V2EX  ›  外包

节奏恢复/时间序列算法求助,达成目标奖金 3K

  •  
  •   jojotree · 1 day ago · 1476 views

    1. 背景

    各位老师好,我们在做一个视频周期动作计数问题。具体场景是:根据游泳视频,统计每个泳者在每一段里的划水次数。

    我们有大量“手部出水”检测框、身体框、泳者方向、泳道、泳者身份等原始数据,并且有次数、每次划手开始结束时间的 Ground Truth ,我们的目标是:

    从大量有噪声的检测框里,筛出真正对应划水动作的证据,并稳定得到正确的划水次数。

    2. 挑战目标和奖金

    我们提供原始数据。如果您能提供可复现的方法,在 leave-one-video-out 评估中达到明显提升,我们愿意提供奖金。

    当前最好的 offline Baseline 大约是:

    • MAE:3.31
    • 误差不超过 ±1 次的比例:37.6%
    • 误差不超过 ±2 次的比例:58.4%
    • 最大单行误差:15

    目标 A:奖金 1500 元

    • MAE < 1.5
    • 希望误差不超过 ±1 次的比例超过 60%
    • 最大误差小于 5 (非必须)

    目标 B:奖金 3000 元

    • MAE < 1.0
    • 误差不超过 ±1 次的比例超过 80%
    • 最大误差小于 3 (非必须)

    3. 数据说明

    原始数据:

    1. 每个手部检测框的时间戳
    2. 手部框位置和大小
    3. 身体框位置和大小
    4. 手框与身体框的重叠比例
    5. 手部中心点是否在身体框内
    6. 手部相对身体前后方向的位置
    7. 泳者方向
    8. 泳道、split/趟、泳者身份
    9. 当前系统的 L1 / L2 证据

    Ground Truth:

    1. 人工标注的每一次真实划水开始和结束时间
    2. 每趟每人的划水总数

    目前数据集中有 5 个视频、15 次运行、101 行有效评估数据。原始手部检测框约 13.8 万条,其中约 5.8 万条落在真实划水时间窗口里,约 8.0 万条在窗口外。数据、测试代码和说明文件:https://github.com/cbccbcc/external_clean_challenge_20260605

    4. 我们目前的算法尝试:L1 / L2

    L1 可以理解为对检测框的初步判断:

    1. 找到手部出水检测框;
    2. 判断手框是否和该泳者身体框有关;
    3. 过滤明显像脚或小腿的误检;

    L2 可以理解为在 L1 基础上,引入了序列维度,作为划手的依据:

    1. L1 (经过验证的手在水上)可以看作 1 ,没有则为 0 ,那么一次划手应该是若干 0+若干 1+若干 0 的组合
    2. L2 相较于 L1 数量会更少一些,但是准确率更高一些

    我们并不需要局限于这种思路,可以直接从 L1/L2 甚至原始检测框中恢复/预测划手次数。

    5. 我们所做的尝试

    1. 纯 L1/L2 的估计误差大约在 6-7 ,远无法达到要求。L1 的时间证据比较干净:correctness 约 84.1%,但 true-stroke coverage 只有约 62.3%。核心问题是干净证据召回不够,高召回证据又太脏。
    2. 我们尝试了多种方法的节奏恢复算法/差值算法,包括 RANSAC/PROSAC/HMM 等等,并且根据不同特征进行插值,但是结果不尽如人意。
    3. 我们尝试了根据现有 L1/L2 的时间差,选取作为节奏的时间差,发现如果能够选取对的时间差,基于 oracle 可以达到 0.8 左右的 MAE ,但是问题在于我们无法从众多时间差中选择这个最佳时间差。

    6. 评估规则

    使用 leave-one-video-out:

    1. 每次用四个视频开发或训练;
    2. 剩下一个视频作为测试;
    3. 五个视频轮流作为测试集;
    4. 汇总五折结果。

    要求同一套算法和参数选择流程必须能泛化到所有视频,不能针对单个视频人工调参。

    7. 禁止使用的信息

    人工标注可以用于训练、分析和调试,但最终算法不能把以下信息作为输入:

    1. 当前行真实划水次数;
    2. 当前行每一次真实划水的开始/结束时间;
    3. 针对某个视频手工指定的规则;
    4. 任何生产环境中不会提前知道的信息。

    换句话说,temporal ground truth 可以帮助你设计方法,但不能直接喂给最终预测算法。

    8. 关于时间对齐

    我们发现算法证据整体加上一个小时间偏移后(+0.15s ),会和人工标注窗口更对齐。这个发现说明时间校准可能很重要。

    但是最终奖励指标仍然以划水次数为主。我们不会单独因为时间对齐好就认定成功,但我们强烈建议关注时间对齐,因为稳定的时间证据通常更容易得到稳定的计数。

    9. 关于交付

    您只需要提供算法,初步远程确认没问题后可以咸鱼下单,支付后将算法细节发给我们进行验证,验证达到要求后确认收货。

    23 replies    2026-06-06 14:41:45 +08:00
    wuruxu
        1
    wuruxu  
       1 day ago
    3K 完全可以自己去订阅 GPT Pro 解决了
    jojotree
        2
    jojotree  
    OP
       1 day ago
    @wuruxu 已经用了 pro 搞了 4 天了 目前看是解决不了
    Allvirus
        3
    Allvirus  
       1 day ago
    搞不出来 就是思路有问题
    jojotree
        4
    jojotree  
    OP
       1 day ago
    @Allvirus 是啊 所以想来请教一下大家,看看有没有办法
    Allvirus
        5
    Allvirus  
       1 day ago
    现在是误差多大 那不是加要求细分就行了,比如出水入水是一段时间,手暴露在空气中是一段时间 不是单个数据节点,然后普通人划水 是有时间节奏的 没多少秒一个出手是有大致范围的 搞不懂你们想的什么
    grimbedroom
        6
    grimbedroom  
       1 day ago
    怎么联系
    0x636a
        7
    0x636a  
       1 day ago
    target A 已经完成,我的 vx 是 MTg0MDY1OTIxOTY=
    grimbedroom
        8
    grimbedroom  
       1 day ago
    target A/B 都已完成 联系:a2J3ZDAwMQ==
    0x636a
        9
    0x636a  
       1 day ago
    @0x636a target A/B 都已完成
    robinlovemaggie
        10
    robinlovemaggie  
       1 day ago
    有个疑问:真不考虑自由泳和蝶泳分类吗?即( 1 )-( 0 )-( 1 )-( 0 )...和( 1,1) - (0,0) -( 1,1) -(0,0)...
    tfdetang
        11
    tfdetang  
       1 day ago
    有没有可能,直接游泳视频端到端? 为什么加入一个检测框增加误差累计?
    gejigeji
        12
    gejigeji  
       1 day ago
    现在有 AI 真的是有手就行, 我也做出了 target A/B , 有兴趣可以加我( amRnamFuZGdn ),优惠
    jojotree
        13
    jojotree  
    OP
       1 day ago
    两位老师都已经联系、验证并且结算了,谢谢两位老师,后续如果有老师已经有答案可以交流,但是可能预算没有那么高了,希望老师理解🙏
    jojotree
        14
    jojotree  
    OP
       1 day ago
    @robinlovemaggie 老师,从时间/规律上看,这两个泳姿都是一个时间段内出现手,一只还是两只其实没啥区别?我们是这么理解的
    jojotree
        15
    jojotree  
    OP
       1 day ago
    @tfdetang 有可能的老师,但是考虑到边缘算力,目前可能还比较难
    jojotree
        16
    jojotree  
    OP
       1 day ago
    @gejigeji 好的老师
    dyc12389
        17
    dyc12389  
       1 day ago
    达成情况:
    MAE < 1.0: 0.842
    ±1 比例 > 80%: 84/101 = 83.2%
    最大误差 < 3: 2

    vx: MTM2MTE2NzE3Nzc=
    feifeichen
        18
    feifeichen  
       1 day ago
    target A/B 都已完成 联系:Q2xoLUNhcnRlcg==
    tfdetang
        19
    tfdetang  
       1 day ago
    @jojotree 直觉上设计得当并不会增加计算量,除非你的框检测不是在边缘计算的;如果框检测也是边缘算的,等于也是要处理那么多帧视频还要处理候选框分类/聚合 然后再接一个序列处理模型
    jojotree
        20
    jojotree  
    OP
       1 day ago
    @tfdetang 您的意思是检测框的 RGB 图片直接输入网络然后推断吗?
    tfdetang
        21
    tfdetang  
       1 day ago
    @jojotree 就是游泳视频的帧图片直接做卷积得到特征; 比较理想的情况下,直接对图片做是否手出水的分类,然后用分类结果的序列处理下得到次数; 不过这个有点理想,可能还需要拿特征序列再拼成一个长特征然后走一个 CTC
    jojotree
        22
    jojotree  
    OP
       1 day ago
    @tfdetang 明白了,这个估计需要的数据量估计挺大的,因为光照、人、水花、背景颜色都挺不一样的,不过确实下一阶段可以试试!谢谢老师的建议!
    duhbbx1119
        23
    duhbbx1119  
       11h 59m ago
    @jojotree #13 楼上两位也太厉害了,v 友还是大神多。好奇问下是两人平分呢?还是?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1045 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 54ms · UTC 18:41 · PVG 02:41 · LAX 11:41 · JFK 14:41
    ♥ Do have faith in what you're doing.