节奏恢复/时间序列算法求助，达成目标奖金 3K

1. 背景

各位老师好，我们在做一个视频周期动作计数问题。具体场景是：根据游泳视频，统计每个泳者在每一段里的划水次数。

我们有大量“手部出水”检测框、身体框、泳者方向、泳道、泳者身份等原始数据，并且有次数、每次划手开始结束时间的 Ground Truth ，我们的目标是：

从大量有噪声的检测框里，筛出真正对应划水动作的证据，并稳定得到正确的划水次数。

2. 挑战目标和奖金

我们提供原始数据。如果您能提供可复现的方法，在 leave-one-video-out 评估中达到明显提升，我们愿意提供奖金。

当前最好的 offline Baseline 大约是：

MAE：3.31
误差不超过 ±1 次的比例：37.6%
误差不超过 ±2 次的比例：58.4%
最大单行误差：15

目标 A：奖金 1500 元

MAE < 1.5
希望误差不超过 ±1 次的比例超过 60%
最大误差小于 5 （非必须）

目标 B：奖金 3000 元

MAE < 1.0
误差不超过 ±1 次的比例超过 80%
最大误差小于 3 （非必须）

3. 数据说明

原始数据：

每个手部检测框的时间戳
手部框位置和大小
身体框位置和大小
手框与身体框的重叠比例
手部中心点是否在身体框内
手部相对身体前后方向的位置
泳者方向
泳道、split/趟、泳者身份
当前系统的 L1 / L2 证据

Ground Truth：

人工标注的每一次真实划水开始和结束时间
每趟每人的划水总数

目前数据集中有 5 个视频、15 次运行、101 行有效评估数据。原始手部检测框约 13.8 万条，其中约 5.8 万条落在真实划水时间窗口里，约 8.0 万条在窗口外。数据、测试代码和说明文件：https://github.com/cbccbcc/external_clean_challenge_20260605

4. 我们目前的算法尝试：L1 / L2

L1 可以理解为对检测框的初步判断：

找到手部出水检测框；
判断手框是否和该泳者身体框有关；
过滤明显像脚或小腿的误检；

L2 可以理解为在 L1 基础上，引入了序列维度，作为划手的依据：

L1 （经过验证的手在水上）可以看作 1 ，没有则为 0 ，那么一次划手应该是若干 0+若干 1+若干 0 的组合
L2 相较于 L1 数量会更少一些，但是准确率更高一些

我们并不需要局限于这种思路，可以直接从 L1/L2 甚至原始检测框中恢复/预测划手次数。

5. 我们所做的尝试

纯 L1/L2 的估计误差大约在 6-7 ，远无法达到要求。L1 的时间证据比较干净：correctness 约 84.1%，但 true-stroke coverage 只有约 62.3%。核心问题是干净证据召回不够，高召回证据又太脏。
我们尝试了多种方法的节奏恢复算法/差值算法，包括 RANSAC/PROSAC/HMM 等等，并且根据不同特征进行插值，但是结果不尽如人意。
我们尝试了根据现有 L1/L2 的时间差，选取作为节奏的时间差，发现如果能够选取对的时间差，基于 oracle 可以达到 0.8 左右的 MAE ，但是问题在于我们无法从众多时间差中选择这个最佳时间差。

6. 评估规则

使用 leave-one-video-out：

每次用四个视频开发或训练；
剩下一个视频作为测试；
五个视频轮流作为测试集；
汇总五折结果。

要求同一套算法和参数选择流程必须能泛化到所有视频，不能针对单个视频人工调参。

7. 禁止使用的信息

人工标注可以用于训练、分析和调试，但最终算法不能把以下信息作为输入：

当前行真实划水次数；
当前行每一次真实划水的开始/结束时间；
针对某个视频手工指定的规则；
任何生产环境中不会提前知道的信息。

换句话说，temporal ground truth 可以帮助你设计方法，但不能直接喂给最终预测算法。

8. 关于时间对齐

我们发现算法证据整体加上一个小时间偏移后（+0.15s ），会和人工标注窗口更对齐。这个发现说明时间校准可能很重要。

但是最终奖励指标仍然以划水次数为主。我们不会单独因为时间对齐好就认定成功，但我们强烈建议关注时间对齐，因为稳定的时间证据通常更容易得到稳定的计数。

9. 关于交付

您只需要提供算法，初步远程确认没问题后可以咸鱼下单，支付后将算法细节发给我们进行验证，验证达到要求后确认收货。

划水

计数

时间序列

23 replies

wuruxu

21 days ago

3K 完全可以自己去订阅 GPT Pro 解决了

jojotree

21 days ago

@wuruxu 已经用了 pro 搞了 4 天了目前看是解决不了

Allvirus

21 days ago

搞不出来就是思路有问题

jojotree

21 days ago

@Allvirus 是啊所以想来请教一下大家，看看有没有办法

Allvirus

21 days ago

现在是误差多大那不是加要求细分就行了，比如出水入水是一段时间，手暴露在空气中是一段时间不是单个数据节点，然后普通人划水是有时间节奏的没多少秒一个出手是有大致范围的搞不懂你们想的什么

grimbedroom

21 days ago

怎么联系

0x636a

21 days ago

target A 已经完成，我的 vx 是 MTg0MDY1OTIxOTY=

grimbedroom

21 days ago

target A/B 都已完成联系：a2J3ZDAwMQ==

0x636a

21 days ago

@0x636a target A/B 都已完成

robinlovemaggie

21 days ago

有个疑问：真不考虑自由泳和蝶泳分类吗？即（ 1 ）-（ 0 ）-（ 1 ）-（ 0 ）...和（ 1,1) - (0,0) -（ 1,1) -(0,0)...

tfdetang

21 days ago

有没有可能，直接游泳视频端到端？为什么加入一个检测框增加误差累计？

gejigeji

21 days ago

现在有 AI 真的是有手就行，我也做出了 target A/B ，有兴趣可以加我（ amRnamFuZGdn ），优惠

jojotree

21 days ago

两位老师都已经联系、验证并且结算了，谢谢两位老师，后续如果有老师已经有答案可以交流，但是可能预算没有那么高了，希望老师理解🙏

jojotree

21 days ago

@robinlovemaggie 老师，从时间/规律上看，这两个泳姿都是一个时间段内出现手，一只还是两只其实没啥区别？我们是这么理解的

jojotree

21 days ago

@tfdetang 有可能的老师，但是考虑到边缘算力，目前可能还比较难

jojotree

21 days ago

@gejigeji 好的老师

dyc12389

21 days ago

达成情况：
MAE < 1.0: 0.842
±1 比例 > 80%: 84/101 = 83.2%
最大误差 < 3: 2

vx: MTM2MTE2NzE3Nzc=

feifeichen

21 days ago

target A/B 都已完成联系：Q2xoLUNhcnRlcg==

tfdetang

21 days ago

@jojotree 直觉上设计得当并不会增加计算量，除非你的框检测不是在边缘计算的；如果框检测也是边缘算的，等于也是要处理那么多帧视频还要处理候选框分类/聚合然后再接一个序列处理模型

jojotree

21 days ago

@tfdetang 您的意思是检测框的 RGB 图片直接输入网络然后推断吗？

tfdetang

21 days ago

@jojotree 就是游泳视频的帧图片直接做卷积得到特征；比较理想的情况下，直接对图片做是否手出水的分类，然后用分类结果的序列处理下得到次数；不过这个有点理想，可能还需要拿特征序列再拼成一个长特征然后走一个 CTC

jojotree

21 days ago

@tfdetang 明白了，这个估计需要的数据量估计挺大的，因为光照、人、水花、背景颜色都挺不一样的，不过确实下一阶段可以试试！谢谢老师的建议！

duhbbx1119

20 days ago

@jojotree #13 楼上两位也太厉害了，v 友还是大神多。好奇问下是两人平分呢？还是？