节奏恢复/时间序列算法求助,达成目标奖金 3K - V2EX

节奏恢复/时间序列算法求助,达成目标奖金 3K

  •  
  •   jojotree 15h 9m ago 1048 views

    1. 背景

    各位老师好,我们在做一个视频周期动作计数问题。具体场景是:根据游泳视频,统计每个泳者在每一段里的划水次数。

    我们有大量“手部出水”检测框、身体框、泳者方向、泳道、泳者身份等原始数据,并且有次数、每次划手开始结束时间的 Ground Truth ,我们的目标是:

    从大量有噪声的检测框里,筛出真正对应划水动作的证据,并稳定得到正确的划水次数。

    2. 挑战目标和奖金

    我们提供原始数据。如果您能提供可复现的方法,在 leave-one-video-out 评估中达到明显提升,我们愿意提供奖金。

    当前最好的 offline Baseline 大约是:

    • MAE:3.31
    • 误差不超过 ±1 次的比例:37.6%
    • 误差不超过 ±2 次的比例:58.4%
    • 最大单行误差:15

    目标 A:奖金 1500 元

    • MAE < 1.5
    • 希望误差不超过 ±1 次的比例超过 60%
    • 最大误差小于 5 (非必须)

    目标 B:奖金 3000 元

    • MAE < 1.0
    • 误差不超过 ±1 次的比例超过 80%
    • 最大误差小于 3 (非必须)

    3. 数据说明

    原始数据:

    1. 每个手部检测框的时间戳
    2. 手部框位置和大小
    3. 身体框位置和大小
    4. 手框与身体框的重叠比例
    5. 手部中心点是否在身体框内
    6. 手部相对身体前后方向的位置
    7. 泳者方向
    8. 泳道、split/趟、泳者身份
    9. 当前系统的 L1 / L2 证据

    Ground Truth:

    1. 人工标注的每一次真实划水开始和结束时间
    2. 每趟每人的划水总数

    目前数据集中有 5 个视频、15 次运行、101 行有效评估数据。原始手部检测框约 13.8 万条,其中约 5.8 万条落在真实划水时间窗口里,约 8.0 万条在窗口外。数据、测试代码和说明文件:https://github.com/cbccbcc/external_clean_challenge_20260605

    4. 我们目前的算法尝试:L1 / L2

    L1 可以理解为对检测框的初步判断:

    1. 找到手部出水检测框;
    2. 判断手框是否和该泳者身体框有关;
    3. 过滤明显像脚或小腿的误检;

    L2 可以理解为在 L1 基础上,引入了序列维度,作为划手的依据:

    1. L1 (经过验证的手在水上)可以看作 1 ,没有则为 0 ,那么一次划手应该是若干 0+若干 1+若干 0 的组合
    2. L2 相较于 L1 数量会更少一些,但是准确率更高一些

    我们并不需要局限于这种思路,可以直接从 L1/L2 甚至原始检测框中恢复/预测划手次数。

    5. 我们所做的尝试

    1. 纯 L1/L2 的估计误差大约在 6-7 ,远无法达到要求。L1 的时间证据比较干净:correctness 约 84.1%,但 true-stroke coverage 只有约 62.3%。核心问题是干净证据召回不够,高召回证据又太脏。
    2. 我们尝试了多种方法的节奏恢复算法/差值算法,包括 RANSAC/PROSAC/HMM 等等,并且根据不同特征进行插值,但是结果不尽如人意。
    3. 我们尝试了根据现有 L1/L2 的时间差,选取作为节奏的时间差,发现如果能够选取对的时间差,基于 oracle 可以达到 0.8 左右的 MAE ,但是问题在于我们无法从众多时间差中选择这个最佳时间差。

    6. 评估规则

    使用 leave-one-video-out:

    1. 每次用四个视频开发或训练;
    2. 剩下一个视频作为测试;
    3. 五个视频轮流作为测试集;
    4. 汇总五折结果。

    要求同一套算法和参数选择流程必须能泛化到所有视频,不能针对单个视频人工调参。

    7. 禁止使用的信息

    人工标注可以用于训练、分析和调试,但最终算法不能把以下信息作为输入:

    1. 当前行真实划水次数;
    2. 当前行每一次真实划水的开始/结束时间;
    3. 针对某个视频手工指定的规则;
    4. 任何生产环境中不会提前知道的信息。

    换句话说,temporal ground truth 可以帮助你设计方法,但不能直接喂给最终预测算法。

    8. 关于时间对齐

    我们发现算法证据整体加上一个小时间偏移后(+0.15s ),会和人工标注窗口更对齐。这个发现说明时间校准可能很重要。

    但是最终奖励指标仍然以划水次数为主。我们不会单独因为时间对齐好就认定成功,但我们强烈建议关注时间对齐,因为稳定的时间证据通常更容易得到稳定的计数。

    9. 关于交付

    您只需要提供算法,初步远程确认没问题后可以咸鱼下单,支付后将算法细节发给我们进行验证,验证达到要求后确认收货。

    22 replies    2026-06-05 23:49:31 +08:00
    wuruxu
        1
    wuruxu  
       14h 13m ago
    3K 完全可以自己去订阅 GPT Pro 解决了
    jojotree
        2
    jojotree  
    OP
       14h 10m ago
    @wuruxu 已经用了 pro 搞了 4 天了 目前看是解决不了
    Allvirus
        3
    Allvirus  
       13h 52m ago
    搞不出来 就是思路有问题
    jojotree
        4
    jojotree  
    OP
       13h 49m ago
    @Allvirus 是啊 所以想来请教一下大家,看看有没有办法
    Allvirus
        5
    Allvirus  
       13h 36m ago
    现在是误差多大 那不是加要求细分就行了,比如出水入水是一段时间,手暴露在空气中是一段时间 不是单个数据节点,然后普通人划水 是有时间节奏的 没多少秒一个出手是有大致范围的 搞不懂你们想的什么
    grimbedroom
        6
    grimbedroom  
       13h 7m ago
    怎么联系
    0x636a
        7
    0x636a  
       12h 57m ago
    target A 已经完成,我的 vx 是 MTg0MDY1OTIxOTY=
    grimbedroom
        8
    grimbedroom  
       12h 54m ago
    target A/B 都已完成 联系:a2J3ZDAwMQ==
    0x636a
        9
    0x636a  
       12h 24m ago
    @0x636a target A/B 都已完成
    robinlovemaggie
        10
    robinlovemaggie  
       11h 32m ago
    有个疑问:真不考虑自由泳和蝶泳分类吗?即( 1 )-( 0 )-( 1 )-( 0 )...和( 1,1) - (0,0) -( 1,1) -(0,0)...
    tfdetang
        11
    tfdetang  
       10h 40m ago
    有没有可能,直接游泳视频端到端? 为什么加入一个检测框增加误差累计?
    gejigeji
        12
    gejigeji  
       10h 2m ago
    现在有 AI 真的是有手就行, 我也做出了 target A/B , 有兴趣可以加我( amRnamFuZGdn ),优惠
    jojotree
        13
    jojotree  
    OP
       9h 43m ago
    两位老师都已经联系、验证并且结算了,谢谢两位老师,后续如果有老师已经有答案可以交流,但是可能预算没有那么高了,希望老师理解
    jojotree
        14
    jojotree  
    OP
       9h 42m ago
    @robinlovemaggie 老师,从时间/规律上看,这两个泳姿都是一个时间段内出现手,一只还是两只其实没啥区别?我们是这么理解的
    jojotree
        15
    jojotree  
    OP
       9h 42m ago
    @tfdetang 有可能的老师,但是考虑到边缘算力,目前可能还比较难
    jojotree
        16
    jojotree  
    OP
       9h 42m ago
    @gejigeji 好的老师
    dyc12389
        17
    dyc12389  
       8h 55m ago
    达成情况:
    MAE < 1.0: 0.842
    ±1 比例 > 80%: 84/101 = 83.2%
    最大误差 < 3: 2

    vx: MTM2MTE2NzE3Nzc=
    feifeichen
        18
    feifeichen  
       8h 7m ago
    target A/B 都已完成 联系:Q2xoLUNhcnRlcg==
    tfdetang
        19
    tfdetang  
       4h 49m ago
    @jojotree 直觉上设计得当并不会增加计算量,除非你的框检测不是在边缘计算的;如果框检测也是边缘算的,等于也是要处理那么多帧视频还要处理候选框分类/聚合 然后再接一个序列处理模型
    jojotree
        20
    jojotree  
    OP
       4h 23m ago
    @tfdetang 您的意思是检测框的 RGB 图片直接输入网络然后推断吗?
    tfdetang
        21
    tfdetang  
       4h 17m ago
    @jojotree 就是游泳视频的帧图片直接做卷积得到特征; 比较理想的情况下,直接对图片做是否手出水的分类,然后用分类结果的序列处理下得到次数; 不过这个有点理想,可能还需要拿特征序列再拼成一个长特征然后走一个 CTC
    jojotree
        22
    jojotree  
    OP
       4h 5m ago
    @tfdetang 明白了,这个估计需要的数据量估计挺大的,因为光照、人、水花、背景颜色都挺不一样的,不过确实下一阶段可以试试!谢谢老师的建议!
    About     Help     Advertise     Blog     API     FAQ     Solana     886 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 19:55 PVG 03:55 LAX 12:55 JFK 15:55
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86