试卷切割有啥好的方案吗,试过百度云和阿里云,效果都不太行。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zzz22333
V2EX    问与答

试卷切割有啥好的方案吗,试过百度云和阿里云,效果都不太行。

  •  
  •   zzz2233 2 月 6 日 2134 次点击
    这是一个创建于 46 天前的主题,其中的信息可能已经有所发展或是发生改变。
    17 条回复    2026-02-06 16:45:53 +08:00
    zzz22333
        1
    zzz22333  
    OP
       2 月 6 日
    这个是原图,阿里切出来长这样 百度云切出来长这样 是要对图片提前处理吗?
    minibear2021
        2
    minibear2021  
       2 月 6 日   1
    分解步骤,不要指望一句提示词搞定。
    先 ocr ,获得文本和坐标,然后把文本扔给大模型,问他怎么拆题,根据大模型给的结果再去拿到每个题目对应的坐标,然后获得最终的拆题。ocr 的要求不用太高,识别错误没关系,大模型自己会理解。当然也可以直接把文本和坐标一起扔给模型,让他直接给你每个题目的坐标,你再去裁切图片。具体怎么做看你的需求和调试优化结果对比。
    zzz22333
        3
    zzz22333  
    OP
       2 月 6 日
    @jstony #2 我试过用大模型,效果也一般,而且大模型有个问题,就是一致性较差。最开始用 gemini 2.0-flash ,效果很差, 后面换成 gemini 3.0-preview 就好一些。
    wangwaner
        4
    wangwaner  
       2 月 6 日 via iPhone   1
    二楼正解,你需要做一个 agent ,
    1.首先用 deepseek-ocr (一个用 DeepSeek 的 ocr 模型)对文字进行识别,
    2.然后把步骤 1 识别出来的结果(带文字和坐标的)输给文字大模型,让他给你返回题目的分割
    3.(可选)将最终的切割结果再次 ocr ,文本发给大模型,让他验证题目 shifowanzheng
    (当然你上高级的多模态大模型也可就是数量多了有亿点费钱)
    cryptovae
        5
    cryptovae  
       2 月 6 日   2

    这样?
    haohaozaici
        6
    haohaozaici  
    &nbp;  2 月 6 日
    试了下夸克和 wps ,都可以很精准按题目分割图片
    zzz22333
        7
    zzz22333  
    OP
       2 月 6 日
    @cryptovae #5 是这个意思,怎么做到的呢
    zzz22333
        8
    zzz22333  
    OP
       2 月 6 日
    @wangwaner #4 大概懂了,我是直接把图片发给 OCR ,让它输出坐标。没有第一步,所以精度不是很高。
    cryptovae
        9
    cryptovae  
       2 月 6 日
    fadaixiaohai
        10
    fadaixiaohai  
       2 月 6 日
    @cryptovae #9 这个感觉很专业啊
    zzz22333
        11
    zzz22333  
    OP
       2 月 6 日
    @cryptovae #9 这个效果挺好的呀,我在思考怎么实现切割。
    cryptovae
        12
    cryptovae  
       2 月 6 日
    @zzz22333 #11 和上面说的一样,ocr 出完整内容,让大模型切割就行了
    zzz22333
        13
    zzz22333  
    OP
       2 月 6 日
    @wangwaner #4 AI 评价这个方案很靠谱,我试试。
    wangwaner
        14
    wangwaner  
       2 月 6 日 via iPhone
    好的哇
    @zzz22333
    zzz22333
        15
    zzz22333  
    OP
       2 月 6 日
    @cryptovae #12 用了 MinerU 这个基本满足我的需求了,比之前的阿里云,百度云强太多,甚至还是免费....
    None2
        16
    None2  
       2 月 6 日
    看标题就想到 MinerU 了
    zzz22333
        17
    zzz22333  
    OP
       2 月 6 日
    @None2 #16 确实好用,还免费。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5730 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 07:46 PVG 15:46 LAX 00:46 JFK 03:46
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86