请教各位大佬一个问题, ocr 识别表格换行数据如何整理? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lidapang
V2EX    问与答

请教各位大佬一个问题, ocr 识别表格换行数据如何整理?

  •  
  •   lidapang 2024-08-27 12:14:33 +08:00 1614 次点击
    这是一个创建于 411 天前的主题,其中的信息可能已经有所发展或是发生改变。

    例如: https://tg-image.com/file/9789d90c8e1fc7ff15085.png 尝试根据坐标识别,成功拿到,这张图片只是 PDF 中得一页数据,一共有 30 多页,要是每页都写算法得话,工作量实在太大了。 请教各路大佬有没有什么通用得方法可以实现。

    6 条回复    2024-08-27 19:05:00 +08:00
    109021017
        1
    109021017  
       2024-08-27 14:28:00 +08:00
    用 ChatGPT-4o 转, 没有压力

    | 一般健康问题 | 医师建议 |
    | ------------- | -------- |
    | 1. 副鼻窦炎症 | 建议注意预防上呼吸道感染,有症状及时耳鼻喉科就诊。 |
    | 2. 肺内纤维灶 | 一般无需治疗,如不适建议呼吸内科进一步检查。 |
    | 3. 正常高值血压 (122/74mmHg) | 建议定期监测血压,改善生活方式。 |
    | 4. 脂肪肝倾向 | 调整饮食结构,合理膳食,以低脂、低糖、高蛋白和含维生素的食物为原则,增加运动量。 |
    | 5. 脂肪颗粒值大于 244 ,肝脏脂肪含量超过正常值 | 建议限制饮酒,适量运动,控制饮食结构,少吃高糖食品、动物脂肪、油炸食品等,增加蔬菜和水果摄入。 |
    | 6. 胆囊息肉 | 建议定期复查肝胆 B 超,如果息肉长过快或直径超过 10mm ,请及时肝胆科就诊。 |
    | 7. 甲状腺左叶结节 | 建议您结合临床定期复查或内分泌科进一步检查。 |
    | 8. 腰肌疲劳 | 注意坐姿,防止过长时间处于单一姿势,适当进行腰背部肌肉锻炼,或局部做按摩、理疗等方法,以缓解症状。 |
    | 9. 颈椎部位温区包绕的凉区,颈肩综合征可能,避免长时间伏案工作 | 避免长时间伏案工作。 |
    | 10. 超敏 C 反应蛋白增高: 4.32mg/L (参考区间: ≤ 4) | 如有相关疾病,请找专科诊治。如无相关疾病,建议复查,若仍异常,专科诊治。 |
    | 11. 血清甘油三酯定量增高: 2.25mmol/L (参考区间: 0.45-1.81) 高密度脂蛋白胆固醇测定降低: 0.83mmol/L (参考区间: ≥ 0.9) | 高密度脂蛋白胆固醇低是动脉硬化的危险指标,为冠心病直接危险因子,建议注意相关疾病,控制饮食结构,以低脂、低糖、高蛋白和含维生素的食物为原则,适量运动,保持良好心态,定期复查。 |
    | 12. 血清总胆红素测定增高: 20.4umol/L (参考区间: 0-20) 血清直接胆红素测定 (结合胆红素) 增高: 6.4umol/L (参考区间: 0-6) 血清间接胆红素测定 (未结合胆红素) 增高: 14.0umol/L (参考区间: 0-14) 血清γ-谷氨酰基转移酶增高: 59U/L (参考区间: 0-50) | 胆红素增高,建议复查,如复查仍高即胆高,建议及时找相关专科就诊进一步做相关检查明确原因。 |
    lidapang
        2
    lidapang  
    OP
       2024-08-27 16:21:29 +08:00
    @109021017 大佬,需要使用 java 实现,chatGPT-4 我之前试过
    109021017
        3
    109021017  
       2024-08-27 17:19:46 +08:00
    @lidapang 怎么联系? 方便说下报酬吗?
    tool2dx
        4
    tool2dx  
       2024-08-27 17:44:49 +08:00
    我是自己写算法合并的,根据坐标算,贴的很近就算一行文字,凑合着用。
    Simle100
        5
    Simle100  
       2024-08-27 18:00:15 +08:00
    把你的图片+提示词“Extract text from the provided image and organize it into a structured JSON format.
    ”发给 GPT-4o ,得到以下数据:
    {
    "general_health_issues": [
    {
    "issue": "副鼻窦炎症",
    "doctor_recommendation": "建议注意预防上呼吸道感染,有症状及时耳鼻喉科就诊。"
    },
    {
    "issue": "肺内纤维化",
    "doctor_recommendation": "一般无需治疗,如不适建议呼吸内科进一步检查。"
    },
    {
    "issue": "正常高值血压(122/74mmHg)",
    "doctor_recommendation": "建议定期监测血压,改善生活方式。"
    },
    {
    "issue": "脂肪肝倾向",
    "doctor_recommendation": "调整饮食结构,合理膳食,以低糖、低脂、高蛋白和含维生素的饮食为原则,增加适量运动。"
    },
    {
    "issue": "脂肪衰减值大于 244 ,脏脂肪含量超过正常值",
    "doctor_recommendation": "建议限制饮酒,适量运动,控制饮食总量,减少含糖食品、动物脂肪、油炸食品的摄入,增加蔬菜和水果摄入,消化科就诊。"
    },
    {
    "issue": "胆囊息肉",
    "doctor_recommendation": "建议定期复查肝胆 B 超,如息肉生长过快或其直径超过 10mm ,请及时肝胆外科就诊。"
    },
    {
    "issue": "甲状腺左叶结节",
    "doctor_recommendation": "建议您结合临床定期复查或内分泌科进一步检查。"
    },
    {
    "issue": "腰肌劳损",
    "doctor_recommendation": "注意坐姿,防止过长时间处于单一姿势,适当进行腰背部肌肉锻炼,或局部做按摩、理疗等方法,以缓解症状。"
    },
    {
    "issue": "颈椎骨见温区包络的凉区,颈椎综合征可能,避免长时间伏案工作",
    "doctor_recommendation": "避免长时间伏案工作"
    },
    {
    "issue": "超敏 C 反应蛋白增高:4.32mg/L(参考区间:≤4)",
    "doctor_recommendation": "如有相关疾病,建议专科治疗。如无相关疾病,建议复查,若仍异常,专科治疗。"
    },
    {
    "issue": "血清甘油三酯测定增高:2.25mmol/L(参考区间:0.45~1.81)",
    "doctor_recommendation": "高密度脂蛋白胆固醇测定减少:0.83mmol/L(参考区间:≥0.9) 高密度脂蛋白胆固醇低是动脉硬化的危险指标,为动脉硬化危险因素,建议关注相关病情,控制血脂及饮食,低脂、低糖、合理搭配的饮食,坚持适量运动,控制体重,建议半年复查。必要时在专科医生的指导下服用调脂药物。"
    },
    {
    "issue": "血清总胆红素测定增高:20.40umol/L(参考区间:2.0~20)",
    "doctor_recommendation": "胆红素偏高,建议复查,如复查仍高或明显增高,建议及时相关专科就诊进一步做相关检查明确原因。"
    }
    ]
    }
    Liftman
        6
    Liftman  
       2024-08-27 19:05:00 +08:00
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2715 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 21ms UTC 09:48 PVG 17:48 LAX 02:48 JFK 05:48
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86