关于数据预处理+清洗,如何跟 AI 相结合的问题思考与探讨 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
XinPingQiHe
V2EX    程序员

关于数据预处理+清洗,如何跟 AI 相结合的问题思考与探讨

  •  
  •   XinPingQiHe 2024 年 10 月 22 日 1768 次点击
    这是一个创建于 469 天前的主题,其中的信息可能已经有所发展或是发生改变。

    客户需求场景: 商品四级类别,不同层级内含数十万种不同商品; 商品供应方:对商品规格并无统一约定,明明同一个参数名,可能会有好几种不同的说法。一个参数的值,描述方式也可能不同。但业务熟悉的人能明确理解。 商品需求方:每个采购单需求百八十种品规不等。也是面临着,参数的描述可能跟供应厂商不同。 需求:对采购方的采购单,能按参数要求,快速匹配到对应商品,并且给出符合条件的高、中、低几种价位选择。 技术上分析,这个明显是一个数据格式化跟规范入库的事。但是要规范这么多不同的厂家和商品,会是一个巨大的工作量、甚至根本无法完成。客户要求,从 AI 方向,进行配合处理。 [问题来了,面对这个需求,AI 能做些什么工作?。。。 谢谢有相关经验的交流探讨。。。]

    8 条回复    2024-10-22 20:34:20 +08:00
    XinPingQiHe
        1
    XinPingQiHe  
    OP
       2024 年 10 月 22 日
    补充:80%的产品,会有 50~150 种不同的参数。 举例:颜色,重量,体积,长宽高,电源,功率,输出,usb 接口类型、个数,电池容量,待机时间,,,,,,,, 类似参数很多 还有更多专业参数,不一一列举。
    sunfly
        2
    sunfly  
       2024 年 10 月 22 日
    参数数据模型、清洗归一字典、同义词表、向量化、相似性搜索
    Solix
        3
    Solix  
       2024 年 10 月 22 日 via iPhone
    给 AI 分步处理呗,先让 AI 获取参数字段,再传入参数字段获取值,这就简单了
    NoOneNoBody
        4
    NoOneNoBody  
       2024 年 10 月 22 日
    这个是数据归一化+分类处理
    数据实际值为 a1, a2 ,分类标准为 b ,寻找 a1/a2/b 对应关系
    如果 b 为准确的、不可变的,一般有两种做法
    1. a1/a2 分别向 b 分类(逼近),b 相同则 a1/a2 为对应
    2. 如果 a1/a2 有较容易匹配的关系,可以将其中一个设为分类标准 A ,另一个为 A1 ,A1 向 A 寻找对应关系,然后将 A 和 b 寻找对应关系,这样三者也能建立对应关系

    此题“客户需求场景”为 b ,“商品供应方”和“商品需求方”为 a1,a2
    现在 b 有几十万,涵盖是比较高的,而且入库标准就是 b ,应该不是大到小的聚类,而是直接特征匹配;所以两端逼近法可能合适,a1/a2 各自找出“特征”,和 b 匹配

    现在关键是不知道这些数据中 a1/a2 是怎么描述的,如果关键字明显,基本做文字匹配就可以了;但如果不明显,例如你说的同一个参数名好几种名称叫法,这可能需要一个字典(相当于人工打 tag )

    不过以目前 llm 的理解能力,都不容易做,估计反向验证步骤少不了,甚至需要人工验证
    monkeyk
        5
    monkeyk  
       2024 年 10 月 22 日
    这类问题全用 AI 难出结果,一般是结合 AI ,该用数据库的用数据库,能用其他工具的也用上;
    最后可使用 AI Agent+各类工具(如 db tool, search tool )来处理,效果会好些(但 AI 的特点就是不能 100%准确,这要考虑到)
    XinPingQiHe
        6
    XinPingQiHe  
    OP
       2024 年 10 月 22 日
    谢谢各位的建议,我也认为这是一个需要传统方法去解决的问题,AI 可以做部分协助,整体的自动处理流程上,AI 还是参与不上 ,,,
    (客户强调用 AI 协助处理 并且可以他们配置高性能服务器几显卡等等,还是想不出很好的 AI 参与方式,如仅仅是问答和大量文本内容抽取参数的关键词啥的,也无法很好的格式化 参与到应用中)
    doublebu
        7
    doublebu  
       2024 年 10 月 22 日
    没实践过。但个人思路同 #4 一致。或许人工打 Tag 那块可以用 LLM 辅助。
    sampeng
        8
    sampeng  
       2024 年 10 月 22 日 via iPhone
    emmmm ,如果是客户强烈要求。咋做都行,只要不是 100%正确。就是 bug 。现阶段 llm 做不到 100%
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2854 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 00:52 PVG 08:52 LAX 16:52 JFK 19:52
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86