求教!缩略词、错别字符串还原单词 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sonnyclarity492
V2EX    机器学习

求教!缩略词、错别字符串还原单词

  •  
  •   sonnyclarity492 2024-06-11 17:37:18 +08:00 1627 次点击
    这是一个创建于 487 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 假设每个单词都有自己的变种书写形式,缩写、扩写,原样照写。
    2. 变种形式的单词,可能是恰巧和另一个单词拼写相同,可能是写错了,可能是有特定缩略形式。
    3. 词汇表的数量是有限的,比如说原始单词就 2000 个。
    4. 用户的书写习惯不同,例如 apple 这个单词,有人写作 ape ,有人写作 apl ,有人写作 apple ,有人写作 opple ,有人写作 udtp (某种意义上是正确的)。
    5. 存在用户随意输入的情况。

    于是我们就有一堆字符串,希望能够确定这个字符串最可能是哪个原始单词。

    说说我的今天工作,我把 word 和 aliases 丢到神经网络里训练,用 alias 预测 word ,结果是它几乎不认识没见过的 alias ,错误率很高。

    这是因为那些字符串我自己也还原不出来,可能是用户随意打的。

    各位大佬有没有什么好的建议?
    8 条回复    2024-06-12 21:30:48 +08:00
    sonnyclarity492
        1
    sonnyclarity492  
    OP
       2024-06-11 17:40:20 +08:00
    当然了,词汇表限定在某个专业领域,也不是随便什么单词,但有些输入确实看不懂,一个个去猜的话很费时间
    aloxaf
        2
    aloxaf  
       2024-06-11 17:51:37 +08:00
    感觉这事儿适合 LLM 。如果只是单纯的简写/拼错的话,用模糊匹配或许也行。

    话说我没明白 apple 究竟是咋样才能拼成 udtp……
    sonnyclarity492
        3
    sonnyclarity492  
    OP
       2024-06-11 17:56:51 +08:00
    @aloxaf 哈哈哈哈哈感谢回答,这个是我随便取名字,就当是一个专有名词。

    这个数量倒不多,更多的是缩写,比如地名缩写加三个首字母
    3dward
        4
    3dward  
       2024-06-12 09:00:51 +08:00
    l22576283
        5
    l22576283  
       2024-06-12 11:26:34 +08:00
    这个场景得依赖上下文推测才行,我觉得直接上大模型吧,让大模型根据上下文推测用户的缩写表达的单词
    realJamespond
        6
    realJamespond  
       2024-06-12 11:44:19 +08:00
    搜下 Levenshtein Distance 距离算法应该可以
    sonnyclarity492
        7
    sonnyclarity492  
    OP
       2024-06-12 21:30:03 +08:00
    @realJamespond 编辑距离我尝试过了,结果不理想,要不就是概率很低,要不就是乱匹配
    sonnyclarity492
        8
    sonnyclarity492  
    OP
       2024-06-12 21:30:48 +08:00
    @l22576283 很遗憾,我也想要上下文,但是仅仅是单词短语,国家、地区信息也不提供
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2737 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 08:37 PVG 16:37 LAX 01:37 JFK 04:37
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86