感觉 Rime 的分词和搭配很成问题啊 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Irilsy
V2EX    中州

感觉 Rime 的分词和搭配很成问题啊

  •  1
     
  •   Irilsy 302 天前 5302 次点击
    这是一个创建于 302 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,用的白霜词库,已经快一年了。虽然一直在用,前就遇到过这些问题但还能忍受,不过最近经常要写一些东西,这方面的困扰明显严重了很多。


    比如下面这些句子:

    渐渐地就不在意了: jmjmdejqbuzdyile (「不/在意/了」被理解成了「不再/一乐」)

    以前就会这样: yiqmjqhvveyh (「以前/就会」被理解成了「一千九/会」)

    不管怎么使劲都不行: bugrzfmeuijbdzbuxk (「不管怎么/使劲/都/不行」 => 「不管怎么/是/筋斗/不行」)

    无论如何你都不可能再离开这里了: wulyruhenidzbukengzdlikdvelile (「离开/这里/了」 => 「离开/这/离了」)


    还有一些可能有些强求的例子,因为即使是别的输入法也可能处理不好。

    这不是你该管的事情: vebuuinigdgrdeuiqk

    这种方法会更加有用: image.png 之所以会出现「游泳」这个搭配可能跟我之前有一阵子经常打「游泳」有关,但是我觉得连词性都判断不出来也不太正常吧……


    想问问大家有没有什么好的解决办法?

    40 条回复    2025-02-19 02:43:36 +08:00
    noisay
        1
    noisay  
       302 天前
    同感,这个好像几个词库的效果都不是很好
    omz
        2
    omz  
       302 天前 via iPhone   1
    你之所以用不联网的输入法,不就是因为你能接受这些缺陷吗
    yukino
        3
    yukino  
       302 天前
    Irilsy
        4
    Irilsy  
    OP
       302 天前
    @yukino #3 谢谢老哥,我研究研究。
    NoOneNoBody
        5
    NoOneNoBody  
       302 天前
    好像并没有分词,只是匹配越长优先级越高而已
    我这里(养了多年)可以打出“不在意了”,因为词库中有“不在意”
    billlee
        6
    billlee  
       302 天前   1
    RIME 没有语言模型,根本没有分词的能力
    docx
        7
    docx  
       302 天前 via iPhone
    个人觉得词库从自己用了多年的搜狗之类导出,再适应一段时间,就很可以了。大可不必去用什么所谓的三方库。
    TrembleBeforeMe
        8
    TrembleBeforeMe  
       302 天前   1
    试试带语言模型的万象拼音 https://github.com/amzxyz/rime_wanxiang_pro
    kimizen
        9
    kimizen  
       302 天前   2
    你挂个云输入法就好了 https://github.com/hchunhui/librime-cloud
    kimizen
        10
    kimizen  
       302 天前
    @TrembleBeforeMe 这个和雾凇比起来如何?
    sinzhishuibie
        11
    sinzhishuibie  
       302 天前 via Android
    用全拼打长句有点给自己找麻烦,我自己打字习惯都是两三个字一打两三个字一打,不管用什么输入法都这样打字
    jiaoyidongxi
        12
    jiaoyidongxi  
       302 天前
    搭车问一下,我在 windows 上的每夜版小狼毫,每次更改配置文件后,手动重启完全没反应,只有重新进入 gui 设置界面,换一下自带默认皮肤才会自己重启生效配置。各位有碰到这种情况吗?
    Irilsy
        13
    Irilsy  
    div class="badge op">OP
       302 天前
    @TrembleBeforeMe #8
    @kimizen #9
    感谢两位老哥的推荐,我去尝试一下。

    @docx #7 谢谢哥提醒,突然想到可以把之前用了很久的搜狗个人词库导入进 Rime 。


    @sinzhishuibie #11 只打短语不打句子确实会好一点,但是有时候即使打短语也会有类似的问题(因为即便只有一两个词也可能出现分词错误),而且 Rime 似乎是存在根据词语搭配来调频的策略,打句子都一些时候比打短语会更方便。

    @NoOneNoBody #5 我的词库里面也有「不在意」这个词,不过还是会有问题,感觉可能还是「不再」这个词频太高了。
    TrembleBeforeMe
        14
    TrembleBeforeMe  
       301 天前   6
    kimizen
        16
    kimizen  
       301 天前
    @TrembleBeforeMe 如果想加入到覆写里怎么改格式呢?不想直接改动原本的方案,我都用的 custom.yaml
    TrembleBeforeMe
        17
    TrembleBeforeMe  
       301 天前
    @kimizen #14 那就按 patch 格式加到*.schema.custom.yaml 里
    kimizen
        18
    kimizen  
       301 天前
    @TrembleBeforeMe 的确,连空格都不用修改直接都 custom 里都可以……现在长句子都非常智能完全不用调整词频……
    Irilsy
        19
    Irilsy  
    OP
       301 天前
    @TrembleBeforeMe #14 谢谢大佬,这个太强了,我试了很多容易分词错误的或者搭配错误的句子,有一大半加了模型之后表现都好了很多。

    而且感觉 100M 的模型和 300M 的模型之间有用差距,比如「能约上吗」在 100M 会被误解析成「能月上马」,300M 就不会有这个问题。

    不过感觉模型会受到用户词库词频的干扰,比如我刚刚打了个「上马」,现在不管用哪个模型都会被解析成「(月/约)得上马」了。
    TrembleBeforeMe
        20
    TrembleBeforeMe  
       301 天前
    @Irilsy #17 我先试着打了「能约上吗」,确实首位候选是「能月上马」;但是当我单独打了一次「约上」之后,100M 的模型首位候选也变成了「能约上吗」。如果电脑性能不错,用 300M 也许更好吧,但 100M 对于日用已经足够了。
    yumenaka
        21
    yumenaka  
       301 天前
    非常好用。只要不是很罕有的句子,都能很容易地匹配到。
    Volekingsg
        22
    Volekingsg  
       300 天前 via iPhone
    请教下启动了 grammar 也没有那个正无穷符号,这个是咋开的
    Irilsy
        23
    Irilsy  
    OP
       300 天前   3
    @Volekingsg 那个正无穷符号不是语言模型的,是白霜词库( rime-frost )自带的,正无穷符号表示不是挂载的词库和个人词库中的词,而是根据已有词库拼接的;还有星号表示是个人词库中的词(就是之前打过的),没有符号表示是挂载词库中的。参见 https://github.com/gaboolic/rime-frost/issues/12
    GabrielS
        24
    GabrielS  
       300 天前
    1 渐渐地就不在意了
    渐渐的 就不再 一乐
    是因为词库里有“就不再”,这种可以考虑后续删掉

    2 以前就会这样
    一千九 会这样
    这个无解 rime 会把你的输入分割尽量短。如果打”以前就会“是没有问题的, 以前+就会的词频大于一千九+会的词频。但是”以前 就会 这样“ 会分割成 3 段,"一千九 会这样”只有两段。 即使 "以前 + 就会 + 这样"的词频大于"一千九 会这样“的词频也不行,rime 有限分割成 2 段。

    3 不管怎么使劲都不行
    这个是正常的,可能是你的用户词频影响了。

    4 无论如何你都不可能再离开这里了
    这个是正常的,可能是你的用户词频影响了。

    5 这不是你该管的事情
    这不是你改观的事情
    这是因为”改观“的词频大于”该管“,除非上语言模型 不然无解

    6 这种方法会更加有用
    这个是正常的,可能是你的用户词频影响了。

    如果你写东西多,其实可以关闭用户词库。或者试试双拼加形,墨奇音形,也是白霜作者做的
    kimizen
        25
    kimizen  
       299 天前
    用了好几天
    反馈一下,万象大模型配合云输入纠错,完全可以和那些在线输入法掰手腕了……
    ly1878
        26
    ly1878  
       298 天前
    请教各位大佬,小白折腾了一天,看了好几个 git 文档,之前的几处翻页、自定义短语修改都是迷迷糊糊设置,最后测试有效,现在还是没启用成功万象大模型,虽然这个帖子讲了比较明白,https://www.saraba1st.com/2b/thread-2210738-1-1.html ,我还是不懂到底要修改哪个 yaml ,好几个修改了,重新部署还是无效,可以麻烦大佬手把手的指点一下吗?万分感谢,差点要放弃了。我用的是凇鹤拼音,
    模糊音设置,试了好几处修改,也没成功,麻烦大佬看下我的帖子,感谢。t/1098582#reply0
    @GabrielS @Irilsy @NoOneNoBody @TrembleBeforeMe @Volekingsg @billlee @docx @jiaoyidongxi @kimizen @noisay
    kimizen
        27
    kimizen  
       298 天前
    @ly1878 把万象模型的代码复制到 xhup.schema.yaml 这个文件里或者新建一个 xhup.schema.custom.yaml 覆写
    Volekingsg
        28
    Volekingsg  
       298 天前
    @ly1878 #26 新建 double_pinyin_flypy.custom.yaml 填入以下内容
    patch:
    grammar:
    language: amz-v3n2m1-zh-hans
    collocation_max_length: 5
    collocation_min_length: 2

    translator/contextual_suggestions: true
    translator/max_homophones: 7
    translator/max_homographs: 7
    ly1878
        29
    ly1878  
       298 天前
    感谢两位帮助, @kimizen 不管是加入还是新建都没有效果。 @Volekingsg 还是没有效果。
    重新部署还是不行。
    kimizen
        30
    kimizen  
       298 天前
    @ly1878 你复制的哪里的代码?直接复制作者自己的,别用那个楼主修改的
    __include: octagram #启用语言模型
    #语言模型
    octagram:
    __patch:
    grammar:
    language: amz-v2n3m1-zh-hans
    collocation_max_length: 5
    collocation_min_length: 2
    translator/contextual_suggestions: true
    translator/max_homophones: 7
    translator/max_homographs: 7
    kimizen
        31
    kimizen  
       298 天前
    @ly1878 yaml 要注意空格……https://github.com/amzxyz/RIME-LMDG/wiki/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E8%AF%B4%E6%98%8E
    没生效基本大概率是这原因 custom 要注意的坑太多了,你直接复制到 xhup.schema.yaml 里
    ly1878
        32
    ly1878  
       298 天前
    @kimizen 感谢你的帮助。麻烦你看下我的另一个帖子,https://v2ex.com/t/1098582#reply13 我自认为配置的都正确,会不会是我用的凇鹤拼音输入法,自身配置的问题? https://github.com/kchen0x/rime-crane
    Volekingsg
        33
    Volekingsg  
       298 天前
    @ly1878 #29 自行检查 build 目录下的输入方案是否符合预期
    ly1878
        34
    ly1878  
       298 天前
    @Volekingsg build 目录怎样是符合预期呢?一直没手动修改这里的文件,一直都是根目录修改的。我看了这么多教程没提到要修改 build 里面的文件啊
    Volekingsg
        35
    Volekingsg  
       298 天前
    @ly1878 #34 没说要改,build 是聚合了你 custom 和原始文件生成的,你这样折腾不如去把文档认真读两篇( https://rime.im/docs/),虽然确实不好理解
    ly1878
        36
    ly1878  
       297 天前
    请教各位,删除自造词 Shift+Fn+Delete ,没有 fn 键,如何修改成其他的键?
    1073
        37
    1073  
       297 天前
    有没有大佬帮忙看下生效没
    https://github.com/amzxyz/RIME-LMDG/issues/7
    FEDT
        38
    FEDT  
       272 天前
    为啥你的待选区后面有个无穷的符号,我的没有
    Chengnan049
        39
    Chengnan049  
       251 天前
    @omz 那我就不能要一个既不联网又舒服的输入法吗?你要这么说的话我给搜狗断网后输入效果也是一流,这个问题加一个语言模型就能解决,很简单
    guxianbang
        40
    guxianbang  
       236 天前
    仅使用万象拼音 https://github.com/amzxyz/rime_wanxiang_pro 的自带词库,没有安装语言模型,楼主“比如下面这些句子”里的所有句子都能正确匹配在第一位,不用选字(除了“无论如何你都不可能再离开这里了”打出了“在”,可用辅助码多打一个“a”解决)
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2903 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 14:27 PVG 22:27 LAX 07:27 JFK 10:27
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86