Elasticsearch+ik-analyzer 下,如何实现单字搜索?如“珀”=>“琥珀” - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dangyuluo
V2EX/a>    Elasticsearch

Elasticsearch+ik-analyzer 下,如何实现单字搜索?如“珀”=>“琥珀”

  •  
  •   dangyuluo 2016-09-05 10:14:41 +08:00 7449 次点击
    这是一个创建于 3393 天前的主题,其中的信息可能已经有所发展或是发生改变。

    复现很简单,在某个索引的某个字段中创建一个type: string, analyzer: ik_smart的字段,假设名为 description 。然后填入这么一条数据:“主要经营缅甸琥珀蜜蜡各类产品 翡翠各类成品及半成品 18k 金镶嵌成品 低中高价位齐全 产品款式 大量库存”

    通过 ik_smart 分词器查看其分词结果:(截取部分)

    ... { "token": "琥珀", "start_offset": 6, "end_offset": 8, "type": "CN_WORD", "position": 3 }, ... 

    可以看出琥珀被分为一个词了。那么再进行以下查询,仅查找“珀”字:

    { "query": { "match": { "feature": "珀" } } } 

    结果却找不到该字。我认为原因应该是, ik_smart 将“琥珀”认为是一个词后,为这个词进行了索引。那么搜索“珀”字自然找不到这条数据,只能说ik analyzer太智能了。

    通过测试,发现自带 standard 分词器是可以通过搜索“珀”字,搜索到含有“琥珀”的数据的。原因明显是因为 standard 分词器会拆分每个汉字。

    不知道各位都怎么解决这个问题,谢谢。

    5 条回复    2016-09-06 21:03:03 +08:00
    xujif
        1
    xujif  
       2016-09-05 11:26:18 +08:00
    type 用 phrase 不然就自己添加词库字典
    marffin
        2
    marffin  
       2016-09-05 11:59:01 +08:00
    同时加一个 1gram 的 analyzer 就好
    lyroge
        3
    lyroge  
       2016-09-05 12:03:59 +08:00
    添加一列,用 standard 分析器?
    Suclogger
        4
    Suclogger  
       2016-09-05 12:35:55 +08:00
    建立索引需要细粒度,检索需要粗粒度

    意味着

    index_analyzer 用 ik_max_word
    query_analyzer 用 ik_smart
    woyaojizhu8
        5
    woyaojizhu8  
       2016-09-06 21:03:03 +08:00
    微软全系的搜索也有这个问题,比如 windows 搜索 , onenote 搜索 , sql server 搜索
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2466 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 15:15 PVG 23:15 LAX 07:15 JFK 10:15
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86