关于目前 V2EX 的主题的自动打标签功能 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
241.36D
591.28D
V2EX    V2EX

关于目前 V2EX 的主题的自动打标签功能

  •  
  •   Livid
    PRO
    2014-02-20 16:17:47 +08:00 6391 次点击
    这是一个创建于 4329 天前的主题,其中的信息可能已经有所发展或是发生改变。
    是的,有时候确实会产生一些奇怪的结果。

    我们用的是结巴中文分词这个库算出来的结果,如果你对分词方面有研究,有信心做出更好的结果,或许你可以考虑给他们提一个 pull request:

    https://github.com/fxsjy/jieba

    这是我之前提的 issue:

    https://github.com/fxsjy/jieba/issues/130
    26 条回复    1970-01-01 08:00:00 +08:00
    tension
        1
    tension  
       2014-02-20 16:25:19 +08:00   19
    继续努力就好啦... 着什么急... 中国的语言是博大精深的!

    1. 冬天:能穿多少穿多少; 夏天:能穿多少穿多少。
    2. 剩女产生的原因有两个,一是谁都看不上,二是谁都看不上。
    3. 地铁里听到一个女孩大概是给男朋友打电话,“我已经到西直门了,你快出来往地铁站走。如果你到了,我还没到,你就等着吧。如果我到了,你还没到,你就等着吧。”
    4.单身人的来由:原来是喜欢一个人,现在是喜欢一个人。
    5.两种人容易被甩:一种不知道什么叫做爱,一种不知道什么叫做爱。
    6.想和某个人在一起的两种原因:一种是喜欢上人家,
    另一种是喜欢上人家。
    7.女孩约的男孩迟到了有两个原因:
    ①睡过了,②睡过了。
    Mihuwa
        2
    Mihuwa  
       2014-02-20 16:26:22 +08:00
    哈哈,楼上的。
    Tink
        3
    Tink  
    PRO
       2014-02-20 16:26:48 +08:00
    @tension 太赞了!
    jjplay
        4
    jjplay  
       2014-02-20 16:31:24 +08:00
    机智的 1L
    xgjames
        5
    xgjames  
       2014-02-20 16:35:02 +08:00
    连「库算」都能分成个词,笑死了
    donwa
        6
    donwa  
       2014-02-20 16:38:25 +08:00   1
    我觉得v2ex的分词已经很好了。
    再自己维护下词库,应该可以达到更好的效果。

    @xgjames jieba好像有新词发现功能。
    这个 库算 出来

    “这个” 和 “出来” 在词库内存在,而在“这个”和“出来”之间的“库算” 定义为新词了
    family
        7
    family  
       2014-02-20 16:41:28 +08:00 via iPhone
    根本不是分词库的问题
    而是主题词/热点词算法的问题
    donwa
        8
    donwa  
       2014-02-20 16:47:10 +08:00
    @Livid 我觉得应该对v2ex的标签再进行一个处理。每次取词 5~6个,然后再查wiki或者百度百科是否存在词条。

    优先选择: 存在词条 > 出现频率 > 词库中存在 > 新词 来确定3个标签。
    caoyue
        9
    caoyue  
       2014-02-20 17:38:52 +08:00
    应该也不是是词典的问题,jieba 分词的效果还是不错的
    但是关键词提取的时候,对于词典中不存在的词的处理似乎有些问题
    用 cut 来分词,然后自己处理提取 tag 可能会好一点。
    blacktulip
        10
    blacktulip  
       2014-02-20 17:41:54 +08:00   1
    只需要开启手动编辑功能,让大家都能改帖子的 tag 就行了。
    Sivan
        11
    Sivan  
       2014-02-20 17:46:49 +08:00   1
    tag 最奇怪的难道不是这个帖子吗?
    http://www.v2ex.com/t/97492
    sethverlo
        12
    sethverlo  
       2014-02-20 18:10:54 +08:00
    @Sivan 哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈点进去之前想到了各种可能性,进去之后还是笑喷了哈哈哈哈哈哈哈哈哈哈哈哈哈哈
    underone
        13
    underone  
       2014-02-20 18:12:19 +08:00
    @Sivan 我笑了。。。
    wwqgtxx
        14
    wwqgtxx  
       2014-02-20 18:15:53 +08:00 via Android
    @Livid
    能不能让移动界面也能看到分词呀!
    hzlzh
        15
    hzlzh  
    PRO
       2014-02-20 19:22:35 +08:00
    围观 “库算” 这个标签
    lazycat
        16
    lazycat  
       2014-02-20 19:39:04 +08:00 via Android
    @wwqgtxx 赞一个
    air00dd
        17
    air00dd  
       2014-02-20 20:06:31 +08:00
    有没有主题收藏用标签分类的计划?
    zorceta
        18
    zorceta  
       2014-02-20 21:33:51 +08:00 via Android
    V2EX的分词系统不是AI么
    aoaoho
        19
    aoaoho  
       2014-02-20 22:48:50 +08:00 via iPad
    1楼 @tension 和 11楼 @Sivan 都亮了
    cchange
        20
    cchange  
       2014-02-20 23:12:30 +08:00 via iPhone
    1楼 @tension 太亮了
    怪不得财富那么多

    还有 手机版无法看到标签啊~
    caomu
        21
    caomu  
       2014-02-21 00:29:36 +08:00 via Android
    tag收藏
    tag之间关联,类似于子话题
    tag维护者
    tag wiki(简短描述)

    好像有点像知乎。。。
    onemoo
        22
    onemoo  
       2014-02-21 00:37:52 +08:00
    能不能设置手动编辑?
    或者设置一个tag库,放上常用的tag,供大家选择。
    virushuo
        23
    virushuo  
       2014-02-21 05:54:05 +08:00
    我对分词算略有经验,以我们当年做搜索的经验看,如果不是通用搜索,只面对一个领域,最好的办法是自定义词库。所以开放tag编辑功能,用户修正错误,然后稍微用个算法过滤一下,生成自定义词库补充进去,效果能好很多。这种情况反而在分词引擎本身上能提高的余地不大。
    0bit
        24
    0bit  
       2014-02-21 08:01:22 +08:00
    @tension 糖蒜女子脱口秀?
    xiaket
        25
    xiaket  
       2014-02-21 09:04:07 +08:00
    @Livid, 附议@virushuo

    可以扫一遍已有的标签们, 编辑成一个列表, 后面的新标签也更倾向于从列表中取.
    cxshun
        26
    cxshun  
       2014-02-21 13:57:19 +08:00
    @tension 牛叉,果断博大精深。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2682 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 09:12 PVG 17:12 LAX 01:12 JFK 04:12
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86