或者说,有哪家分词算法可以自信地说能做到无限接近 100 %正确?

或者说,有哪家分词算法可以自信地说能做到无限接近 100 %正确?
1 nikoo Feb 25, 2018 我买楼主要看心情 |
2 lsvih Feb 25, 2018 via iPhone 中文没分隔符,有消岐、oov 等一堆难点 当然会考虑速度 现在还没有无限接近 100% 的 |
3 liuhaotian Feb 25, 2018 via iPhone @nikoo 你这句话我读了三遍才读明白 |
5 misaka19000 Feb 25, 2018 via Android 你这句话我读了三遍也没读明白 |
6 misaka19000 Feb 25, 2018 via Android @nikoo 你这句话我读了三遍也没读明白 |
7 Yishanshan Feb 25, 2018 via Android 北京大学你是分成一个词还是两个词? |
8 nfroot Feb 25, 2018 via Android 南京市长江大桥 |
9 murmur Feb 25, 2018 中文分词的最大难点还是网络用语 尤其是带反和谐部分的 |
10 BingoXuan Feb 25, 2018 via Android |
12 takato Feb 25, 2018 为什么需要分词? |
13 takato Feb 25, 2018 从我的理解来看,如果要清晰做到理解语义。 则分词这个方法从架构上可能就是错误的。 因为分词要求词和词彻底分开,但词之间可能是以概率方式表示某种语义的。 |
16 gowl OP @Baymaxbowen 我觉得应该分一个词~ |
18 gowl OP 今天听一 个朋友说做分词最好的机构似乎是一家台湾的机构 |
19 takato Feb 26, 2018 @gowl 举个例子,鱼,鱼子,鱼子酱。三者是不同的东西,但又不是完全无关的东西。现有的分词逻辑中,相当于是将不同的词作为了独立元素。你会注意到是否将鱼子酱作为一个词,其实是一件很头疼的事情。。。 这是因为语义的联系在 字 的层面上就已经存在了,而词的本质是字的排列组合。 比如: 鱼对于鱼子的意思,是有贡献的。 而鱼子对于鱼子酱的意思,也是有贡献的。 所有的字的组合构成了最完整的词的含义。 所以用 字 构成了基本元素的模型可能会比词保留更完整的语义信息。 |
22 yybeta Feb 26, 2018 自己试过好多,目前离线用 jieba,API 用 boson,https://bosonnlp.com/demo 可以试试,可能是中文做得最好的。 |