需要汇总改动少于 30%的文章(或者说相似到达 70%不包括标点符号),请问有这样的方法吗?
![]() | 1 ygtq 2020-06-24 12:00:07 +08:00 google 一些相似度匹配算法,有挺多的。 我用过一个 simhash |
2 fanfou 2020-06-24 14:51:57 +08:00 是的,有一些文本相似度匹配的库。 |
![]() | 3 bigboNed3 2020-06-24 16:25:18 +08:00 这个感觉最长公共子序列可以啊 return len(longest_common_subsequence(s)) > 0.7 * len(s) |
4 joApioVVx4M4X6Rf 2020-06-24 17:56:53 +08:00 结巴分词,集合交集,取百分数 |
![]() | 5 lithbitren 2020-06-25 10:31:34 +08:00 最长公共子序列要用的话,得回溯除出所有连续的公共序列,过滤掉重复几个字或十几个字的,然后再加总求百分比,直接求只能求出最长的那个长度,多个短公共序列是不能直接得出的 |