
1 lithiumii 2019-12-03 00:34:20 +08:00 不懂算法,盲猜一个 pca ( Principal component analysis? |
2 TaihongZhang OP @lithiumii 好的我去看看 |
3 how2code 2019-12-03 00:45:41 +08:00 说 PCA 的拉出去 251... 最简单的应该是关键词 TF IDF + cosine similarity |
4 ZRS 2019-12-03 00:46:39 +08:00 直接每个 label 单独一维算 cosine 相似度吧 |
5 how2code 2019-12-03 00:48:25 +08:00 |
7 klesh 2019-12-03 01:03:30 +08:00 看看 Jaccard Similarity 或 Overlap Coefficient 够不够用? a = {'foo', 'bar', 'hello', 'world'} b = {'foo', 'bar', 'hello', 'world', 'test'} c = a.intersection(b) d = a.union(b) print('js(a, b)=', float(len(c))/float(len(d))) print('oc(a, b)=', float(len(c))/float(min(len(a), len(b)))) |
8 Mohanson 2019-12-03 01:08:25 +08:00 via Android 将对象表示为多维特征向量,然后欧几里德距离搞定 |
9 ecloud 2019-12-03 01:33:24 +08:00 如果仅仅是数人头的话,用统计学就能搞定 如果要考虑出现的位置上下文关系什么的,那就干脆把每个字节的 ASCII 码作为纵坐标,字节作为横坐标,形成一个波函数 然后对波形进行拟合,scipy 简直不要太好用了 |
10 nimab 2019-12-03 01:34:43 +08:00 via Android document distance |
11 dr1q65MfKFKHnJr6 2019-12-03 01:41:43 +08:00 #9 楼略靠谱,关键是相似度怎么量化比较~ 虽然,我不懂算法。 |
12 ClericPy 2019-12-03 09:22:01 +08:00 猛的就想起 <集体智慧编程> 头两章来了... 欧式距离 皮尔逊相关度什么的... 实习的时候玩过这些, 后来发现还是余弦向量简单又实惠... |
13 MengQuadra 2019-12-03 10:27:57 +08:00 数据区分度大大并且量多话可以用 simhash, 比起其他需要保证输入向量大小相同的方法来说更灵活 |
14 TimePPT PRO 先定义你想要的相似度是啥? lst_a = ['皇上', '皇后', '大臣'] lst_b = ['国王', '王后', '大臣'] 这俩列表的标签文本字符层面的重叠相似度只有一个签,但要考虑语义相似度可是三个签 |
15 TaihongZhang OP @TimePPT 就是只需要文本字符层面的相似度,不考虑语义,标签是固定的 |
16 TimePPT PRO @TaihongZhang 那有啥纠结的,量不大,全部放在两个 set 里直接取个交集不就完了 |
17 cambria 2019-12-03 13:46:33 +08:00 楼主只是个初学者,你们都快把支持向量机搬出来了。。。 @TimePPT 的方法靠谱 python 里有个 set 的数据结构,支持 & 运算符求交集运算,如果不用加权直接计数就可以了 |
18 photon006 2019-12-03 14:16:06 +08:00 皮尔逊相关系数 |