
只导了 126 的数据到 mysql 已经有 10G ,做了索引, like 语法查起来还是很慢。(平均: 45s 设备: 256SSD+i5 ) 要想达到 163password.download 查询的速度,该用什么技术或架构?
1 Bryan0Z 2016-04-04 14:43:03 +08:00 via Android 这网站为什么会返回乱码,是我的密码还没泄露? 另外参照 找密码网的源码,人家 500G 数据, 30 多个库速度也在 10 秒以内 |
2 zonghua 2016-04-04 14:43:25 +08:00 via iPhone 按首字母分库啊,并行查找 |
3 yeyeye 2016-04-04 14:46:05 +08:00 他的是精确查找 你的是 like 查找 不是一个道理吧。只是要精确查找的话 还可以分成很多个表,查询速度必然迅捷无比。最简单的按 2 位首字母分表就可以分至少 1296 个 查询的时候做下判断就可以精确的去相应的表里面查 性能直接提升 1296 倍 你的 45S 马上就变成了 0.0347S |
4 dapang1221 2016-04-04 14:53:48 +08:00 Sphinx |
5 kslr 2016-04-04 15:16:37 +08:00 话说那个 TXT 里面乱七八糟的格式,我导了 100 万就放弃了,太麻烦了。 |
6 Flygoat 2016-04-04 15:32:11 +08:00 via iPhone mongodb ? |
9 liyvhg 2016-04-04 15:44:22 +08:00 全部加载到内存 |
12 ucaime 2016-04-04 15:50:09 +08:00 via iPhone 倒入到 ES 集群了,嗯,正在倒入,还有两个包,几个亿据毫秒级。妈蛋这次的数据重复太多,去重略耗时间 |
14 ifconfig OP @kslr LOAD DATA INFILE 'path/info.txt' INTO TABLE xxx FIELDS TERMINATED BY '----' LINES TERMINATED BY '\n'; 多看点参数说明就好了 |
16 slixurd 2016-04-04 16:03:42 +08:00 Elastic Search 啊,虽然 like 这种通配符匹配还是很慢,但是分词后的模糊查询超快的,我们现在一个 index 就是 80G ,速度还超快。 |
18 SlipStupig 2016-04-04 16:17:49 +08:00 mongodb+es 几十亿都没任何问题,这种杂乱数据注意一下清洗,如果要做规则或者杂乱格式转发请用 kettle ,不过话说学会都是一个月后的事情了 |
19 SlipStupig 2016-04-04 16:18:26 +08:00 求裤子分享 |
20 badcode 2016-04-04 16:23:40 +08:00 |
21 ynyounuo 2016-04-04 16:25:27 +08:00 不先整理一下?我全部转为 UTF-8 然后合并到一个文件并且 sort -u 之后数据就只剩 12 GB 了,这还有大量重复的信息呢 |
22 lichao 2016-04-04 16:32:47 +08:00 via iPhone 这破事,网易官方有回应吗? |
23 RangerWolf 2016-04-04 16:55:06 +08:00 我觉得 163password.download 并不快啊~ |
24 ucaime 2016-04-04 17:20:33 +08:00 via iPhone @lichao 网易太鸡贼了,第一把所有曝出的库的邮箱标记为可疑,各种提示。第二把关键邮件比如苹果发来的要求手机验证查看,装糊涂吧 |
26 dingyaguang117 2016-04-04 17:28:41 +08:00 163password.download 是不是不全啊? 我查了没有 |
27 @ynyounuo 为什么还需要转码? 邮箱密码不应该 ascii 就够了吗 |
28 badcode 2016-04-04 18:04:38 +08:00 有意思,一张图片一个小时多而已 来自 v2 的 views 就有 300 多次 |
29 guoer 2016-04-04 18:14:13 +08:00 你们都下载好了? |
30 jiongjionger 2016-04-04 18:22:39 +08:00 只有 50 多 G ,直接丢内存得了 |
31 soway 2016-04-04 18:28:49 +08:00 via Android 类似搜索引擎的做法 |
32 ianisme 2016-04-04 18:36:27 +08:00 grep -nr 自己的邮箱啊!! * |
34 SlipStupig 2016-04-04 18:57:56 +08:00 求下载地址啊 |
35 ifconfig OP @SlipStupig v 站内就有的 |
36 jhaohai 2016-04-04 19:49:49 +08:00 via iPhone 索引对 like 无效 |
37 manus 2016-04-04 19:50:14 +08:00 分表 |
38 moult 2016-04-04 20:06:35 +08:00 模糊查找的话,还是基于 Lucene 吧。 精确查找的话,关系型数据库也不会慢吧。或者试试看 Redis 。 |
39 strwei 2016-04-04 20:07:35 +08:00 试试文档数据库或者 Redis |
42 micookie1 2016-04-04 20:29:39 +08:00 我忘记密码的终于找回了 |
44 linescape 2016-04-04 20:36:14 +08:00 @dingyaguang117 我查了有我的邮箱但是不是我的密码。。。 |
45 ucaime 2016-04-04 21:53:13 +08:00 |
47 TemporaryID 2016-04-04 23:23:19 +08:00 导入数据: http://pastebin.com/2PyKHPjn Web 服务: http://pastebin.com/SErx0WNj 用的是 LevelDB 导入后大概 25GB 服务器在 DigitalOcean 上 楼上 @yeyeye 说的对,因为是精确匹配,所以快 还有真的不要 DDoS 我好吗,我真的不是做这个的,只是玩玩 T_T |
48 ffwalle 2016-04-04 23:53:25 +08:00 52g 根本小菜一碟,记得加索引。 |
49 ffwalle 2016-04-04 23:59:29 +08:00 哦,看到你说做 like 查询,呵呵,如果真的要快,那做 ngram 吧。。。 |
50 powtop 2016-04-05 08:39:04 +08:00 求裤子 |
51 xinyewdz 2016-04-05 09:03:02 +08:00 刚查了,密码是四年前的。 |
52 wyx 2016-04-05 09:56:24 +08:00 歪个楼,解压密码是啥? |
56 thanksir 2016-04-05 11:04:41 +08:00 靠,我的泄露了 |
57 soulteary 2016-04-05 12:27:10 +08:00 @ynyounuo 粗筛选可以在转码前先执行 shasum 简单计算 hash ,然后再做分词。算了一下,大概重复的数据有 438 , 38.62%左右都是重复的。 如果先转码,恐会浪费不少时间(机器多可忽略...) |
58 wwek 2016-04-05 12:53:51 +08:00 没裤子穿,需要裤子 |
60 soulteary 2016-04-05 16:03:30 +08:00 |
61 SlipStupig 2016-04-05 16:10:34 +08:00 @ifconfig 实在没找到地址 |
62 dingyaguang117 2016-04-06 16:03:46 +08:00 @ynyounuo sort -u , 请问你内存多大呢。。。 花了几个小时? |
63 ifconfig OP @dingyaguang117 内存 8G , i5 ,已经过去一个小时了, MacBook 好烫好烫好烫好烫 |