
只导了 126 的数据到 mysql 已经有 10G ,做了索引, like 语法查起来还是很慢。(平均: 45s 设备: 256SSD+i5 ) 要想达到 163password.download 查询的速度,该用什么技术或架构?
1 Bryan0Z 2016 年 4 月 4 日 via Android 这网站为什么会返回乱码,是我的密码还没泄露? 另外参照 找密码网的源码,人家 500G 数据, 30 多个库速度也在 10 秒以内 |
2 zonghua 2016 年 4 月 4 日 via iPhone 按首字母分库啊,并行查找 |
3 yeyeye 2016 年 4 月 4 日 他的是精确查找 你的是 like 查找 不是一个道理吧。只是要精确查找的话 还可以分成很多个表,查询速度必然迅捷无比。最简单的按 2 位首字母分表就可以分至少 1296 个 查询的时候做下判断就可以精确的去相应的表里面查 性能直接提升 1296 倍 你的 45S 马上就变成了 0.0347S |
4 dapang1221 2016 年 4 月 4 日 Sphinx |
5 kslr 2016 年 4 月 4 日 话说那个 TXT 里面乱七八糟的格式,我导了 100 万就放弃了,太麻烦了。 |
6 Flygoat 2016 年 4 月 4 日 via iPhone mongodb ? |
9 liyvhg 2016 年 4 月 4 日 全部加载到内存 |
12 ucaime 2016 年 4 月 4 日 via iPhone 倒入到 ES 集群了,嗯,正在倒入,还有两个包,几个亿数据毫秒级。妈蛋这次的数据重复太多,去重略耗时间 |
14 ifconfig OP @kslr LOAD DATA INFILE 'path/info.txt' INTO TABLE xxx FIELDS TERMINATED BY '----' LINES TERMINATED BY '\n'; 多看点参数说明就好了 |
16 slixurd 2016 年 4 月 4 日 Elastic Search 啊,虽然 like 这种通配符匹配还是很慢,但是分词后的模糊查询超快的,我们现在一个 index 就是 80G ,速度还超快。 |
18 SlipStupig 2016 年 4 月 4 日 mongodb+es 几十亿都没任何问题,这种杂乱数据注意一下清洗,如果要做规则或者杂乱格式转发请用 kettle ,不过话说学会都是一个月后的事情了 |
19 SlipStupig 2016 年 4 月 4 日 求裤子分享 |
20 badcode 2016 年 4 月 4 日 |
21 ynyounuo 2016 年 4 月 4 日 不先整理一下?我全部转为 UTF-8 然后合并到一个文件并且 sort -u 之后数据就只剩 12 GB 了,这还有大量重复的信息呢 |
22 lichao 2016 年 4 月 4 日 via iPhone 这破事,网易官方有回应吗? |
23 RangerWolf 2016 年 4 月 4 日 我觉得 163password.download 并不快啊~ |
24 ucaime 2016 年 4 月 4 日 via iPhone @lichao 网易太鸡贼了,第一把所有曝出的库的邮箱标记为可疑,各种提示。第二把关键邮件比如苹果发来的要求手机验证查看,装糊涂吧 |
26 dingyaguang117 2016 年 4 月 4 日 163password.download 是不是不全啊? 我查了没有 |
27 dingyaguang117 2016 年 4 月 4 日 @ynyounuo 为什么还需要转码? 邮箱密码不应该 ascii 就够了吗 |
28 badcode 2016 年 4 月 4 日 有意思,一张图片一个小时多而已 来自 v2 的 views 就有 300 多次 |
29 guoer 2016 年 4 月 4 日 你们都下载好了? |
30 jiongjionger 2016 年 4 月 4 日 只有 50 多 G ,直接丢内存得了 |
31 soway 2016 年 4 月 4 日 via Android 类似搜索引擎的做法 |
32 ianisme 2016 年 4 月 4 日 grep -nr 自己的邮箱啊!! * |
34 SlipStupig 2016 年 4 月 4 日 求下载地址啊 |
35 ifconfig OP @SlipStupig v 站内就有的 |
36 jhaohai 2016 年 4 月 4 日 via iPhone 索引对 like 无效 |
37 manus 2016 年 4 月 4 日 分表 |
38 moult 2016 年 4 月 4 日 模糊查找的话,还是基于 Lucene 吧。 精确查找的话,关系型数据库也不会慢吧。或者试试看 Redis 。 |
39 strwei 2016 年 4 月 4 日 试试文档数据库或者 Redis |
42 micookie1 2016 年 4 月 4 日 我忘记密码的终于找回了 |
44 linescape 2016 年 4 月 4 日 @dingyaguang117 我查了有我的邮箱但是不是我的密码。。。 |
45 ucaime 2016 年 4 月 4 日 |
47 TemporaryID 2016 年 4 月 4 日 导入数据: http://pastebin.com/2PyKHPjn Web 服务: http://pastebin.com/SErx0WNj 用的是 LevelDB 导入后大概 25GB 服务器在 DigitalOcean 上 楼上 @yeyeye 说的对,因为是精确匹配,所以快 还有真的不要 DDoS 我好吗,我真的不是做这个的,只是玩玩 T_T |
48 ffwalle 2016 年 4 月 4 日 52g 根本小菜一碟,记得加索引。 |
49 ffwalle 2016 年 4 月 4 日 哦,看到你说做 like 查询,呵呵,如果真的要快,那做 ngram 吧。。。 |
50 powtop 2016 年 4 月 5 日 求裤子 |
51 xinyewdz 2016 年 4 月 5 日 刚查了,密码是四年前的。 |
52 wyx 2016 年 4 月 5 日 歪个楼,解压密码是啥? |
56 thanksir 2016 年 4 月 5 日 靠,我的泄露了 |
57 soulteary 2016 年 4 月 5 日 @ynyounuo 粗筛选可以在转码前先执行 shasum 简单计算 hash ,然后再做分词。算了一下,大概重复的数据有 438 , 38.62%左右都是重复的。 如果先转码,恐会浪费不少时间(机器多可忽略...) |
58 wwek 2016 年 4 月 5 日 没裤子穿,需要裤子 |
60 soulteary 2016 年 4 月 5 日 |
61 SlipStupig 2016 年 4 月 5 日 @ifconfig 实在没找到地址 |
62 dingyaguang117 2016 年 4 月 6 日 @ynyounuo sort -u , 请问你内存多大呢。。。 花了几个小时? |
63 ifconfig OP @dingyaguang117 内存 8G , i5 ,已经过去一个小时了, MacBook 好烫好烫好烫好烫 |