打算整一个社工库自用,方案求解 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pimin
V2EX    问与答

打算整一个社工库自用,方案求解

  •  
  •   pimin 2019-03-16 10:21:16 +08:00 via Android 12097 次点击
    这是一个创建于 2403 天前的主题,其中的信息可能已经有所发展或是发生改变。
    高中大学时候当过几年脚本小子
    后来编程学了点,c/c++/asm,打算做逆向的中途放弃
    前两年心血来潮学了一阵 Python,能简单写个 blog 之类

    那时候认识一个小兄弟,一直有联系,逢年过节会打电话问候那种;现在也是为人父母了,他灰产接触比较多,有社工库需求,找我帮忙,目标数据量应该在 500G ;

    做了下前期工作,目前初步方案是数据索引 elasticsearch,查询用 Python+flask ;自用随便整个页面就可以了;

    想咨询下有没有更好的方案,或者这套方案有没有大的短板;
    还有就是数据清洗有没有成熟的方案还是只能自己写个脚本导入
    27 条回复    2020-04-23 11:02:29 +08:00
    stiekel
        1
    stiekel  
       2019-03-16 10:30:15 +08:00
    实时查询 elasticsearch 是比较好的方便,合理规划好索引和字段,问题不大,不过机器配置别太差。
    这种数据除了自己抽取入库,还能有什么办法?如果是单纯的格式好的文件,可以用 logstash。
    locoz
        2
    locoz  
       2019-03-16 10:35:40 +08:00 via Android
    ES 这个量级一点问题都没有,机器性能别太差就行,数据清洗还是自己写脚本处理吧,之前看过一个库,内容乱的一批,应该不存在通用的处理方案。(好奇数据源哪来
    ZavierXu
        3
    ZavierXu  
       2019-03-16 10:38:38 +08:00   3
    500G 的社工库?我觉得应该至少再加个 0 才对
    WordTian
        4
    WordTian  
       2019-03-16 10:39:34 +08:00 via Android
    现在网上泄漏的数据库太多了,有心人很容易就能下载到,很担心以后自己的数据安全问题。不过担心也没用,唉
    ZavierXu
        5
    ZavierXu  
       2019-03-16 10:39:55 +08:00
    如果真的是 500G 这个量级的,根本不用 elasticsearch,直接用 MySQL,hash/密码 /邮箱做个索引,查询基本是毫秒级
    pimin
        6
    pimin  
    OP
       2019-03-16 11:55:42 +08:00
    @stiekel
    自己的台式机只有 i5 4430+ 16G 内存,应付这个数据量有问题大么?
    x86
        7
    x86  
       2019-03-16 11:56:41 +08:00
    国外大盘鸡
    pimin
        8
    pimin  
    OP
       2019-03-16 11:57:43 +08:00
    @locoz
    数据源部分是网上公开的,通过搜索之类就能找到的
    还有一部分是小圈子交流存下来的
    pimin
        9
    pimin  
    OP
       2019-03-16 11:59:13 +08:00
    @ZavierXu
    我目前只准备了 200G,打算先跑起来
    至于后续数据,看他能提供的量了
    xunmima
        10
    xunmima  
       2019-03-16 12:04:03 +08:00
    我的做法跟楼上一样,用 mysql 全部数据导入一个表,然后就做这个表索引。

    2 亿数据 1 秒出结果
    misaka19000
        11
    misaka19000  
       2019-03-16 12:07:52 +08:00 via Android
    好奇楼主是通过哪些手段获取这些社工数据的呢?
    limbo0
        12
    limbo0  
       2019-03-16 13:15:09 +08:00 via Android
    es 干这个不太适合,上数据库是比较好的选择
    doget
        13
    doget  
       2019-03-16 13:26:35 +08:00 via iPhone
    @ZavierXu 我也觉得,再加个 0,才叫社工库
    stiekel
        14
    stiekel  
       2019-03-16 13:52:26 +08:00
    @pimin 一看你最终的数据条数,二看你文档的大小,三看字段的格式。
    不过 200G 的数据,如果全存下得话,最终到 elasticsearch 里肯定大于 200G。
    普通搜索,查询文档,这配置够了。
    fcoolish
        15
    fcoolish  
       2019-03-16 14:31:23 +08:00
    我社工库手动分文件查,哈哈哈
    yu1u
        16
    yu1u  
       2019-03-16 14:52:43 +08:00 via Android   1
    以前用 php 直接在几个 g 的文本中查找。。。。
    bakabie
        17
    bakabie  
       2019-03-16 15:28:42 +08:00 via Android
    500g 级别的,mysql 就能搞定吧
    pimin
        18
    pimin  
    OP
       2019-03-16 15:45:37 +08:00 via Android
    @bakabie
    我简单看了下 es 官方文档,没觉得会比 MySQL 麻烦
    idcspy
        19
    idcspy  
       2019-03-16 18:14:22 +08:00
    你这不算自用,悠着点啊。
    glfpes
        20
    glfpes  
       2019-03-16 18:55:47 +08:00 via Android
    es 界面都不用开发,有 kibana
    Les1ie
        21
    Les1ie  
       2019-03-16 21:33:49 +08:00
    1. 读文件的时候,如果单个文件不到 2 个 G,可以直接读到内存,如果更大,建议用生成器,速度可能会比直接读慢一点,但是不会耗费太多内存。打开文件之前要注意自适应各种不同的字符集、各种字段的缺失
    2. es 不要暴露在 0.0.0.0, 另外建议 helper.bulk 批量插入可以明显加速网络 IO
    3. 还需要考虑以后数据增加的时候如何复用之前的代码
    4. flask 查的时候限制返回长度,不然 boom
    h175h32
        22
    h175h32  
       2019-03-16 22:04:22 +08:00
    能给我用用吗
    pimin
        23
    pimin  
    OP
       2019-03-16 22:54:54 +08:00
    @Les1ie
    谢谢,
    1.因为是做给别人用的,最后移交方式应该是硬盘寄给他,所以应该是都导入到 es;
    2.es 不会放到公网,查得太严了;
    3.裤子字段一般都比较简单,用户名 /明文密码 /密码 hash 值 /来源网站 /姓名 /手机 /泄露时间之类,目标可能是 15 个字段以内,多余字段应该会选择丢弃;
    4.返回长度应该会用分页方式解决;不过
    haoshuaiwang
        24
    haoshuaiwang  
       2019-05-12 14:11:06 +08:00
    咱俩可以交流一下啊 ,目前公布的方案都太少了 ,而且效率感觉一般
    先说一下我自己的 ,
    I5 4590 16G
    我用的 MYSQL 现在大概 300+个表 每个表结构略有不同
    目前用 PHP 写了一套简单的查询 模糊查询打开在 5 秒左右
    数据大概有 20E 条左右,全部索引完成 600G+
    Apol1oBelvedere
        25
    Apol1oBelvedere  
       2019-10-29 16:13:16 +08:00
    @haoshuaiwang 一个泄露站点放在一个表吗?
    haoshuaiwang
        26
    haoshuaiwang  
       2020-01-27 02:19:06 +08:00
    VKRUSSIA
        27
    VKRUSSIA  
       2020-04-23 11:02:29 +08:00
    水表
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1152 人在线   最高记录 6679       SelectLanguage
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 17:50 PVG 01:50 LAX 10:50 JFK 13:50
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86