免费帮大家开发爬虫或者做数据分析,简单的数据挖掘 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
golmic
V2EX    程序员

免费帮大家开发爬虫或者做数据分析,简单的数据挖掘

  •  
  •   golmic 2017-11-09 15:59:03 +08:00 6923 次点击
    这是一个创建于 2894 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到 t/404899 这个帖子作者在家无事,想想自己平时晚上和周末也很闲,自己擅长数据方面的工作,有需要的朋友我可以帮忙开发,当然是免费的!

    顺便推荐一下做的网站,http://pyanalysis.org/ 大家都是些喜欢数据开发的朋友,现在有 200+注册用户,100+活跃用户。喜欢的朋友可以加我微信拉你进群,大家一起交流。

    放邀请码数枚

    7fa9def7-ff8f-4906-bafd-06fce099911f

    8bbec81c-af1c-4d54-b1fb-0620820e10d9

    5cf18335-653c-4bea-b52a-c4c7f85cb5cf

    c7f8608c-811d-4467-83f5-2d7329d40ab6

    ac5fbf4e-fc9c-4a3c-80ba-1235b3e50b04

    b4da4773-de16-48e1-8f08-e4100a5b1713

    ec20ed7d-735d-4336-a44d-6bc3adfe67df

    b1241d69-68e9-4259-8a1f-61e6b51cb83f

    a1e10035-b698-4e61-8b4b-11f26b6c5500

    没抢到邀请码的小伙伴可以加我微信我给你。微信号在网站上有哦。

    第 1 条附言    2017-11-09 16:34:21 +08:00
    大家当然可以去网站看教程,也可以提需求我来实现啊。~~实现后代码开源,大家一起学习。
    第 2 条附言    2017-11-10 15:30:17 +08:00
    第 3 条附言    2017-11-10 15:31:28 +08:00
    上图是 11 月 10 号下午 3 点半新放出的邀请码,可以加我微信获取或者让我拉你到群里一起交流,网站上的教程只是一小部分,本周末会有直播讲解网络请求分析。
    67 条回复    2017-12-12 18:17:48 +08:00
    golmic
        1
    golmic  
    OP
       2017-11-09 16:16:29 +08:00
    大家用了邀请码说一声方便后来的小伙伴~
    haoji
        2
    haoji  
       2017-11-09 16:24:01 +08:00
    准备用邀请码注册,发现原来自己有账号……
    jiezhi
        3
    jiezhi  
       2017-11-09 16:24:04 +08:00
    c7f8608c-811d-4467-83f5-2d7329d40ab6 用了 好像下面的都被用了吧。。
    Light3
        4
    Light3  
       2017-11-09 16:25:29 +08:00
    根据我的实验..没有一个没被用过的 /
    aksoft
        5
    aksoft  
       2017-11-09 16:26:05 +08:00
    邀请码怎么用。。
        6
    golmic  
    OP
       2017-11-09 16:29:17 +08:00   1
    06f924cb-c9f7-4608-b5b8-98a0ed5e80f2

    dc20ea3b-2e38-4a83-b960-6d1450aca94a

    57e567ec-affa-438d-9734-9a2d57abc4ec

    9e675b41-8a02-43b9-a107-e145204f6817

    eb86eb4a-4e32-41e4-970c-e6527b2a51c1

    6e9458fe-7062-4495-9fa7-2be9a212a62a

    b6764b57-a4b1-489a-8229-c7cae95e8532

    419607ed-0fda-4482-ab8b-c5e5b1283738

    7cdb5cd0-8bfe-4ab0-b70e-d11902f0ebfb

    90a3ffd9-9265-4aca-b3d3-e902b75a6843

    9057d4b5-63da-4a63-bf33-f6acd0033ac6


    @aksoft #5
    @Light3 #4
    bianchensz
        7
    bianchensz  
       2017-11-09 16:31:11 +08:00
    90a3ffd9-9265-4aca-b3d3-e902b75a6843 已用
    server
        8
    server  
       2017-11-09 16:31:15 +08:00
    7cdb5cd0-8bfe-4ab0-b70e-d11902f0ebfb 已用,感谢楼主
    zchlwj
        9
    zchlwj  
       2017-11-09 16:33:16 +08:00
    @golmic 419607ed-0fda-4482-ab8b-c5e5b1283738 已用
    ssrtree
        10
    ssrtree  
       2017-11-09 16:35:25 +08:00 via Android
    感谢楼主
    Nobitasean
        11
    Nobitasean  
       2017-11-09 16:39:55 +08:00 via iPhone
    有没有微信文章爬虫
    hnbcinfo
        12
    hnbcinfo  
       2017-11-09 16:40:02 +08:00
    5cf18335-653c-4bea-b52a-c4c7f85cb5cf 已用
    xmbaozi"
        13
    xmbaozi  
       2017-11-09 16:41:41 +08:00
    9e675b41-8a02-43b9-a107-e145204f6817 用了
    synergies
        14
    synergies  
       2017-11-09 16:42:50 +08:00
    1fbc3fdf-f277-446b-a645-17c285cf6a38 已用
    tjxjj
        15
    tjxjj  
       2017-11-09 16:46:36 +08:00
    06f924cb-c9f7-4608-b5b8-98a0ed5e80f2 用了
    goodboy
        16
    goodboy  
       2017-11-09 16:52:48 +08:00
    邀请码不能用了吧,都显示邀请码错误
    ba476
        17
    ba476  
       2017-11-09 16:56:25 +08:00
    邀请码错误,没有了
    kchum
        18
    kchum  
       2017-11-09 16:57:29 +08:00
    都已经用完了
    redbsd
        19
    redbsd  
       2017-11-09 17:01:10 +08:00
    什么开发的
    golmic
        20
    golmic  
    OP
       2017-11-09 17:43:57 +08:00
    @Nobitasean #11 可以做。

    @goodboy #16
    @ba476 #17
    @kchum #18 加我私聊给你吧


    @redbsd #19 我是用 Python 写爬虫,网站的话是用 Node 写的,详细的架构加我聊吧
    schoolers
        21
    schoolers  
       2017-11-09 17:51:43 +08:00
    我需要爬取去哪儿的数据,可以么?
    golmic
        22
    golmic  
    OP
       2017-11-09 17:55:48 +08:00
    @schoolers #21 加微信把详细需求给我吧,我爬过携程蚂蜂窝穷游
    forgot
        23
    forgot  
       2017-11-09 19:55:52 +08:00
    可以每天自动运行一次爬虫下载数据吗
    golmic
        24
    golmic  
    OP
       2017-11-09 21:55:42 +08:00 via Android
    @forgot 可以
    hugee
        25
    hugee  
       2017-11-09 22:40:20 +08:00 via Android
    半年都打不开。。。
    golmic
        26
    golmic  
    OP
       2017-11-09 22:52:42 +08:00 via Android
    @hugee 今天的访问量有点大,服务器撑不住了。。
    luzihang
        27
    luzihang  
       2017-11-09 23:58:02 +08:00
    网站首页就是登陆注册,没啥内容,我为什么要注册?
    golmic
        28
    golmic  
    OP
       2017-11-10 07:04:39+08:00 via Android
    @luzihang 有几篇教程,后续后完善
    anson2416
        29
    anson2416  
       2017-11-10 08:25:13 +08:00 via iPhone
    我有一些数据,日期,文件名,文件创建人,创建时间,文件发现。

    每个星期都有新的报告生成。请问怎样用大数据分析这些数据。例如,谁创建的东西最多,最大等
    zjlin1984
        30
    zjlin1984  
       2017-11-10 08:45:57 +08:00
    就看到免费就进来了。谢谢楼主。
    golmic
        31
    golmic  
    OP
       2017-11-10 08:47:18 +08:00 via Android
    @anson2416 最多这个需求很简单,最大的话,有文件大小的属性提供吗?如果没有的话还需要读取文件大小,应该都是可以处理的。你可以加我微信聊聊
    anson2416
        32
    anson2416  
       2017-11-10 09:02:35 +08:00 via iPhone
    @golmic 请问微信号是多少?
    数据都汇总出来了 现在需要筛选处理分析
    jjianwen68
        33
    jjianwen68  
       2017-11-10 09:41:09 +08:00
    爬一下历任 tg 中高层的个人信息及相互关系,做成图数据库吧
    shendaowu
        34
    shendaowu  
       2017-11-10 09:41:52 +08:00
    知乎和 Quora 话题。最好能包含话题的介绍,还有话题链接。
    yinxingren
        35
    yinxingren  
       2017-11-10 10:48:15 +08:00
    没有邀请码可以用了
    golmic
        36
    golmic  
    OP
       2017-11-10 11:01:19 +08:00
    @yinxingren #35 加我好友给你发
    golmic
        37
    golmic  
    OP
       2017-11-10 11:01:36 +08:00
    @anson2416 #32 微信号网站上有
    golmic
        38
    golmic  
    OP
       2017-11-10 11:02:04 +08:00
    @shendaowu #34 加我微信吧,可以做
    ziokai
        39
    ziokai  
       2017-11-10 11:49:03 +08:00
    爬取某条微博下某位用户的评论,这个难不难
    fishcat
        40
    fishcat  
       2017-11-10 12:19:21 +08:00
    @ziokai 为啥我也突然有类似的需求
    golmic
        41
    golmic  
    OP
       2017-11-10 13:10:51 +08:00
    @ziokai #39 这个不难,我做过爬某个用户的最新微博的爬虫,其实差不多。
    sacuba
        42
    sacuba  
       2017-11-10 15:54:10 +08:00
    求教那种动态跳转的页面如何爬取? 某个页面请求后先返回 202,然后再页内跳转一次才能显示正确内容,url 不变。 第一次返回的页面大部分为混淆加密后的数据。 之前一直用 scrapy 爬取,后来就不行了
    golmic
        43
    golmic  
    OP
       2017-11-10 15:56:15 +08:00
    scrapy 默认会自动跟进 302 的,你说的先混淆数据的这种一般不是 302,可能是 js 跳转,你可以发给我网址,不一样的地方不一样分析,我周末可以讲讲。
    golmic
        44
    golmic  
    OP
       2017-11-10 15:56:30 +08:00
    @sacuba #42 看上一层楼,忘记点回复了。
    sacuba
        45
    sacuba  
       2017-11-10 16:04:44 +08:00
    @golmic #44 确切说是 202 网址发你吧,能提供个思路就很感激了,很久之前的项目了,aHR0cDovL3d3dy5tc2EuZ292LmNuL3BhZ2Uvb3BlbkluZm8vYXJ0aWNsZUxpc3QuZG8/cGFnZVNpemU9MjAmcGFnZU5vPTEmY2hhbm5lbElkPTk0REYxNENFLTExMTAtNDE1RC1BNDRFLTY3NTkzRTc2NjE5Rg==
    alen
        47
    alen  
       2017-11-10 16:20:25 +08:00
    这页面写的一点也不走心......
    golmic
        48
    golmic  
    OP
       2017-11-10 17:15:23 +08:00
    @sacuba #45 我这边打开一直 403...
    YICHUJIFA
        49
    YICHUJIFA  
       2017-11-10 18:24:11 +08:00
    想问下,可以爬 各个信用卡的活动吗 ?
    golmic
        50
    golmic  
    OP
       2017-11-10 18:44:06 +08:00 via Android
    @YICHUJIFA 爬虫这东西呢,你首先人能获取到,人也看不到的数据那爬虫也没办法,要不然就是黑客了。所以如果你人能获取到的话那爬还是没问题的
    IamRobot
        51
    IamRobot  
       2017-11-10 18:55:39 +08:00 via Android
    比较好奇爬虫技术

    求问有没有技术 QQ 群或者微信群呢?
    golmic
        52
    golmic  
    OP
       2017-11-10 19:26:13 +08:00 via Android
    @IamRobot 有微信群,要加我微信才能拉你进去,扫码人满了
    hallomou
        53
    hallomou  
       2017-11-10 21:02:35 +08:00
    想请问一下楼主看看能否爬取 Phyllis2 ( https://www.ecn.nl/phyllis2/Browse/Standard/ECN-Phyllis#)的数据呢?
    这个数据库包含了各种燃料的属性数据,我想用这个数据来分析燃料的热值,谢谢。
    golmic
        54
    golmic  
    OP
       2017-11-10 21:03:38 +08:00 via Android
    @hallomou 你加我微信详细说一下需求好吧?我看了下应该不难
    tuzhis
        55
    tuzhis  
       2017-11-11 07:39:55 +08:00 via iPhone
    // TODO 爬取京东评论和图片再带点分析?
    一直没时间实现
    golmic
        56
    golmic  
    OP
       2017-11-11 12:29:10 +08:00 via Android
    @tuzhis 可以做,我最近就想做电商的抓取
    inmyfree
        57
    inmyfree  
       2017-11-11 12:58:56 +08:00
    问下楼主 1024 的数据怎么爬。。。。[:dogge]
    shendaowu
        58
    shendaowu  
       2017-11-11 20:09:04 08:00
    爬取知乎的收藏夹是否很难?我好像没见过知乎有收藏夹列表之类的东西,都是回答和收藏夹旁边推荐一些收藏夹。不加微信不给爬吗?加 QQ 行不行?还有能不能将结果可视化一下?或者尽量保持话题之间的结构,重复的表示一下。还有 wiki 的分类能不能可视化一下?我刚才好像找到能直接下载分类信息的地方了。这个: https://dumps.wikimedia.org/enwiki/20171020/enwiki-20171020-category.sql.gz
    mingyun
        59
    mingyun  
       2017-11-11 23:47:03 +08:00
    @golmic 网站打不开呢 js 都加载不了,北京联通
    smileghost
        60
    smileghost  
       2017-11-12 01:32:02 +08:00
    楼主加油,今晚的分享超极棒!
    djyzzc
        61
    djyzzc  
       2017-11-12 01:34:28 +08:00
    深夜听完讲座,来顶一发。
    cherrypi
        62
    cherrypi  
       2017-11-12 01:44:53 +08:00 via iPhone
    非常感谢分享,加油!
    moon9420
        63
    moon9420  
       2017-12-07 16:20:08 +08:00
    请问下爬取 Quora 和知乎区别大么?之前爬知乎的数据,按话题的精华回答爬取,在 Quora 里没看到类似的结构,请问该怎么做呢?或者有可以参考的爬虫么?
    golmic
        64
    golmic  
    OP
       2017-12-07 16:50:10 +08:00 via Android
    @moon9420 你是想抓取全站数据么?可以尝试启发式抓取。我没实践做过 Quora 的爬虫,不过启发式的思路可以试试。
    moon9420
        65
    moon9420  
       2017-12-09 19:31:06 +08:00
    @golmic 好的,感谢建议,我试试
    golmic
        66
    golmic  
    OP
       2017-12-11 20:27:13 +08:00 via Android
    @xiaoran666 看了一下你的回复看来是推广。说实话我真的不会用这种平台
    xiaoran666
        67
    xiaoran666  
       2017-12-12 18:17:48 +08:00
    仁者见仁智者见智!个人开发者自己写爬虫肯定有自己的乐趣,而用平台开发可以省去很多不必要的麻烦,让用户把精力聚焦于更重要的事情上。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     861 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 22:17 PVG 06:17 LAX 15:17 JFK 18:17
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86