[外包] [知乎爬虫] 爬若干个用户的知乎回答和文章数据 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
外包信息请发到 /go/outsourcing 节点。
不要把相同的信息发到不同的节点
hexor
V2EX    酷工作

[外包] [知乎爬虫] 爬若干个用户的知乎回答和文章数据

  •  
  •   hexor 2020 年 4 月 4 日 4487 次点击
    这是一个创建于 2115 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求

    爬取若干个指定知乎用户的所有的回答(某些用户的回答可能超过 2000 条)和所有文章内容并重新加工处理后保存。

    回答

    爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。

    文章

    爬取这个文章的"标题"和"正文"内容。

    格式

    “问题”和"标题"是普通文本即可。

    “答案”和"正文"需要是 html 格式,即这一段内容要可以直接插入到网页代码中并能正常显示。

    其他内容

    图片

    答案”和"正文"中的图片需要被下载,然后以新的地址重新插入到正文中,不需要去水印。

    对于“答案”和"正文"中的图片链接,需要下载该图片并重新命名然后保存到文件夹中,然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png, 确保图片能够在正文中被正确显示。

    超链接

    直接保留即可

    备注

    • 不限制爬虫的技术实现。
    • 只需要最后的爬到的结果,不需要爬虫的代码。
    • 最后的结果需要保存成 csv 或者 excel 或者 PHP 数组的格式交付。

    价格

    500 人民币

    时间

    1 周以内

    联系 wx

    hexor_

    21 条回复    2020-04-06 16:08:12 +08:00
    hhhfffhhh
        1
    hhhfffhhh  
       2020 年 4 月 4 日 via iPhone   1
    少打一个 0
    aWangami
        2
    aWangami  
       2020 年 4 月 4 日 via Android
    7 天除 500 相当于每天 80 都不到,这价格相当公道呀
    jugelizi
        3
    jugelizi  
       2020 年 4 月 4 日
    来羞辱的?
    楼下怎么说
    murmur
        4
    murmur  
       2020 年 4 月 4 日
    500 快钱拿到知乎的核心数据?若干后面没括号呢,没写某若干可能超过几万人
    limuyan44
        5
    limuyan44  
       2020 年 4 月 4 日
    鬼鬼,这工作量也太小了,楼下上。
    tojonozomi
        6
    tojonozomi  
       2020 年 4 月 4 日
    @hhhfffhhh 多一个 0 都不一定有人干吧
    wsz66
        7
    wsz66  
       2020 年 4 月 4 日 via Android
    赚大了,让给楼下了
    0xABCD
        8
    0xABCD  
       2020 年 4 月 4 日 via Android
    500,高薪啊
    fengfuliu
        9
    fengfuliu  
       2020 年 4 月 4 日
    知乎是拒绝蜘蛛协议的 爬的话很有可能违法
    ZeoKarl
        10
    ZeoKarl  
       2020 年 4 月 4 日 via iPhone
    空手套爬虫?
    fhsan
        11
    fhsan  
       2020 年 4 月 4 日
    这种网上一大把,自己找找改改就有

    比如什么抖音直播打赏时时统计,就算有,小心坐牢
    superrichman
        12
    superrichman  
       2020 年 4 月 4 日 via iPhone   1
    这中间商赚了多少差价?
    DJI360
        13
    DJI360  
       2020 年 4 月 4 日
    价格不清楚,不过你这个需求感觉不像正经事
    airqj
        14
    airqj  
       2020 年 4 月 4 日 via Android
    哈哈 四年前的问答数据楼主要吗
    DeWhite
        15
    DeWhite  
       2020 年 4 月 4 日
    若干是多少呀,就算写完了能爬的量也有可能超过若干。
    还得优化,500 快太多就不好爬了得改。
    hexor
        16
    hexor  
    OP
       2020 年 4 月 4 日
    工作已经完成,顺便回答以上问题。

    我爬的号都是公司自己的号( 10 个左右),现在想把这些号回答的内容保存下来放到我们自己公司的网站上,只是有几千个回答,知乎又不支持数据导出所以我只能这样。

    我开这个价也不是想请人来写代码,因为我知道有很多人在爬知乎的数据,所以我只是找人顺便用他已经做好的工具帮我爬一下而已。
    所以 500 这个价格,就是 2 个小时工作量左右,工作量主要是在跟我沟通而不是实现技术细节。

    这个外包已经做完了,工作时间也就 1 个小时左右。
    jayli517
        17
    jayli517  
       2020 年 4 月 5 日
    嗯,只要是有现成知乎爬虫的,提供一下数据就可以了。我这有现成爬虫团队的,感觉以后也可以接点小活给兄弟们增加点外快
    hsluoyz
        18
    hsluoyz  
    PRO
       2020 年 4 月 5 日
    知乎没有反爬措施么
    changwei
        19
    changwei  
       2020 年 4 月 5 日
    这网站里面就有知乎的员工,你这价格不怕人家员工直接加 vx 来找你聊天,然后发聊天记录给知乎公司的法务看?
    TimeRain
        20
    TimeRain  
       2020 年 4 月 5 日
    吃牢饭警告
    efaun
        21
    efaun  
       2020 年 4 月 6 日
    没有法律直接规定爬虫违法吧?我看到的案例,都是拿爬的数据盈利或者对主站造成了干扰才判刑的,现在有新规定了吗?
    @changwei #19
    @TimeRain #20
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2751 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 229ms UTC 08:19 PVG 16:19 LAX 00:19 JFK 03:19
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86