
爬取若干个指定知乎用户的所有的回答(某些用户的回答可能超过 2000 条)和所有文章内容并重新加工处理后保存。
爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。
爬取这个文章的"标题"和"正文"内容。
“问题”和"标题"是普通文本即可。
“答案”和"正文"需要是 html 格式,即这一段内容要可以直接插入到网页代码中并能正常显示。
答案”和"正文"中的图片需要被下载,然后以新的地址重新插入到正文中,不需要去水印。
对于“答案”和"正文"中的图片链接,需要下载该图片并重新命名然后保存到文件夹中,然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png, 确保图片能够在正文中被正确显示。
直接保留即可
500 人民币
1 周以内
hexor_
1 hhhfffhhh 2020 年 4 月 4 日 via iPhone 少打一个 0 |
2 aWangami 2020 年 4 月 4 日 via Android 7 天除 500 相当于每天 80 都不到,这价格相当公道呀 |
3 jugelizi 2020 年 4 月 4 日 来羞辱的? 楼下怎么说 |
4 murmur 2020 年 4 月 4 日 500 快钱拿到知乎的核心数据?若干后面没括号呢,没写某若干可能超过几万人 |
5 limuyan44 2020 年 4 月 4 日 鬼鬼,这工作量也太小了,楼下上。 |
6 tojonozomi 2020 年 4 月 4 日 @hhhfffhhh 多一个 0 都不一定有人干吧 |
7 wsz66 2020 年 4 月 4 日 via Android 赚大了,让给楼下了 |
8 0xABCD 2020 年 4 月 4 日 via Android 500,高薪啊 |
9 fengfuliu 2020 年 4 月 4 日 知乎是拒绝蜘蛛协议的 爬的话很有可能违法 |
10 ZeoKarl 2020 年 4 月 4 日 via iPhone 空手套爬虫? |
11 fhsan 2020 年 4 月 4 日 这种网上一大把,自己找找改改就有 比如什么抖音直播打赏时时统计,就算有,小心坐牢 |
12 superrichman 2020 年 4 月 4 日 via iPhone 这中间商赚了多少差价? |
13 DJI360 2020 年 4 月 4 日 价格不清楚,不过你这个需求感觉不像正经事 |
14 airqj 2020 年 4 月 4 日 via Android 哈哈 四年前的问答数据楼主要吗 |
15 DeWhite 2020 年 4 月 4 日 若干是多少呀,就算写完了能爬的量也有可能超过若干。 还得优化,500 快太多就不好爬了得改。 |
16 hexor OP 工作已经完成,顺便回答以上问题。 我爬的号都是公司自己的号( 10 个左右),现在想把这些号回答的内容保存下来放到我们自己公司的网站上,只是有几千个回答,知乎又不支持数据导出所以我只能这样。 我开这个价也不是想请人来写代码,因为我知道有很多人在爬知乎的数据,所以我只是找人顺便用他已经做好的工具帮我爬一下而已。 所以 500 这个价格,就是 2 个小时工作量左右,工作量主要是在跟我沟通而不是实现技术细节。 这个外包已经做完了,工作时间也就 1 个小时左右。 |
17 jayli517 2020 年 4 月 5 日 嗯,只要是有现成知乎爬虫的,提供一下数据就可以了。我这有现成爬虫团队的,感觉以后也可以接点小活给兄弟们增加点外快 |
18 hsluoyz PRO 知乎没有反爬措施么 |
19 changwei 2020 年 4 月 5 日 这网站里面就有知乎的员工,你这价格不怕人家员工直接加 vx 来找你聊天,然后发聊天记录给知乎公司的法务看? |
20 TimeRain 2020 年 4 月 5 日 吃牢饭警告 |