
1 |
2 murmur 2021-05-27 10:32:04 +08:00 爬虫简单,反爬攻破难,需要经验,那都是别人吃饭的东西怎么可能随便分享给你,你上来就想挑战淘宝 |
5 herozzm 2021-05-27 10:55:12 +08:00 via Android 一来就调整高难题目,先爬爬小网站吧,无非就是验证码破解,ip 限制,前端加密等等 |
6 chennuo 2021-05-27 11:09:22 +08:00 真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人! |
7 Lemeng 2021-05-27 11:12:00 +08:00 淘宝是非常钢的。建议参考上面大神的建议 |
8 mschultz 2021-05-27 11:14:14 +08:00 via iPhone 阿里系的很多网页(淘宝、高德地图)正常人类正常浏览都有困难吧(休息会儿呗,坐下来喝口水,我们马上回来) |
9 palexu 2021-05-27 11:22:43 +08:00 一上来就挑战电商网站。。。 这种大电商都养着一整个专业反爬虫团队呢 |
10 Dockerfile 2021-05-27 11:26:34 +08:00 哪有一上来就用自动化测试的东西弄爬虫的? 建议先去看看 http 协议,python 的话先多用 urllib 和 requests 获取数据之后是清洗数据,看看 html 解析、xml 、正则 上面的用的差不多了,学习下爬虫框架,scrapy 、pyspider 再深入的话就是反反爬和大规模爬虫性能这块了,包括 js 反解、app 抓包、逆向。。 |
11 tuoov 2021-05-27 11:39:16 +08:00 《 Python 网络爬虫权威指南》算是比较系统的基础爬虫教程,不过现在高级点的爬虫基本上都靠逆向和抓包,更多是偏实践的东西 |
12 Numbcoder 2021-05-27 11:42:48 +08:00 爬虫写的好,牢饭吃到老 |
13 byte10 2021-05-27 11:49:37 +08:00 爬虫其实很简单的啦,如果高频的去爬就很难。你要先搞定账号,IP,这些搞定之后,去重写一个 开源的浏览器,然后把 GUI 那层 css 渲染去掉,基本就完美的爬了。 |
14 QUC062IzY3M1Y6dg 2021-05-27 11:49:40 +08:00 从入门到入牢 |
15 ysmood 2021-05-27 12:44:51 +08:00 via Android 只是个人使用的话看看我写的这个教程 https://go-rod.github.io/i18n/zh-CN/#/ |
16 imn1 2021-05-27 13:10:15 +8:00 没事,就三个步骤:抓页面,分析代码,保存(或下载文件) 只是 2 用 python 比较省心,多年以前用 php 就一个编码都弄得头疼 1/3 其实跟 python 没啥关系(哪个顺手都可以),我更多用 wget/aria2 以前爬过几千万张图片(累计),可能上亿,现在没啥动力爬了,另一方面是封闭了,有帐号都不给看,更别说没帐号了 最后,一开始就刷大厂,你真以为所见即所得啊,爬虫练手最好先找外面的,例如岛国(顺便学一下编码问题) |
18 imn1 2021-05-27 14:21:37 +08:00 @buffzty #17 我不知道你这么激动是为什么 我说的编码指的是,gbk/big5/shift-jis/enc-k/utf8 这些,不是写代码 php5.3 前在 windows 处理 unicode 是痛点,特别是非 ASCII 路径,5.3 后就没写过了,“多年前”指的是这个 我以前就是用 php4 写的爬虫扒了 mm.taoba_.com 几百万张图片和模特资料,不过没空整理,都送人了 我没任何歧视 php 的意思,我是因为发现 python 处理韩文 windows 路径很方便,才转过去的 |
19 zhengfan2016 2021-05-27 14:28:13 +08:00 上来就是搞淘宝,你当淘宝那些 985,211,硕士都是纸糊的吗。你觉得你一人能搞得过人家几万人的团队? |
20 x86 2021-05-27 14:48:15 +08:00 这是一上来就挑战最高难度的... |
21 tsuih 2021-05-27 15:01:49 +08:00 via Android 秒杀建议写浏览器插件跑 |
22 0044200420 2021-05-27 15:46:15 +08:00 爬虫写得好 牢饭吃得早 |
23 Yeen 2021-05-27 15:54:02 +08:00 爬虫主要就是在反抓取和反反抓取的轮回里醉生梦死 |
24 zjsxwc 2021-05-27 15:55:26 +08:00 爬大众点评试试 |
25 7075 2021-05-27 15:59:38 +08:00 爬虫这东西,如果做好了,来钱很快。但是做好很不容易。上帝是公平的。 |
26 lopetver 2021-05-27 16:01:29 +08:00 崔庆才的博客是个好地方 |
27 cctv6 2021-05-27 21:15:01 +08:00 爬虫说简单也简单,说难也难。简单的模拟接口请求数据就行了,难的就有一堆东西,JS 要熟悉、人机验证、代理调度、数据清洗储存、逆向,还有性能,这里哪一块都能深入。 |
28 godblessumilk 2021-05-28 02:06:06 +08:00 via Android 秒杀可以写浏览器油猴插件脚本啊,爬虫正面刚,估计不可 |
29 zror OP @godblessumilk 油猴我写了,但那个店铺的商品是不定时上架的,不是正常套路的秒杀。用油猴刷不出来商品上架了 |
30 zone10 2021-05-28 14:24:45 +08:00 爬虫学点简单的确实有意思, 爬爬盗版小说, 小电影之类的. 如果是全职的话我是来劝退的, 一来容易入狱不说, 二来和反爬的不断内卷死磕, 相互加大对方的工作难度, 想想何必呢, 程序员何苦为难程序员 |
31 ritaswc 2021-05-28 17:36:35 +08:00 真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人! |
32 DeWjjj PRO 反扒其实是个体力活,每次要解决不同程度的数据欺骗和数据混淆。 |
33 ch2 2021-05-29 09:47:57 +08:00 爬虫最难的就是反制,反制没有系统的学习方法,你必须至少达到跟对面同等的技术水平才能有效解决对方的反制,但是你那么牛逼的话干啥都比干爬虫强 |