
这不是一个数据从业者的基本素养?
1 bazingaterry 2017 年 11 月 18 日 via iPhone 术业有专攻,看需求 |
2 p2pCoder 2017 年 11 月 18 日 要看你要收集的数据的多少和爬取的网站的难度了 就像我 现在 再为一家大型 p2p 公司开发 征信相关的爬虫 核心就是登陆 然后 通过相关的安全验证,我们做了 京东 淘宝 电信 联通 移动 学信 征信 这些个人用户信息的爬取,都是需要 登陆,其中 暗坑也很多,最复杂的就是 猜 session 校验,cookie 还比较好搞,session 中的校验我在客户端就只能猜,请求 ,然后试错。前端的 js html 也必须懂,起码要能做 js 断点调试,特别是 对于 加密算法,不能一遇到加密就是 selenium,否则性能跟不上 然后就是爬虫本身要提供服务,就像 聚信立 等 数据提供商做的,其中 的 长连接 容错,如何保存,微服务也要考虑 这两个月 面试了二十来个人,满意的就一两个,很多 都满足不了我们的需求,特别是 基础不好,http 的理解就是个基础,对于 web 后端也没有了解,前端也不熟,基本也就入个门 |
3 ljcarsenal 2017 年 11 月 18 日 via Android @p2pCoder 阿里系这种大公司也能破? |
4 p2pCoder 2017 年 11 月 18 日 @ljcarsenal 登录就用 selenium,而且因为 ip 的问题,还需要再次验证短信验证码 只要拿到 cookie,后面的参数和 http 请求头不触发 内部的一些安全机制,比如 csrf css,还有一些 token 找准确了,都能行 京东和淘宝我们都这样做了,不过相当麻烦 反正就是要关注 http 请求 的每一个参数,以及 http 请求头的参数,做的时候 当然现在还有一种方法,不模拟登陆,直接在自家 app 内嵌 浏览器,让用户登陆,然后 拿 cookie |
6 p2pCoder 2017 年 11 月 18 日 @takanasi 开发之前首先找法务部门,现在这些 p2p 与现金贷公司都面对的是 次级用户,这些人 也不如 v 站上的程序员这么警觉 说到底,这些老板 还是想做自己的风控,做自己的数据 |
7 golmic 2017 年 11 月 18 日 @p2pCoder #6 我前几天尝试用模拟请求的方式过了淘宝的 js 加密,其他网站的模拟登录应该更不在话下了。如果其他网站有需求的话可以联系我。 |
8 codermagefox 2017 年 11 月 18 日 @p2pCoder 真阴险啊+1,不过我好像挺喜欢这种活是怎么回事,可惜自己太菜 |
9 hugee 2017 年 11 月 18 日 via Android 采简单的东西当然没问题,一看 lz 就是没遇到过有难度的 |
10 sunchen 2017 年 11 月 18 日 日常 30%时间写爬虫的路过。 想知道楼主破解过 APP 吗,写过分布式 Xposed hook 手机集群吗?自定义过爬虫专用的 android rom 吗?搭过代理集群吗?搞定过多少验证码? 其实我想说 sql 写的溜一般是爬虫工程师的基本素养。 |
11 sensui7 2017 年 11 月 18 日 有没有专门的岗位取决于工作量, 而不是技术. |
12 Lin3w 2017 年 11 月 18 日 via Android 大型分布式爬虫。。。 而且工作量是岗位分配的一个影响因素吧 |
13 gouchaoer 2017 年 11 月 18 日 via Android @sunchen 你说的这些要做下来是非常困难的,用 xposed hook 应用的 api 可以说是搞 app 的终极杀器,这套方案你们搞定了? |
15 defunct9 2017 年 11 月 18 日 via iPhone 感觉楼上都是作恶的人啊 |
18 artandlol 2017 年 11 月 18 日 via iPhone 防爬虫都可以再招个人 |
19 shyling 2017 年 11 月 18 日 表示被 4 个网站的爬虫天天折腾。。。讲真学爬虫不得学会 js 反混淆,各种调试,熟练 http 协议,反编 android, ios 程序,写段 cnn 识别验证码,做做分布式抓取? |
20 whatisnew 2017 年 11 月 18 日 开发还得招专门的开发工程师?产品运营客服两下就搞定了 |
21 SlipStupig 2017 年 11 月 19 日 Google 一定没有爬虫工程师,因为这个不是基本素养嘛 |
22 abcbuzhiming 2017 年 11 月 19 日 楼主你自己去看看最近的反爬,反反爬技术进步到什么程度了,这行我觉得难度已经追上搞安全和逆向的行业了,怎么会不需要专业工程师 |