![]() | 1 wc110302 OP https://i.loli.net/2018/09/27/5bac44a20e9c0.png 这是一直关于 distil networks 的 fiddler 跟踪图片 p 参数记录的是浏览器指纹 我现在多次使用这个 p 参数 是能拿到返回值的 但是这个返回值拿不到正确的数据 |
![]() | 3 nooper 2018-09-27 13:23:59 +08:00 via iPad Webdriver hub |
4 exip 2018-09-27 13:34:51 +08:00 via Android 是不漏了哪个参数。祝你好运。 |
![]() | 5 wc110302 OP @ericgui 是挺费劲的 啥都要学一点 js 要学 接口要会做 app 端 wechat 端 pc 端得会抓包 偶尔还得做个 GUI 什么的 |
6 vegetta 2018-09-27 13:42:36 +08:00 selenium 试下? 虽然效率不高 |
![]() | 8 wc110302 OP @exip 参数应该没有遗漏 我在使用某一个 ip 拿到所有 cookie 之后 如果我使用这个 ip 真实地用浏览器访问了该网站 那么我之前拿到的那个 cookie 就能使用一段时间 具体原理我也不太明白 也许是他们记录在了服务器上 |
![]() | 10 huaerxiela 2018-09-27 14:04:45 +08:00 企鹅 base64:MTk3NDMwNDU5OA== |
![]() | 11 dapengzhao 2018-09-27 14:09:18 +08:00 请问是什么网站方便说下吗? |
![]() | 12 qwertty01 2018-09-27 14:12:23 +08:00 这没办法。除了使用动态浏览器,就是得分析网站的 JS 了。 |
![]() | 13 richieboy 2018-09-27 14:27:34 +08:00 cookies 是 js 动态生成的,你光复制不行吧 |
14 onexpiece 2018-09-27 14:33:52 +08:00 请问什么网站方便说下? |
![]() | 15 ctro15547 2018-09-27 14:34:45 +08:00 用 selenium 生产 cookie 存着,爬虫去拿 cookie,超时或者超次数就换一个,这样多线程几个 seleniumdriver 来生产的 cookie,效率应该比只用 selenium 好不少 |
![]() | 16 wc110302 OP @richieboy cookie 是动态生成的没错 我用相同的 P 参数每次从 response headers 里面拿到的 cookie 都不一样 然后我将这些 cookie 拼接之后和正常生成的 cookie 对比了一下 是一模一样的 但是用这个 cookie 就无法拿到数据 而真实的 cookie 就可以 并且有趣的是 我如果用该 ip 去真实访问了这个网站 这个 cookie (我自己 requests 伪造生成的)也可以用了 |
17 jtwor 2018-09-27 15:38:39 +08:00 meituan 好像也是这样 cookie 还好弄 只是 5 分钟后触发防爬虫的原因不太确定 奥塞头:( |
![]() | 18 nooper 2018-09-27 15:44:42 +08:00 via Android 加我 qq 收费解决,3655 o4o29 |
19 handan 2018-09-27 16:14:39 +08:00 问一下 ,是哪个网站?? |
![]() | 20 yy461530593 2018-09-27 17:41:24 +08:00 先用浏览器正常请求操作,抓包看请求过程,模拟这个请求过程,如果浏览器操作也是会更新 cookies,那代码上也只能跟着更新 |
![]() | 21 wc110302 OP |
![]() | 22 valord577 2018-09-27 18:09:47 +08:00 我这里有个思路 selenium + headless chrome 每 3 分钟打开网页 从 chrome 拿到 cookie https://github.com/valord577/taobaoke 这个虽然是用 java 写的 但是封装 selenium 的思路 python 也是通用的 |
![]() | 23 wc110302 OP @valord577 感谢分享。 但是 selenium 效率确实是太低了 并且消耗资源较多 抓取数据的量又比较大 单一个 cookie 只能使用 4-5 次 所以暂时不考虑走 selenium 实在不行的话就只能走 app 端了 |
![]() | 24 xiaozizayang 2018-09-28 09:20:20 +08:00 试试这个? pyppeteer |
![]() | 25 wc110302 OP @xiaozizayang 尝试了一下--! 会被反爬虫识别 出现验证码 Pardon Our Interruption ['//cdn.distilnetworks.com/images/anomaly-detected.png'] |
![]() | 26 angkee 2018-10-07 10:26:56 +08:00 老哥,我也遇到了这个问题,能不能加个微信聊下 |
![]() | 28 locoz 2018-10-08 12:24:30 +08:00 试试 APP ? |
30 stephen2018 2018-10-16 22:53:14 +08:00 via Android 我最近遇到用 selenium 被网站识别出来,我设置了 useragent,加了代理,依然被识别出来,有点头疼,可以交流下吗 |
![]() | 31 wc110302 OP ![]() @stephen2018 可以尝试下 pyqt |
32 RAKU318 2018-11-28 14:21:48 +08:00 想问下题主搞定了吗? |
34 lzh414895156 2019-01-02 20:30:39 +08:00 @wc110302 请问题主现在还可以抓到数据吗?可以加个微信交流下吗? |
![]() | 35 wc110302 OP @lzh414895156 留下你的联系方式咯 |
36 lzh414895156 2019-01-03 09:43:57 +08:00 @wc110302 qq414895156 |
37 luzhizheng 2019-12-06 18:34:46 +08:00 楼主加我 QQ!,我也遇到这个问题啦!! bs64:OTkzMjgyMTM4 |
38 luzhizheng 2019-12-21 13:57:07 +08:00 这楼主是一个搞外包的,大家不要给骗了,加了 QQ 以后一直在忽悠,没两句就开始装逼,然后要我搞外包. 技术问题一个都不回答,问什么都说很简单自己搞,要不然就找我外包,真是没见过这种人,一点想探讨的精神都没有,还跟我装起逼来,说多了就开始骂我菜鸡,菜鸟,真的是给点阳光就灿烂,懂一点就开始装逼,你爸妈没有教过你做人的道理吗?真是悲哀 |