selenium 天猫爬虫登陆 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
smallhaes
V2EX    Python

selenium 天猫爬虫登陆

  •  
  •   smallhaes 2019-07-02 11:10:54 +08:00 6010 次点击
    这是一个创建于 2295 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1.获取 cookies:
    使用 selenium 打开 chrome 访问天猫登陆界面,接着扫码登陆并保存 cookies,
    2.使用 cookies:
    再用 selenium 打开一个 chrome 访问天猫登陆界面,给 driver 添加刚才保存的 cookies,此时再访问某个商品界面时还会要求登陆
    这两步间隔比较短,cookies 应该没有过期
    求问,为什么 cookies 没有效果 /哭
    19 条回复    2019-07-06 23:05:09 +08:00
    cxbanana
        1
    cxbanana  
       2019-07-02 11:16:54 +08:00
    因为天猫对 selenium 有指纹信息识别,可以尝试捕获下天猫发送过来的 js 文件,修改检测代码,拦截替换下……
    youxiachai
        2
    youxiachai  
       2019-07-02 11:17:05 +08:00
    天猫的防爬很先进的.....
    你这个模型太简单了...一下下就被设别了..
    zr8657
        3
    zr8657  
       2019-07-02 11:17:44 +08:00
    天猫 cookie 很多的,你确定你添加全了吗,你都用 selenium 了直接登陆完开爬不行吗,一个账号爬个 5、6 页大概就会出验证了
    yaoye555
        4
    yaoye555  
       2019-07-02 11:23:15 +08:00
    selenium 已经被淘宝系产品防死了,目前暂时能解决的就是修改 window.navigator.webdriver
    hoyixi
        5
    hoyixi  
       2019-07-02 11:26:18 +08:00
    能请教下,爬这些电商爬来的数据,怎么变现?很好奇
    d5
        6
    d5  
       2019-07-02 11:32:10 +08:00   1
    可以考虑用测试框架来干这种事,比如在真机上用 airtest
    di1012
        7
    di1012  
       2019-07-02 11:41:28 +08:00
    @hoyixi 可以做国内代购
    misaka19000
        8
    misaka19000  
       2019-07-02 11:43:24 +08:00 via Android
    试下 puppeter
    di1012
        9
    di1012  
       2019-07-02 11:44:20 +08:00
    其实你要是想搞到淘宝商品的数据,还不如直接爬一些做代购的公司的网站,人家用的是接口,还稳定
    lusi1990
        10
    lusi1990  
       2019-07-02 11:48:56 +08:00
    换成 firefox, 或者使用 puppeteer 试试
    https://www.jianshu.com/p/afdabf486b54(然后参考这个)
    yanheqi
        11
    yanheqi  
       2019-07-02 15:23:24 +08:00
    如果要抓 cnbeta 这种网站,能做到吗?
    annielong
        12
    annielong  
       2019-07-02 15:34:51 +08:00
    天猫正常访问还时不时来个验证,
    smallhaes
        13
    smallhaes  
    OP
       2019-07-02 16:30:59 +08:00
    谢谢大家的回复, 果然用天猫作为练习太难了, /哭 没把握好难度. 实验室的师兄师姐推荐换个网站练习
    3 楼说的是 OK 的, 可以登录后直接开爬, 不方便的地方是得显示浏览器界面. 如果不显示浏览器界面的话, 登录这块也是个大难点, 所以我才想着用 cookie 跳过登录,同时不再显示浏览器界面
    同时也感谢其他小伙伴们提出的建议, 我会去尝试哒~
    再次感谢大家!!
    LicV587
        14
    LicV587  
       2019-07-02 16:32:34 +08:00
    selenium 这种东西,理所当然的会被淘宝系封,连我挂 VPN 访问都会被封。淘宝系现在的体验是越来越差,所以都不要淘宝天猫了
    limuyan44
        15
    limuyan44  
       2019-07-02 16:35:46 +08:00 via Android
    连正常访问都可能拦截何况是个爬虫入门都会写的 selenium。。。
    murmur
        16
    murmur  
       2019-07-02 16:39:40 +08:00
    我怀疑淘宝已经走火入魔,现在调试工具已经开始请求 webmidi 这种正常需求不可能用到的技术了,我怀疑是他在枚举当前浏览器支持的是所有技术,来判断你是正常的 chrome 还是在 headless 里
    2805408253
        17
    2805408253  
       2019-07-02 17:43:12 +08:00
    说白就是技术检测 加 行为规则验证。
    技术检测就不说了
    行为规则:比如正常人浏览一种商品的一页数据,最低也要超过 1 秒钟(极限啊 CAC )。你搞的爬虫一秒钟上百个页面,当然过不了。(行为规则库还是很强大的)
    Meli55a
        18
    Meli55a  
       2019-07-02 23:07:38 +08:00
    别说是爬虫,正常人点都会出现这种验证,搜索几下就让爷休息,疯了
    wongyusing
        19
    wongyusing  
       2019-07-06 23:05:09 +08:00
    selenium 基本上是没有办法爬取阿里系的网站的
    他们会检查你的浏览器的 webdriver 是否为 True。
    即使绕过了这个检测,还有各种各样的 js 行为检测
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5913 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 03:08 PVG 11:08 LAX 20:08 JFK 23:08
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86