爬取 x 宝的商品信息,休息一下弹窗怎么解决? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
iscurry
V2EX    Python

爬取 x 宝的商品信息,休息一下弹窗怎么解决?

  •  1
     
  •   iscurry 2021-02-27 08:45:32 +08:00 9268 次点击
    这是一个创建于 1688 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求: 根据商品 sku 获取商品的 一些属性和评论

    目前: 使用 python 的 selenium 模拟登录,然后通过 request 请求重定向,xpath 分析数据

    问题: 每一次 request 后睡眠 1s,但是发送 20 次后就会出现休息一下的界面,即使手动划过去也不行, 有没有什么好的办法?或者其他的方法?

    49 条回复    2021-03-04 08:45:10 +08:00
    kaiki
        1
    kaiki  
       2021-02-27 08:57:50 +08:00   47
    网页版正常浏览都很困难,你还想爬它
    wangxinpier
        2
    wangxinpier  
       2021-02-27 09:00:24 +08:00
    随机休息时间
    uiuy
        3
    uiuy  
       2021-02-27 09:20:21 +08:00 via Android
    抓 app 吧,web 人工都难用
    murmur
        4
    murmur  
       2021-02-27 09:38:32 +08:00
    你这速度就是比正常人快啊,1 秒看一页是不是以为淘宝的风控是傻子
    love
        5
    love  
       2021-02-27 09:46:07 +08:00
    我看不行,我正常浏览只要超几分钟都会出现,且划不过去,那个验证就是个摆设,划了没有一点鸟用
    invalid522
        6
    invalid522  
       2021-02-27 09:56:36 +08:00 via Android   1
    某宝以至阿里系的反爬都是出了名的恶心,如果脸黑的话,连用 app 都会被强制休息一下
    lawler
        7
    lawler  
       2021-02-27 11:52:20 +08:00
    x 宝采集一定要做分布式,刷新间隔 60s 以上。
    Smash
        8
    Smash  
       2021-02-27 12:41:39 +08:00
    我正常刷网页都要弹,你还想爬??
    westoy
        9
    westoy  
       2021-02-27 12:51:48 +08:00
    淘客 API,一方和三方都行


    @xihefeng
    app 现在多浏览几页也要登录, 登录之后频繁访问也会触发验证, 有时候验证码锁是锁全平台的, 包括高德、阿里妈妈....... 一样绕不过的
    imgbed
        10
    imgbed  
       2021-02-27 13:08:22 +08:00 via Android
    换 ip 了吗
    OHyn
        11
    OHyn  
       2021-02-27 13:11:39 +08:00
    正常使用都困难的东西。。。
    Dvel
        12
    Dvel  
       2021-02-27 13:12:55 +08:00
    Web 上高德地图也老弹这个。。。
    wqzjk393
        13
    wqzjk393  
       2021-02-27 13:13:23 +08:00 via iPhone
    模拟点击吧
    alexbigbigworld
        14
    alexbigbigworld  
       2021-02-27 13:36:06 +08:00 via iPhone
    我自己店铺是在应用市场买的接口做的退货管理之类,你要是采集别人的话估计不好弄,彩多了直接给你 404
    systemcall
        15
    systemcall  
       2021-02-27 14:15:13 +08:00
    没救了的东西,你正常浏览,只要不下单,要不了半个小时就会卡弹窗,没办法跳过的那种
    感觉是只要看了 20 个商品左右就会开始弹,谁让你只看不买的?
    dbow
        16
    dbow  
       2021-02-27 15:41:08 +08:00
    淘宝风控非常严格,我以前买东西搜索一下都会让拖滑块,现在不上淘宝了, 基本在京东买。
    leega0
        17
    leega0  
       2021-02-27 15:43:55 +08:00
    正常搞快了都休息,你还机器人爬。。。分布式吧
    yaoye555
        18
    yaoye555  
       2021-02-27 16:00:28 +08:00
    淘宝 web 就不是给人用的玩意
    yaapoo
        19
    yaapoo  
       2021-02-27 17:26:08 +08:00
    time.sleep()
    annielong
        20
    annielong  
       2021-02-27 18:57:41 +08:00
    正常访问都弹窗
    Thymolblue
        21
    Thymolblue  
       2021-02-27 19:04:54 +08:00
    想请教一下使用 selenium chrome drive 有没有什么办法在后台输入 hotkeys 而不受桌面窗口影响
    applehater
        22
    applehater  
       2021-02-27 19:33:56 +08:00 via Android
    小新破坏计算机信息的名头
    linuxcat
        23
    linuxcat  
       2021-02-27 19:34:55 +08:00
    tb 连正常访问都拦,更别说爬虫了
    zictos
        24
    zictos  
       2021-02-27 19:38:48 +08:00
    动态 ip vps + 切换 UA + 切换浏览器指纹 + 隐身模式或者清除浏览器缓存和 cookies
    lmmortal
        25
    lmmortal  
       2021-02-27 19:46:13 +08:00 via iPhone
    @Dvel 因为这个原因 web 端我换百度了

    @love 我也多次遇见,画到头了全绿然后说出现问题让刷新重滑 滑完下边是两个绿条,还是不让进页面
    westerndream
        26
    westerndream  
       2021-02-27 20:48:38 +08:00
    正常浏览都出现休息一下怎么解决
    thursday
        27
    thursday  
       2021-02-27 20:52:45 +08:00
    @alexbigbigworld 你用的是哪个 应用了。我也有类似需求
    jousca
        28
    jousca  
       2021-02-27 21:08:06 +08:00   1
    正常浏览在上面找东西都会弹出验证滑块,还别说你搞爬虫。

    垃圾网站早晚要挂。
    meinjoy
        29
    meinjoy  
       2021-02-27 22:11:05 +08:00 via iPhone
    @alexbigbigworld 请问在哪能卖?
    alexbigbigworld
        30
    alexbigbigworld  
       2021-02-27 22:27:23 +08:00 via iPhone
    @meinjoy 服务市场里找集市宝
    muzuiget
        31
    muzuiget  
       2021-02-28 01:23:51 +08:00
    正常浏览都会弹,有时候货比三家确实会频繁刷新同一页,都会弹,垃圾。
    zckevin
        32
    zckevin  
       2021-02-28 09:03:27 +08:00
    iscurry
        33
    iscurry  
    OP
       2021-02-28 11:26:32 +08:00
    @zckevin 请问这个该怎么用?
    iscurry
        34
    iscurry  
    OP
       2021-02-28 11:26:54 +08:00
    @leega0 分布式的目的是什么?
    iscurry
        35
    iscurry  
    OP
       2021-02-28 11:27:21 +08:00
    @zictos selenium 怎样弄动态 ip
    zictos
        36
    zictos  
       2021-02-28 12:13:00 +08:00
    @iscurry #35 动态 vps 可以通过通过程序自动切换系统 ip 的,windows 系统可以通过 cmd 命令( python 通过 os.system()调用)。系统 ip 变了,selenium 自然也变 ip 了。可以在 python 中每隔指定时间切换一下 ip,
    rf99wSiT6IxH1Z23
        37
    rf99wSiT6IxH1Z23  
       2021-02-28 13:48:38 +08:00
    web 的反爬太厉害了,可以考虑下 app 的吧
    inwar
        38
    inwar  
       2021-02-28 14:25:36 +08:00 via Android
    人用都几次弹一次窗。。
    newmlp
        39
    newmlp  
       2021-02-28 14:58:19 +08:00
    正常人谁会准时 1S 刷一次这么准,淘宝风控又不是傻逼
    Rache1
        40
    Rache1  
       2021-02-28 16:20:46 +08:00
    我觉得淘宝最狗的就是,不登录都不能搜索。。。
    Lemeng
        41
    Lemeng  
       2021-02-28 17:28:32 +08:00
    淘宝以前被爬的太多了吧,有时候正常看都会出来,不知道怎么个算法
    不过加点时间,总不会错。相对会少点
    RiESA
        42
    RiESA  
       2021-02-28 17:28:48 +08:00
    收购阿里
    iscurry
        43
    iscurry  
    OP
       2021-02-28 17:45:11 +08:00
    @xihefeng 怎么抓,可以更加详细的说吗?我对这个并不熟悉
    iscurry
        44
    iscurry  
    OP
       2021-02-28 17:45:33 +08:00
    @xihefeng 也可以有偿学习
    iscurry
        45
    iscurry  
    OP
       2021-02-28 17:50:04 +08:00
    @imgbed 每个 ip 能用几十次
    iscurry
        46
    iscurry  
    OP
       2021-02-28 17:51:49 +08:00
    @lawler 分布式的目的是什么呢?
    z5e56
        47
    z5e56  
       2021-02-28 22:03:18 +08:00
    淘宝的员工满意地笑了并关闭了本标签页
    imgbed
        48
    imgbed  
       2021-03-01 11:52:23 +08:00
    @iscurry 那要有足够的 IP 才行
    uiuy
        49
    uiuy  
       2021-03-04 08:45:10 +08:00
    @iscurry 我见到的是破解 app 端特定参数,例如 https://github.com/xzh0723/Taobao,然后使用代理 ip 等方式搞的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2734 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 12:12 PVG 20:12 LAX 05:12 JFK 08:12
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86