pyppeteer 和 selenium 在 js 注入时候的表现为什么不一样? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
caneman
V2EX    Python

pyppeteer 和 selenium 在 js 注入时候的表现为什么不一样?

  •  
  •   caneman 2019-07-15 16:16:46 +08:00 2496 次点击
    这是一个创建于 2334 天前的主题,其中的信息可能已经有所发展或是发生改变。

    某个网站会对浏览器 navigator 的 webdriver 字段进行检测

    写了一段 js 来修改 webdriver 的值,如下

    Object.defineProperty(window.navigator, 'webdriver', {configurable:true}); 

    现在的问题是,这段 js 在 pyppeteer 中可以过检测,但是在 selenium 中不可以。

    经过测试大概有以下几种 case

    1. pyppeteer 中不注入 js,不过检测

    2. pyppeteer 中注入 js,过检测

    3. selenium 中注入 js 不过检测,但是控制台查看 webdriver 字段已被修改

    4. 在 selenium 中不刷新网页,控制台重新输入上述 js,不过检测

    5. 在 selenium 中刷新网页(手动),在控制台输入上述 js,过检测

    pyppeteer 代码如下

    async def main(): launch_kwargs = { "headless": False, } browser = await launch(launch_kwargs) page = await browser.newPage() # await page.goto("https://www.xxxx.com") await page.evaluate(pageFunction=""" Object.defineProperty(window.navigator, 'webdriver', {configurable:true}); """, force_expr=True) while True: time.sleep(1) 

    selenium 代码如下

    url = "https://www.xxxx.com" driver = webdriver.Chrome() driver.get(url) driver.execute_script(js) #driver.execute_async_script(js)(也不行) while True: time.sleep(1) 

    按理说,通过 case1、case2、case5 应该可以确定 webdrier 是过不过检测的关键字段,那么如果

    1. 网页加载完毕后,网页就已经完成了对 webdriver 字段的检测,那么 case 2、case 5 应该不过检测才对
    2. 如果网页是每次执行相关组件才去检测 webdriver 字段,那么 case3、case4 应该过检测才对

    pyppeteer 和 selenium 这俩在注入 js 的时候有什么不一样的地方吗?

    还有最让我迷惑的是 case4 和 case5 为什么结果不一样啊?

    2 条回复    2020-10-30 14:31:13 +08:00
    Loooom
        1
    Loooom  
       2019-07-15 16:50:44 +08:00
    4 和 5 效果应该是一样的吧,看掘金一篇文章这样说:当你执行 driver.get 的时候,浏览器会打开网站加载页面并运行网站自带的 js 代码。所以在你重设 window.navigator.webdriver 之前,实际上网站早就已经知道你是模拟浏览器了。另外顺便问下,为什么 selenium 无头模式不能用,要么报错要么好长时间响应
    qgb
        2
    qgb  
       2020-10-30 14:31:13 +08:00
    @Loooom pyppeteer 可以设置 page.evaluateOnNewDocument,只要这个标签没关闭 永久有效的,但
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2396 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 15:48 PVG 23:48 LAX 07:48 JFK 10:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86