Java jsoup 写爬虫如何执行 js 文件 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
dushandz
V2EX    云计算

Java jsoup 写爬虫如何执行 js 文件

  •  
  •   dushandz 2017 年 11 月 8 日 9470 次点击
    这是一个创建于 2999 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题,如何获取爬到的 html 中 script 标签下的 js 文件,能不能加载执行然后调用方法
    17 条回复    2017-11-08 20:11:57 +08:00
    p2pCoder
        1
    p2pCoder  
       2017 年 11 月 8 日   1
    script 标签下的肯定就是个 url,你直接 请求 url 就可以了
    jsuop 是 html 解析库,和 js 没多大关系,
    你要用 java 执行 js 函数可以直接用相关库,jdk 中就有 ScriptEngine 这个类,可以解析执行 js
    denghb
        2
    denghb  
       2017 年 11 月 8 日
    HtmlUnit
    qqpkat2
        3
    qqpkat2  
       2017 年 11 月 8 日
    jsoup 无法执行 js
    有些 js 用 ScriptEngine 也是无法执行的,比如 window 方法
    HtmlUnit 太慢,而且复杂 js 也执行不了
    那么用什么呢,我就不告诉你
    Xiaobaixiao
        4
    Xiaobaixiao  
       2017 年 11 月 8 日
    Selenium
    stanjia
        5
    stanjia  
       2017 年 11 月 8 日
    期待答案,我也想知道
    stanjia
        6
    stanjia  
       2017 年 11 月 8 日
    @Xiaobaixiao 刚看了下, 这个应该是最好的方案吧?
    p2pCoder
        7
    p2pCoder  
       2017 年 11 月 8 日
    window 是浏览器对象,肯定不能执行
    一般爬虫 中用到的的 js 函数都是加密函数和解析函数,如果中间引入了外部库,也要把外部库加进去
    python 的话 我用 execjs
    DRcoding
        8
    DRcoding  
       2017 年 11 月 8 日   2
    java 有 js 的引擎的,Nashron。
    MrXiong
        9
    MrXiong  
       2017 年 11 月 8 日
    楼上正解
    paragon
        10
    paragon  
       2017 年 11 月 8 日
    你可以弄个 V8 把 js 传过去执行完把结果再传回来啊
    mooncakejs
        11
    mooncakejs  
       2017 年 11 月 8 日
    直接用 js 写爬虫的路过
    ooTwToo
        12
    ooTwToo  
       2017 年 11 月 8 日
    @qqpkat2 那你很棒啊
    wwwvvvvvvvvvv
        13
    wwwvvvvvvvvvv  
       2017 年 11 月 8 日
    Selenium
    sodarfish
        14
    sodarfish  
       2017 年 11 月 8 日
    当然是用 phantomjs
    LukeChien     15
    LukeChien  
       2017 年 11 月 8 日   1
    Java 8 的 nashorn 引擎很好用,但是执行的时候一些浏览器对象需要你手工创建,比如 window
    kaneg
        16
    kaneg  
       2017 年 11 月 8 日 via iPhone
    不知道 headless chrome 能不能满足你的需求
    ztmark
        17
    ztmark  
       2017 年 11 月 8 日
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2822 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 13:01 PVG 21:01 LAX 05:01 JFK 08:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86