
1 lewisc402 OP 假设我想访问 a.html,结果服务器会重定向到 redirect.html?url=a.html,而redirect.html中是一些Javascript代码,用来写cookie,那么我该怎么办才能访问到原网页呢? 求思路??? |
4 DearMark 2013-08-08 17:03:29 +08:00 我也表示非常关注! |
6 pubby 2013-08-08 17:10:30 +08:00 分析出来然后在爬虫中模拟 |
7 pandada8 2013-08-08 18:11:34 +08:00 如果客户端的js用了某种算法的生成数据可以考虑在脚本中模拟一下算法,生成数据 或者直接使用 Headless 的框架 Zombie.js,Ghost.py,或者直接操作 selenium …… |
9 pandada8 2013-08-08 18:30:27 +08:00 参见 http://obmem.info/?p=848 别人写的…… |
11 RelativeLayout 2013-08-08 18:38:06 +08:00 casperjs 或者 phantomjs |
13 yuan 2013-08-08 19:33:46 +08:00 使用现有的cookie: Chrome 的 cookietxt-export 扩展( https://chrome.google.com/webstore/detail/cookietxt-export/lopabhfecdfhgogdbojmaicoicjekelh )可以将cookie导出为 wget 可识别的格式。安装好该插件后,登录需要抓取的网站,点击插件按钮,就可以导出为 Netscape 的 cookies.txt 格式。 如果使用 Ruby ,可以用 agent = Mechanize.new agent.cookie_jar.load(cookies_txt_file, :cookiestxt) Python 应该有类似的工具吧 |