![]() | 1 Esay 2014-04-02 14:17:58 +08:00 ![]() 是的。 抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。 |
![]() | 2 asing 2014-04-02 14:24:30 +08:00 |
3 jsonline 2014-04-02 14:25:09 +08:00 via Android 天天有人研究爬虫 |
![]() | 4 binux 2014-04-02 14:31:40 +08:00 我们看到页面是一个获得信息,消除信息不确定性的过程,爬虫也是 |
![]() | 5 dorentus 2014-04-02 15:46:59 +08:00 理论上么,爬虫和浏览器一样都是 user agent,自然能做的东西都是一样的…… |
![]() | 6 cxh116 2014-04-02 15:49:03 +08:00 像某些小说站,内容都生成图片了,这个应该是无法索引 |
![]() | 8 xh1994 2014-04-03 00:13:21 +08:00 不能!那些通过 ajax 加载内容的页面你怎么爬?而且现在这样的页面越来越多了! |
![]() | 10 cxh116 2014-04-06 19:38:38 +08:00 |