理论上爬虫能爬取到所有我们看到的页面吗?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 4347 天前的主题，其中的信息可能已经有所发展或是发生改变。

如果每次浏览器和服务器的通信都有一个token，而我们又无法看懂到底是什么，那么我们的爬虫是不是就无法爬取页面信息了啊?

11 条回复 2014-04-29 10:18:33 +08:00

Esay

2014 年 4 月 2 日

是的。
抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。

asing

2014 年 4 月 2 日

lz的问题可以这样理解不

如果一个网站的管理后台路径是example.com/ksdks31
这样爬虫也抓取不到吧

这样只需书签下地址就可以，也不用做ip访问限制等策略了.

jsonline

2014 年 4 月 2 日 via Android

天天有人研究爬虫

binux

2014 年 4 月 2 日

我们看到页面是一个获得信息，消除信息不确定性的过程，爬虫也是

dorentus

2014 年 4 月 2 日

理论上么，爬虫和浏览器一样都是 user agent，自然能做的东西都是一样的……

cxh116

2014 年 4 月 2 日

像某些小说站,内容都生成图片了,这个应该是无法索引

msg7086

2014 年 4 月 2 日

@asing 说不定就有浏览器连书签也爬虫给你看

xh1994

2014 年 4 月 3 日

不能！那些通过 ajax 加载内容的页面你怎么爬？而且现在这样的页面越来越多了！

mengli

2014 年 4 月 3 日 via Android

@cxh116 弄个orc文字识别如何？你总不可能把文章加工的很验证码一样。

cxh116

2014 年 4 月 6 日

@mengli ocr的话,不同的站用不同的字体,而且还有很多站加了背景图之类的

通用的蜘蛛实现是比较难,针对每个站写定向蜘蛛肯定是没有问题

zoosucker

2014 年 4 月 29 日

@xh1994 我用selenium + Python做的一个爬虫，类似自己一个一个点击，这样就可以搞定Ajax的了。