
JAVA 爬虫 WebCollector 2.x 入门教程基本概念
摘要:
WebCollector是一个无须配置、便于二次开发的 JAVA 爬虫框架(内核),它提供精简的的 API ,只需少量代码即可实现一个功能强大的爬虫。 WebCollector-Hadoop 是 WebCollector 的 Hadoop 版本,支持分布式爬取。
1 ca1123 2015-12-25 12:30:03 +08:00 你写的? |
3 SparkMan 2015-12-25 13:07:25 +08:00 爬虫的关键(或者难点)是如何不被封 IP ,至于怎么抓取页面 httpclient 跟其他组件都差不多 |
4 lx19930805 2015-12-25 18:23:42 +08:00 @SparkMan 恩恩.然后呢?如何不被封 IP? 被封 IP 是因为多次大量的访问某个域名的网址吧,刚接触是这么理解的 |
5 geekboy 2015-12-25 20:05:16 +08:00 最近研究的是爬虫的增量更新问题~用的 webmagic 框架! |
6 briefcopy OP @SparkMan 爬虫的关键,是爬取允许爬取的数据,有效利用。比如搜索引擎还是要遵守 robots.txt 的。反爬就是网站不想让你爬,用随机高匿代理之类的解决反爬技术很成熟,但是有点抢劫的性质。 |
9 ooTwToo 2015-12-28 16:56:37 +08:00 头像有点像汪峰。 |