最近正在学爬虫，主要用来抓取门户网站的评论，选用 Python 语言。有没有大神给点好的资料，或者一个好的指导方向。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

这是一个创建于 4080 天前的主题，其中的信息可能已经有所发展或是发生改变。

爬虫

抓取

Python

16 条回复 2014-10-05 18:24:36 +08:00

mrytsr

2014-10-04 19:09:44 +08:00 via Android

Scrapy

mhycy

2014-10-04 19:17:18 +08:00

手写....
Requests + re + threading + logging
各种爽~

PS.其实是觉得框架太不灵活了

paulw54jrn

2014-10-04 20:22:04 +08:00

不是很复杂就是楼上说的
requests + re + threading/greenlets

或者是楼上上说的
Scrapy..

ShiehShieh

2014-10-04 20:37:56 +08:00

有没有什么好点的材料能学习嘛？ 0.0

binux

2014-10-04 20:42:33 +08:00

https://github.com/binux/pyspider
你值得拥有

no13bus

2014-10-04 21:32:13 +08:00

@binux 感觉torado经常用来监控，celery的监控flower就是用他来做的。

XadillaX

2014-10-04 21:40:50 +08:00

-。 - 为什么没多少人学 node 做爬虫呢？

chemzqm

2014-10-04 22:44:35 +08:00

node异步回调太恶心，占用内存太高，低配机器跑不了几个进程

R4rvZ6agNVWr56V0

2014-10-04 23:13:37 +08:00

曾经用twisted自己写过一个，后来才知道有scrapy这个爬虫框架，推荐scrapy

Codist

2014-10-04 23:35:52 +08:00

scrapy简单又方便，selector用起来也很舒服，不用写正则了

kenis

2014-10-05 02:54:57 +08:00

推荐用Scrapy，比较成熟的爬虫框架，资源也不少。

cha1

2014-10-05 06:12:50 +08:00

http://jecvay.com/category/smtech/python3-webbug/

https://github.com/Yixiaohan/codeparkshare#%E5%85%AB%E7%88%AC%E8%99%AB%E4%BB%A5%E5%8F%8A%E6%A8%A1%E6%8B%9F%E7%99%BB%E9%99%86%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A

框架什么的参考上面各位大大的.

briefcopy

2014-10-05 09:38:11 +08:00

WebCollector:
http://www.brieftools.info/document/webcollector/

imn1

2014-10-05 10:40:13 +08:00

我抓取的量很大，所以分离过程用wget抓取，py做parse，95%用正则，少量用 lxml+xpath
无论用什么，通读http协议+抓包工具是跑不掉的

ericls

2014-10-05 14:07:54 +08:00 via Android

requests pyquery

helloworld00

2014-10-05 18:24:36 +08:00

快速构建实时抓取集群

http://blog.nosqlfan.com/html/2604.html