
不会python写爬虫,来v2ex求助
要求:
1 支持用户名密码登陆论坛,论坛为一问一答形式,深度都为1级。
2 匹配特征字段“生日”帖子标题,并抓取指定论坛网页1-300页。
3 根据帖子的跟贴,抓取的生日帖子的跟贴的源内容,加工并排列成指定格式的txt文本文件。
生成txt文件
格式如 姓名 抓取日期 生日
王五 20150803 20100801
赵六 20150803 19800901
3 放到vps里7*24小时运行,抓取会员生日。
如能用shell脚本实现更佳
本人QQ 324013020
1 shierji 2015-08-03 20:34:53 +08:00 呃价钱够吸引人的话倒是可以试试。最近恰好在帮导师做一个类似的事情。。。 |
2 shierji 2015-08-03 20:36:50 +08:00 shell爬取。。貌似目前还没多少人做吧。。。 |
4 uuspider 2015-08-04 17:59:43 +08:00 via iPhone 这个需求,curl+sed+awk,应该够了。 |
6 zyujuan OP |