
想学习爬虫,能不能推荐一个小项目并说一下思路? 比如爬随便一家公司的财务报表?
1 prasanta 2018-05-16 08:30:20 +08:00 via Android 中国商标局网的所有商标数据 |
2 nulIptr 2018-05-16 09:47:25 +08:00 所有主流直播网站的直播间(斗鱼熊猫虎牙战旗啥的)。。。然后搞出一个类似于导航网站的东西展示数据。。。 |
4 colincat 2018-05-16 11:29:40 +08:00 LZ,推荐你新闻类网站吧,基本没什么难度,挺好 |
5 chesterzzy 2018-05-16 11:34:03 +08:00 爬虫这个东西,只要是公开的、合法的数据,都可以爬来练手,当然,要注意节制 关键还是解析页面和存储数据 实在不行,爬图呗,相信许多大兄弟都是从这一步开始爬虫的(是的我也是) |
6 samding123 2018-05-16 11:49:59 +08:00 |
7 opengps 2018-05-16 13:23:43 +08:00 注意爬大站,别爬小站,小站本来资源有限,爬虫来了直接系统挂了,小心被站长发现揪出来吊打 |
9 sjmcefc2 OP @chesterzzy 有没有国外的可以爬的? |
| div class="fr"> 12 chesterzzy 2018-05-16 17:03:49 +08:00 @sjmcefc2 国外的网络不稳定,有的甚至要上代理。 还是有点不理解楼主的意思,是想要一步到位搞个大工程?还是先随便练练手? 要是随便练练手的话,随便搞个新闻聚合啊,降价提醒啊,论文爬取啊,壁纸爬取啊,妹子图爬取啊什么的都可以啊。 要想搞个大工程,那考虑的东西就多了。cookie 啊,登录啊,验证码啊,ip 代理啊,反爬虫策略啊,分布式啊等等。 好了我牛逼吹完了。。。 |
13 sjmcefc2 OP @chesterzzy 能具体说说有哪些国外的可以爬吗?金融相关的有吗 |
15 sjmcefc2 OP @chesterzzy 怎么节制?如果用 selenium 貌似不用节制吧,速度和人工差不多 |
16 whoami9894 2018-05-16 21:17:15 +08:00 via Android 难道标准的练手项目不是煎蛋吗 |
17 981764793 2018-05-17 20:42:21 +08:00 via Android 练手的话可以看看逼乎,比如爬个关注关系网,爬一下某个钓鱼问题下的所有图片,以及所有回答者的回答或提问下的回答的图 |
18 yy461530593 2018-05-18 09:18:40 +08:00 @sjmcefc2 国外的电商网站: https://www.endclothing.com/ ,爬商品列表跟商品详情试试 |
19 xiaoke0718 2018-07-02 22:21:17 +08:00 via iPhone @opengps 你这句话确实? |