
1 yrj 2018 年 6 月 19 日 via iPad pyspider 国人作品 文档友好。 |
2 congeec 2018 年 6 月 19 日 单线程不是 scrapy 慢的原因 |
3 PythonAnswer 2018 年 6 月 19 日 via iPhone twisted 是异步 io 可以很快爬取 scrapy 做为 py 爬虫框架老大 并非浪得虚名 |
4 msg7086 2018 年 6 月 19 日 单线程很好啊,运行效率比那些天天线程切换的方案好多了。 |
5 thread2 2018 年 6 月 19 日 via Android 可考虑,先批量生产任务放到队列里,然后开很多节点消费任务,效率奇高 |
6 chengxiao 2018 年 6 月 19 日 感觉瓶颈是网速吧 |
7 chroming 2018 年 6 月 19 日 一般情况 scrapy 异步比多线程快,你爬的慢可能是你程序写的有问题 |
8 soho176 2018 年 6 月 19 日 爬的再快 有啥用那,太快 网站直接封了你了,别光想着快,要持久。 |
9 tozp 2018 年 6 月 19 日 java--webmagic python--scrapy go--go_spider 也就那么回事 |
10 encro 2018 年 6 月 19 日 scrapy 能够设置并发数的。你用的是假 google 吧 |
11 encro 2018 年 6 月 19 日 在 google 前请先看文档 |
12 inflationaaron 2018 年 6 月 20 日 Node.js 也是单线程,怎么能做到那么多并发?多线程只是实现高并发的一种手段。 |
13 biaodianfu 2018 年 6 月 20 日 via iPhone 你可能还不知道 python ( cpython )只支持单线程 |
14 dishonest 2018 年 6 月 20 日 @biaodianfu 不是这样的吧 多线程支持的 只是有 GIL |
15 encro 2018 年 6 月 20 日 给你一个传送门,以前我写的关于爬虫方面的资料。 爬虫框架比较: https://c4ys.com/archives/450 如何用 python 实现一个高自由度爬虫: https://c4ys.com/archives/718 |
16 Leigg 2018 年 6 月 20 日 via iPhone scrapy 不设置延时足够爬到网站不能自理,在你会不会用。 |