最近的 5G 技术,炒的是非常火热,大家都在畅想着,5G 的到来会对什么行业有影响,会在哪个地方有爆发?
我是写爬虫的,所以就联想到 5G 的到来,会对爬虫有质的提升吗?又会改变爬虫哪些地方呢? 经常写爬虫的朋友应该知道,爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归。所以对于 CPU 的利用不是太好,我指的是用 Python 来编写爬虫。由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。 听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。
那么这么快的速度,对于爬虫来说以后是不是意味着我们不需要编写“太好的”,异步代码或者是多线程代码。对于代码的要求,是不是就降低了呢。
以后我们写的爬虫,问题是不是又集中在了 CPU 密集型了呢?以及验证码,IP 这些反爬措施上。
![]() | 1 slanternsw 2019-06-09 20:51:23 +08:00 via Android 有的没的。 “爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归” “听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。” 来说说 5G 在价格延迟网速上哪一个可以打得过万兆有线? |
![]() | 2 chinvo 2019-06-09 20:52:58 +08:00 via iPhone ![]() @slanternsw #1 别问,问就低延迟高带宽,有线不存在的,光速轻易突破,是未来,是历史的车轮,你们这些螳螂是要被…… |
  3 wateryessence 2019-06-09 20:53:40 +08:00 ![]() 你真的写过爬虫? |
![]() | 4 1OF7G 2019-06-09 20:54:49 +08:00 ![]() 吃瓜群众被无良媒体带节奏也就罢了,互联网从业人员对 5G 这样的认知也太不到位了吧! |
5 strcmp 2019-06-09 20:55:44 +08:00 ![]() 既不懂爬虫也不懂 5G |
![]() | 8 Ct5T66PVR1bW7b2z 2019-06-09 21:05:13 +08:00 骗金币失败的例子 |
![]() | 10 WaJueJiPrince OP @wateryessence 写过 并且还写过框架!!为什么木有速度的提升呢?? |
![]() | 11 WaJueJiPrince OP @Abbeyok 我只想知道原因 至于喷子就不要说话了 求解答疑问!!!!!!!! |
![]() | 12 WaJueJiPrince OP @1OF7G 求解答原因 别过说其他没用的啊 一个个评论都是浅尝辄止 也给不出原因 就说没啥用??我想要的是结果 不是媒体带不带偏????没一个给出具体答案的啊??? |
![]() | 13 Ley 2019-06-09 21:21:45 +08:00 via Android 看了你的描述,不过感觉爬虫和移动网络没有太大关系吧,比较好奇你为什么会认为爬虫依赖移动网络? 另外一个个人的小建议是慎用超过三个感叹号,可能会影响阅读效率… |
![]() | 14 WaJueJiPrince OP @slanternsw 您的意思是 5G 其实还是基于我们目前的有限网络吧?? 所以速度并不会提升 |
![]() | 15 Cheons 2019-06-09 21:23:54 +08:00 via Android ???你服务器用的移动设备 |
![]() | 16 WaJueJiPrince OP @Ley 我的了解目前 5G 速度较快 所以觉得目前可能这个速度会对爬虫比较有利 那是不是 5G 还是基于现有的有限技术?那么如果目前什么都不考虑,网站速度完全无延迟会不会对爬虫速度有提升呢?会不会降低协程 线程编程技术呢? |
![]() | 17 Cheons 2019-06-09 21:27:05 +08:00 via Android 2g 换 3g 3g 换 4g 和我 打魔兽有关系嘛? |
![]() | 18 WaJueJiPrince OP @Cheons 我的意思只是网速的增加会不会对爬虫编写代码要求有所降低呢? |
![]() | 19 WaJueJiPrince OP 看了一个消息就是 5G 的速度是要快于电信的 100M 光纤宽带的 |
![]() | 20 HuLiY 2019-06-09 21:32:15 +08:00 via Android 不如把标题改成[高带宽低延迟下,爬虫将如何发展]因为 5g 再快也不如有线网络快。 另,个人觉得网络再快也会使用多线程+分布式+代理。所以网络只能加快爬虫的速度,对爬虫的方式没有太多改变。 |
![]() | 21 WaJueJiPrince OP @HuLiY 是的 我的意思就是 [高带宽低延迟] ,可能有些描述不清吧 有些人就断章取义了 目前的方式绝对是线程 协程 分布式 反爬 验证码 IP 。。。。 其实爬虫要解决的问题还有很多呢 |
22 shinciao 2019-06-09 21:38:01 +08:00 先不说 5G 到底能不能实现比有线延迟低速度快 然后再假设你的电脑也使用 5G 来上网 但是你要爬的服务器不还是有线接入? |
23 wc951 2019-06-09 21:38:32 +08:00 via Android 5g 只是影响端到端,你服务器不走光纤走 5g ? |
![]() | 24 WaJueJiPrince OP |
25 good1uck 2019-06-09 22:16:28 +08:00 via Android 5g 的到来会提高人的学习速度吗 一定程度上吧 |
26 mumbler 2019-06-09 22:22:45 +08:00 via Android 除非对方服务器无限带宽,爬虫才用得上 5G |
![]() | 27 lang1pal 2019-06-09 22:24:16 +08:00 万兆网线也带不起硬盘的 io 吧 硬盘的 4k 性能有限 |
28 boom7 2019-06-09 22:31:43 +08:00 via Android 你的爬虫部署在服务器上的话,是走的有线网络,与 5G 无关。再之,一般来讲爬虫应用单次请求的响应体都不大[视频爬虫之类的除外],你的爬虫的 io 等待时间主要取决于对方服务器的响应时间,相比之下带宽就显得不那么重要。 |
![]() | 31 kera0a 2019-06-09 22:49:32 +08:00 via iPhone ![]() 5g 再快也快不过有线啊,咋回事啊 |
32 luozic 2019-06-09 23:08:25 +08:00 via iPhone 无线 和你有线的云主机有关系? 有线的 100GE 网卡便宜了?! |
33 botian 2019-06-09 23:09:45 +08:00 via Android 怎么不问问,爬虫技术什么时候被法律约束? |
34 changz 2019-06-09 23:11:22 +08:00 要明白 5G 只是一种接入网技术而已。 |
35 changz 2019-06-09 23:12:55 +08:00 5G 的低延迟目前来说只是个伪命题,你并不能忽略网路中间节点的影响。 |
36 pxw2002 2019-06-09 23:15:21 +08:00 via Android 我感觉我的智商受到了侮辱 |
![]() | 37 gunjianpan 2019-06-09 23:50:12 +08:00 hhh 你爬虫 不就是对人家带宽上限吗 对方服务器还是 1M 带宽你有什么办法 |
38 thua 2019-06-09 23:59:01 +08:00 5g 的网络,对于百度云的下载速度限制是不起作用的,爬虫也是,都是看服务端响应时间,而不是在互联网上的传输时间。 |
![]() | 39 WaJueJiPrince OP @gunjianpan 对方的宽带就 1M 确实没办法 不知道长远的未来会不会还是 1M |
![]() | 40 WaJueJiPrince OP @thua 。。。黑的好!!!!!!! |
![]() | 41 WaJueJiPrince OP @botian 爬虫触犯法律目前已经有一个案例了 盗取别人家的视频获刑 似乎是中国首例 还有一个什么公司 靠采集别人的简历 好像融资 1.5 亿 最后被一锅端 30 多人坐牢了 |
![]() | 42 cz5424 2019-06-10 00:20:13 +08:00 via iPhone 越快越容易被 block |
44 Northxw 2019-06-10 01:02:30 +08:00 (简单论述) IO 密集,多线程,5G,岂不是更加利用 CPU 资源,更加美滋滋? |
![]() | 45 Caan07 2019-06-10 01:09:03 +08:00 ![]() 家族群我堂弟说:哇,5G 快来了。5G 速度好快啊。 我二姑爷说:5G 不用钱么? 全群安静。 |
![]() | 46 masker 2019-06-10 01:11:10 +08:00 via Android ???网速影响实现代码? |
![]() | 47 lostberryzz 2019-06-10 01:26:15 +08:00 别问,问就是速度是 5G 最无聊的应用 |
![]() | 48 binux 2019-06-10 03:05:46 +08:00 @WaJueJiPrince #10 你写的爬虫框架连 IO 都解决不了? |
49 zwh2698 2019-06-10 06:27:21 +08:00 via Android 科普,通信网络是由核心网,接入网,用户设备, 简单说明。接入分有线和无线,核心网 10 多年没有变化了,变化比较多是接入网中的无线部分 |
50 zwh2698 2019-06-10 06:30:58 +08:00 via Android 所以大家觉得 5G 是通信网络中那部分呢?? |
51 zwh2698 2019-06-10 06:39:15 +08:00 via Android ![]() 1.5g 说会出现大量网联设备,这说明没有 5G 的情况也有物联,不是大量对吧? 2.大量会不会是伪需求?比如汽车连接电饭锅,你在路上的时候可以煮饭?请问锅里米谁洗?水谁放?电谁插?保姆呀,都有保姆,还要这个有用吗? 3 让子弹飞一会儿。 |
![]() | 52 shakaraka PRO |
![]() | 53 locoz 2019-06-10 08:06:13 +08:00 via Android 这个问题挺有意思的,不过我认为对速度的影响并不大,等下到公司细说一下。 |
54 alamaya 2019-06-10 09:07:43 +08:00 写爬虫不是该跟人家反扒策略斗智斗勇?就现在的带宽你能跑满? |
![]() | 55 icharm 2019-06-10 09:11:02 +08:00 异步爬虫了解哈? |
56 zwh2698 2019-06-10 09:17:44 +08:00 via Android @wunonglin 其实我不是嘲笑 5G,我只是客观说明,这东西被包装过度,无非有人想要摸鱼,华为的任老大不是也说内部没有外面那么夸大,这是华为任老大说的,有视频的,都不要找我哈。我引用。 回到题主,题主这是有线接入,和 5G 一毛关系都没有。通讯延迟减小只是说明以前无线设备和无线接入这块有改善。和核心网速度一点关系都没,大油管如果很小,分支油管还能上天? 核心网将近 20 年都没变了,什么光纤改善,CPU 提升,内存速度快,理论上只是运营商节约了一点成本,其实也没节省。就像现在运营商都是 nfv,结构,nfv 的目的是为了省钱,但是现在其实比原来黑盒子更多 10-30%, 移动或者电信的朋友出来说说看。 |
![]() | 57 abcbuzhiming 2019-06-10 09:19:32 +08:00 ![]() 楼主,你说你是写爬虫的?你难道没有被别人家的反爬虫措施整的欲仙欲死的经历?你居然认为阻碍爬虫的问题是网速和响应时间?你真的是写爬虫的?你不是在逗我? |
58 lihongjie0209 2019-06-10 09:23:25 +08:00 哪怕没有网速的限制, 你觉得对方的服务器资源可以让你随意占用? |
![]() | 59 syahd 2019-06-10 09:25:38 +08:00 via Android 你说 ipv6 能提升爬虫的效率都比说 5g 好 |
![]() | 60 kisshere 2019-06-10 09:26:27 +08:00 好多写爬虫的还主动降频,就是为了怕对方发现,你这思路清奇,即使对方毫无反爬措施,爬虫的进程数、解析 DOM 速度才是最大瓶颈,网速高有毛用 |
61 lupo 2019-06-10 09:40:12 +08:00 @zwh2698 目前有很多项目可能受限于当前的网速发展不起来,如果 5G 发展起来了。这些项目就能搞起来了。这个潜能是无限的,谁也不能承担忽视 5G 而导致的后果,所以美国疯狂打压华为。。。微软很早之前就做智能手机,做平板,但一直没有发展起来,感觉和网络速度有一定的关系。。 |
63 rootww21 2019-06-10 09:51:11 +08:00 所以程序员并不是技术相关的都懂 就和不是所有的程序员都会修电脑一样 过分嘲笑就没意思了 |
![]() | 64 402124773 2019-06-10 09:59:07 +08:00 |
![]() | 65 zephyru 2019-06-10 10:01:28 +08:00 到现在,该回答的都有人回答了.我也不重复了... 我看到题目的第一反应是在钓鱼...往后面看发现居然是认真的.. 还真别怪一开始几个人冷嘲热讽.不回答问题.也不是你想的太完美了.. 而是你书读太少了..但凡对网络组成有一丝丝的了解也不会问出这种问题... |
![]() | 66 soulmine 2019-06-10 10:02:25 +08:00 对速度没有 对数据量有质的改变 |
67 karllynn 2019-06-10 10:03:19 +08:00 楼主你这技术底子也太薄了吧,讨论个啥=。= |
![]() | 68 676529483 2019-06-10 10:04:15 +08:00 lz 是爬虫新人吧,爬虫难点不在于 IO,写异步的或者线程池都可以缓解,瓶颈在于反爬,甚至需要主动降低爬取频率;再说一般中小企业网站都 4M 带宽出口,你最高也就这速度了 |
69 skSK09 2019-06-10 10:04:56 +08:00 "由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。" IO 密集型的操作你可以认为和 GIL 没关系。 |
![]() | 70 zjyl1994 2019-06-10 10:05:18 +08:00 等等,你的爬虫服务器不是放在机房里通过万兆光纤接入的吧? 难道说你们现在的瓶颈在爬虫手机 4G 速度不够?所以期待 5G 带来质变? 那这边建议你买个 G 口的 VPS 体验一下,绝对比手机上跑爬虫烧 4G 流量便宜,而且还快 |
![]() | 71 zephyru 2019-06-10 10:05:52 +08:00 |
![]() | 73 pkoukk 2019-06-10 10:11:27 +08:00 你不会在用 4G 流了来爬数据吧??? 5G 再快,最终也得汇到光纤主网上面去 |
![]() | 75 unco020511 2019-06-10 10:23:28 +08:00 为什么 5G 会影响服务器? |
76 dobelee 2019-06-10 10:26:26 +08:00 via Android 现在服务器千兆的大把,加钱也有万兆。 哦不对,楼主用的是移动网络。 |
![]() | 77 itskingname 2019-06-10 10:30:02 +08:00 via iPhone 速度从来都不是爬虫最关键的地方。 |
![]() | 78 jseed 2019-06-10 10:30:24 +08:00 5G 到来,会影响我单手开保时捷吗!#手动滑稽 |
80 crawl3r 2019-06-10 10:53:37 +08:00 现在的爬虫瓶颈不就是在反爬对抗么? |
82 zwh2698 2019-06-10 11:38:20 +08:00 via Android @lupo 第一我没说忽略 5G 发展,千万不能曲解,千万!我只是想说 5G 能干啥,估计炒作的人都没想清楚,所以让子弹飞一会儿。第二微软的失败不是因为网络吧。你去找找吴军的分析。 |
![]() | 83 glfpes 2019-06-10 11:47:10 +08:00 LZ 就像个真信了亩产万斤的农民。 |
![]() | 84 WaJueJiPrince OP @676529483 仔细看看我之前的回复就知道了 我的意思是低延迟 而且你们可能认为有线技术一直是在服务器那端 这辈子都不会改变 我认为的任何事情都会改变 |
85 zwh2698 2019-06-10 11:56:45 +08:00 via Android 再次强调,5G 网络延迟改善,带宽增加和有线毛关系都没,这个只能提升无线接入到设备之间网络质量。如果要主干网路,除非有什么比光纤更快的。但是目前物理定律是不可能有超过光速的。那么就是光纤优化,让光子在内部尽量减少反射次数,最好做到直接到,这样应该就是理论上的光速了。现在光纤的传输速度小于光速。 |
86 killerv 2019-06-10 13:17:37 +08:00 ![]() 我怀疑楼主根本没写过爬虫 |
![]() | 87 jeasonzuo 2019-06-10 13:31:12 +08:00 ![]() 我怀疑楼主根本不懂网络 |
![]() | 88 run2 2019-06-10 14:01:12 +08:00 ![]() 我怀疑楼主根本不懂木桶 |
![]() | 89 msg7086 2019-06-10 14:40:35 +08:00 一秒钟就能下一部电影的移动网络价格,你拿去买固定有线网络,可以买到一秒钟就能下十部电影的。 我们假设你跑出了 5G 应有的带宽的十分之一,也就是 100mbps,一个月下来跑了 32.4TB ,那 32.4TB 的手机流量是多少钱呢?好像有点超出我的知识量了。如果我们按照现在一元一 GB 的价格来算的话,是 32400 元。 那么每月 32400 元能申请到什么样的有线网络呢? 我陷入了沉思。 |
90 gscoder 2019-06-10 18:15:06 +08:00 5G 是移动网络,和固定网络木有关系,除非你的爬虫是跑在手机上 |