
1 scriptB0y 2018-03-16 17:24:30 +08:00 可以每次开新的线程的时候传入一个变量并+1,记录当前的深度,达到一个阈值就不要再开新的线程。 |
2 wyy OP @scriptB0y 如果我抓 2 层,那就是抓主页里的所有 url,然后这些 url 页面里的 url 再取出来抓下来,这个过程中 url 不断入队,我如何判断在什么地方停止呢? |
3 sunchen 2018-03-16 17:40:27 +08:00 downloder 接受 url 参数时顺便传入这个 url 的深度啊,downloader 吐 response 的时候把这个参数吐出来再 |
4 wyy OP @sunchen 谢谢~刚想到了您的这种解决方案。python 里如果想效率高一些,url 去重用 url 做 md5 hash 放到 set 里; url 存储用什么方式呢? |
7 lynskylate 2018-03-16 22:56:32 +08:00 维护一个 tasks 队列,tasks 队列存 task 类,深度,url,解析规则存在 task 里, 再维护一个线程池,线程池只从 tasks 中取 task,执行 task。 |
8 wyy OP @lynskylate task 是一个线程池,深度和 url 存在 task 里是什么意思 |