
自己撸的一个 nodejs 版 dht 爬虫,用来加入 dht 网络,获取 infohash ,代码见 gayhub.
gayhub: https://github.com/beilunyang/dhtCrawler
从昨天晚上 8 点开爬至今,已经用我 5 美刀的 DO vps 爬了 1200 多万 infohash 。。由于还没搞定 metadata 获取的代码,所以具体有多少真实种子还不知道(手工试了几个,发现获取率还挺高的)。 我遇到的问题,以及一些琐碎都已经在代码里注释了,欢迎对 dht 感兴趣的新人参考(大佬们,多给点意见( ⊙ o ⊙ )啊!)。
1 xiaoyu9527 2016-05-09 21:07:12 +08:00 node js 比 python 还牛逼? |
2 xiaoyu9527 2016-05-09 21:07:49 +08:00 求教使用教程 |
3 beilun OP @xiaoyu9527 没用 python 写过,但光从 infohash 的获取来说,应该是 nodejs 要快。 |
4 beilun OP @xiaoyu9527 见文档 |
5/div> congeec 2016-05-09 21:28:42 +08:00 >采用 nodejs 编写,由于 js 天生优秀的异步非阻塞 io 支持,无需向 python 等其他语言一样采用超时机制同步等待响应,所以速度非常快。 .....Python 也有协程,有 async/await 。原生支持异步。看看 uvloop 你就知道有多快 |
6 miyuki 2016-05-09 21:36:10 +08:00 via Android 注意蜜罐 |
7 miyuki 2016-05-09 21:42:32 +08:00 via Android |
8 beilun OP @congeec 已充电。。对 python 的了解并不多,只用过 python2 ,没接触过 python3, 在我映像中 python2 异步一般都是通过 twisted ,谢谢指正。 |
9 gamexg 2016-05-09 23:24:22 +08:00 via Android Python + gevent 或者 golang ,代码直接按同步多线程写,语言自动转换成为异步协程,很省事。 |
10 ljcarsenal 2016-05-09 23:30:46 +08:00 有什么 dht 的入门资料? |
11 beilun OP @gamexg gevent 对 windows 的支持貌似不怎么好,而且 js 天生就是异步,觉得还是 js 更省事。 golang 完全没接触过(ω) |
12 beilun OP |
13 NullMan 2016-05-10 08:31:05 +08:00 |
14 Soar360 2016-05-10 08:52:32 +08:00 我大 C#使用异步之后会更快吧~ |
16 neocanable 2016-05-10 09:42:22 +08:00 实现过一个 ruby 的,在国内非公网的 ip 上爬,并且拿到 infohash 在各个种子网站上下载,内容丰富~ |
18 puorg 2016-12-02 22:15:35 +08:00 es2015 版本的 dht 爬虫 https://github.com/callmelanmao/p2pspider |
19 buseni 2017-08-09 10:40:31 +08:00 不错,先学习了 |
20 DaTaoGe 2018-04-26 11:42:52 +08:00 您好,我测试了一下,速度确实很快,但是还没有成功解析一个了,我这里有一个 python 实现的,获取的能一多半解析吧,但是速度太慢了,想问下楼主,您现在还搞这个么? |
21 soho176 2018-05-03 16:43:02 +08:00 收藏了 |