![]() | 1 airyland 2018-06-14 17:26:02 +08:00 ![]() 可能没有出来的产品。我实施了一点,要保证安全性,屏蔽恶意客户端,任务通过服务端来协调分发,客户端任务通过定期轮循来获取,有抓取需求的可以向服务端直接发布 n 个任务,进入服务端队列后,通过 webhook 来接收相应 url 数据,数据的抓取速度就取决于有多少客户端了,另外对于不同站要有不同策略。另外基本原则是:只抓取公开数据。 |
2 rainsun 2018-06-14 17:49:43 +08:00 怎么验证爬回来的东西是正确的呢 |
![]() | 3 cy97cool OP @rainsun 参考高考阅卷? 初期都没权重的时候两个客户端执行相同的爬取,有冲突则引入第三个 后期积累起信用后 高权重用户的结果直接采信,以人工检查、举报机制辅助 |
![]() | 4 ctsed 2018-06-14 18:00:49 +08:00 让你的去中心化爬虫去爬去中心化网络的快照 |
5 Foolt 2018-06-14 18:04:52 +08:00 我打开帖子看,这帖子没有创新,歪歪斜斜的每段上都写着“去中心和”几个字。我横竖看不爽,仔细看了半晌,才从字缝里看出字来,满本都写着三个字是“ P2P ”! 去中心化存储,那就是 P2P,有人了种,下载的人越多可供上传的人就越多,可用的“服务器”就越多。 |
6 Foolt 2018-06-14 18:06:57 +08:00 #5 更正,把“去中心化”打成了“去中心和”。不过不影响表述,楼主你说的就是 P2P,已经非常成熟的技术,国人电脑下片都在用,现在肯定也有 STEAM 的种子,不过可能不够全,你想要全就自己做种好了。 |
![]() | 7 cy97cool OP @Foolt 问题不在 p2p 而在于安全保障、任务调度、可持续性 安全保障:执行别人的代码怎么保证人家的代码没有恶意 BOINC 可以通过研究机构声誉来实现 任务调度:如果没有中心化的 tracker 如何做调度 可持续性:现在的 Anti404 要求至少要有一个人及时保存了页面并愿意分享出来,如果能实现一个完整的平台来自动化地做这个事情,并发币甚至上交易所来保证整个社区的活跃性 就算有 steam 的种子也需要有发布组来发布,发布了种子还要有人愿意来保种,如果能把发布过程也自动化(自动爬取发布),并且用奖励机制保证冷门种子的可访问性。。。 |
8 Foolt 2018-06-14 19:05:43 +08:00 |
![]() | 10 wingyiu 2018-06-15 10:42:45 +08:00 不上区块链吗? |