搞一个分布式的爬取平台如何呢 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
cy97cool
V2EX    奇思妙想

搞一个分布式的爬取平台如何呢

  •  
  •   cy97cool 2018-06-14 16:42:35 +08:00 3428 次点击
    这是一个创建于 2677 天前的主题,其中的信息可能已经有所发展或是发生改变。
    背景:现在能访问到的东西可能即将凉凉 t/463124

    自然想用去中心化来进行技术对抗咯,人无远虑必有近忧嘛

    实现一个去中心化的网络,规则编写者提供爬取规则(如 youtube-dl ),矿工负责爬取内容以及存储内容获得 token (吃灰的 vps 可以用来挖矿了 hhh ),读取内容或者请求爬取新内容需要支付 token

    也不一定局限在视频、游戏,比如做成去中心化的 web archiver,在 404 之前爬取全网更新

    问问这个领域现在有没有人已经做过了,退而求其次呢搞个中心化的网站,网站提供客户端(实现安全性),用户自愿提供计算资源跑这个客户端挂机挣钱,需求者编写代码并支付费用有没有现成的平台开源代码啊
    10 条回复    2018-06-15 10:42:45 +08:00
    airyland
        1
    airyland  
       2018-06-14 17:26:02 +08:00   1
    可能没有出来的产品。我实施了一点,要保证安全性,屏蔽恶意客户端,任务通过服务端来协调分发,客户端任务通过定期轮循来获取,有抓取需求的可以向服务端直接发布 n 个任务,进入服务端队列后,通过 webhook 来接收相应 url 数据,数据的抓取速度就取决于有多少客户端了,另外对于不同站要有不同策略。另外基本原则是:只抓取公开数据。
    rainsun
        2
    rainsun  
       2018-06-14 17:49:43 +08:00
    怎么验证爬回来的东西是正确的呢
    cy97cool
        3
    cy97cool  
    OP
       2018-06-14 17:59:55 +08:00
    @rainsun 参考高考阅卷? 初期都没权重的时候两个客户端执行相同的爬取,有冲突则引入第三个
    后期积累起信用后 高权重用户的结果直接采信,以人工检查、举报机制辅助
    ctsed
        4
    ctsed  
       2018-06-14 18:00:49 +08:00
    让你的去中心化爬虫去爬去中心化网络的快照
    Foolt
        5
    Foolt  
       2018-06-14 18:04:52 +08:00
    我打开帖子看,这帖子没有创新,歪歪斜斜的每段上都写着“去中心和”几个字。我横竖看不爽,仔细看了半晌,才从字缝里看出字来,满本都写着三个字是“ P2P ”!

    去中心化存储,那就是 P2P,有人了种,下载的人越多可供上传的人就越多,可用的“服务器”就越多。
    Foolt
        6
    Foolt  
       2018-06-14 18:06:57 +08:00
    #5 更正,把“去中心化”打成了“去中心和”。不过不影响表述,楼主你说的就是 P2P,已经非常成熟的技术,国人电脑下片都在用,现在肯定也有 STEAM 的种子,不过可能不够全,你想要全就自己做种好了。
    cy97cool
        7
    cy97cool  
    OP
       2018-06-14 18:29:30 +08:00
    @Foolt 问题不在 p2p 而在于安全保障、任务调度、可持续性
    安全保障:执行别人的代码怎么保证人家的代码没有恶意 BOINC 可以通过研究机构声誉来实现
    任务调度:如果没有中心化的 tracker 如何做调度
    可持续性:现在的 Anti404 要求至少要有一个人及时保存了页面并愿意分享出来,如果能实现一个完整的平台来自动化地做这个事情,并发币甚至上交易所来保证整个社区的活跃性

    就算有 steam 的种子也需要有发布组来发布,发布了种子还要有人愿意来保种,如果能把发布过程也自动化(自动爬取发布),并且用奖励机制保证冷门种子的可访问性。。。
    Foolt
        8
    Foolt  
       2018-06-14 19:05:43 +08:00
    @cy97cool

    你说的就是 P2P 其中一种实现 Private Tracker,根据用户贡献奖励积分,贡献可以是上行和做种。对 PT 来说,自动做种也不是什么新鲜事,很多大学都有这种东西。
    cy97cool
        9
    cy97cool  
    OP
       2018-06-14 19:51:01 +08:00
    @Foolt t/405767
    我真的在说 pt 嘛 也许吧
    wingyiu
        10
    wingyiu  
       2018-06-15 10:42:45 +08:00
    不上区块链吗?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5557 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 07:29 PVG 15:29 LAX 00:29 JFK 03:29
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86