轻松合理的获取数据 | 基于标记语言的开源爬虫框架(Trico cloud 云原生) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
ris
V2EX    程序员

轻松合理的获取数据 | 基于标记语言的开源爬虫框架(Trico cloud 云原生)

  • nbsp;
  •   ris
    PRO
    2021-05-21 14:59:18 +08:00 1591 次点击
    这是一个创建于 1607 天前的主题,其中的信息可能已经有所发展或是发生改变。

    写在前面

    名词解释

    • Trico 框架名。
    • Trico script 官方脚本代码。
    • Salyut 脚本虚拟机 负责语法解析,表达式解析。
    • Trico cloud Trico 生态,将脚本调度和虚拟机在云端部署。

    Trico 的诞生

    Trico起初是为了满足公司大量的数据提取需求(当然是公开可获取的:)),最早我们是使用 Java+Jsoup+selenium 来完成的。但是随着维护的网站数量越来越多,网站的改版等等异常将会产生大量的工作量,于是我们就想能不能有个轻量级的脚本,既可以热更新(快速的解决 Bug )又可以提供一些带有复合功能的元语 来提高开发效率。于是 Trico 就诞生了。

    如何使用 Trico

    Trico 是一个基于标记语言的脚本语言,词法相对都比较简单,学习曲线相对降低,一般的程序员 1 ~ 2 天即可以完全上手。当然我们也希望对于不是程序员背景也能使用 Trico,把他当作一个数据的提供者或者了解编程概念的语言。

    看到这里想必你对 Trico 或多或少有一些兴趣,我们也开源了 Salyut 引擎,方便的话请给我们个 Star,给我们个鼓励。

    https://github.com/taofen8/salyut

    Trico 目前状态

    目前 Trico 服务于公司内部,中型互联网公司,国内外创业公司和独立开发者。Trico 的脚本市场正在在建设中。

    Trico cloud

    我们希望有更多的开发者加入到 Trico 生态中,贡献更多的脚本,让有获取数据需求的开发者能够快速经过原型阶段,把精力放在体验优化上。另外所有提交到 Trico cloud 的脚本都会通过系统或是人工审核,来保证公开的脚本都是允许获取的公开数据,并且 Trico cloud 会根据目标网站的体量来控制爬取速率,不影响网站本身的运行,净化数据爬取环境。

    特性

    • 云端部署,无需负担任何机器成本,快速的推进业务。
    • 国内外主节点全覆盖,动态调度。
    • 开放脚本社区,构建数据生态。
    • 遵循 Robts 协议和用户隐私,安全绿色的获取公开信息。
    目前尚无回复
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4210 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 10:14 PVG 18:14 LAX 03:14 JFK 06:14
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86