中文独立博客的年化“腐烂率”8% - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yzqzss
V2EX    分享发现

中文独立博客的年化“腐烂率”8%

  •  1
     
  •   yzqzss 2022-02-05 20:54:57 +08:00 4323 次点击
    这是一个创建于 1345 天前的主题,其中的信息可能已经有所发展或是发生改变。

    统计了 1000 个中文独立博客,我算了他们的“腐烂率”

    数据来源: https://github.com/saveweb/rss-list 总计:965 个博客 托管于 Github Page 的博客:182 个(不包含使用了 CDN 代理 Github Page 的博客) 腐烂的博客数:113 个(不管网站是否删过内容,换过域名,只要博客主体存在,就不算腐烂) 统计持续时间:17 个月 中文独立博客定义: - 包含:独立域名 和 eu.org 、github.io 、gitlab.io 、gitee.io 的三级域名。 - 不包含:wordpress.com 、网易博客、blogger.com 等的三级域名。 

    经过简单计算,中文独立博客的年站点腐烂率为 8.26% ,换句话说,每年约有 8%的中文博客会消失(被其他网站采集,如 archive.org ,也算消失)。

    以此类推,现在这一批中文独立博客在 8 年之后,会有 50% 消失(0.9174^8)半衰期是 8 年。15 年之后,现在这一批中文独立博客将有 70% 消失(0.9174^14)。但互联网日新月异,未来腐烂率的数值是多少谁也说不准。

    不过中文独立博客的年链接腐败率暂时难以量化统计(需分析收集到的 59447 个博文链接,要花上一些时间,有时间我会统计一下),但只会比站点年腐烂率更高。因为很多博客会出现数据库丢失、更换域名、博主主动删除文章、迁移博客程序等一系列导致永久链接失效的情况。所以我主观估计中文独立博客的年链接腐败率在 20~30% 左右。

    同时,我们发现越来越多的中文博客选择使用静态博客程序并托管到 Github 、Gitlab 、Cloudflare 等 Pages 服务上,这一趋势无疑对减小腐烂率有益。且用户友好的低技术托管平台有助于中文独立博客数量的提升(网上一堆静态博客入门教程)。但需要指出的是,选择 Pages 服务托管静态网站本质上和选择 Blogspot 、Wordpress.com 等第三方博客托管平台并无区别,仍然面临平台倒闭或事故导致数据丢失的集中隐性风险(假如 Github Page 现在停止服务,我们将瞬间丢失至少 20% 的中文独立博客)。

    而短期来看,自托管(self-host)博客仍然是风险、成本、技术要求较高的选项,比集中化的平台更容易发生链接腐烂的情况。


    https://blog.othing.xyz/archives/chinese-independent-blogs-link-rot-2022.html

    14 条回复    2022-03-23 23:19:18 +08:00
    OhYee
        1
    OhYee  
       2022-02-05 21:18:33 +08:00   1
    > 不管网站是否删过内容,换过域名,只要博客主体存在,就不算腐烂

    好多博客虽然还能进,但是几年没更了,约等于死了
    xratzh
        2
    xratzh  
       2022-02-05 21:24:33 +08:00
    我倒数第二篇还是 19 年更新的。主要是没有怎么折腾了
    还有被爬死的博客也不在少数。
    写博客访问数太少了,简直就是负激励。爬虫更加剧了这个
    jdhao
        3
    jdhao  
       2022-02-05 21:42:30 +08:00 via Android
    想问一下我的博客一个月 3 万访问量是啥水平。。
    jdhao
        4
    jdhao  
       2022-02-05 21:44:10 +08:00 via Android
    @jdhao 目前还在坚持更新,为自己写也是方便帮助他人,不一定要牛逼的不行才能写,没人看就当成自己的 note
    kunkunzhang
        5
    kunkunzhang  
       2022-02-05 21:51:44 +08:00
    @jdhao 一样,我就是自己的 note ,说实话,也不太喜欢别人看,或者说爱看不看,宁愿别人通过 github 或者邮件联系我
    yzqzss
        6
    yzqzss  
    OP
       2022-02-05 22:39:45 +08:00
    「十年之约」项目有较高的博客收录要求 ( https://www.foreverblog.cn/treaty.html)。

    生活记录类:需已建立 一年以上,并有 15 篇以上的文章,其中原创文章占 75%以上。
    学习记录类:需已建立 一年以上,并有 30 篇以上的文章,其中原创文章占 60%以上。

    所以他们的数据一定程度上能代表高质量中文独立博客的情况。

    我从「十年之约」管理员那里得到了他们的数据:

    2017-08-31-2022-02-05 ,总收录量 999 ,异常量 149 。
    注:149 个异常博客中有相当一部分是因为网站内容问题被标记异常,而不是网站关闭。

    算出来年腐烂率为 3.31%,但考虑到异常的博客不一定是关战的博客,且高质量博客有更大概率会“复活”,实际腐烂率会低于计算值。所以,优质中文独立博客的平均寿命比一般博客更长,“保鲜度”更好!
    v2ka
        7
    v2ka  
       2022-02-05 23:34:57 +08:00
    很有意思的统计。

    腐烂就腐烂吧,独立博客这条路注定是难走的。
    yzqzss
        8
    yzqzss  
    OP
       2022-02-06 00:22:05 +08:00
    更正:
    -- 在 8 年之后,会有 50% 消失(0.9174^8)**半衰期是 8 年**
    ++ 在 9 年之后,会有 50% 消失(0.9174^8)**半衰期是 9 年**
    leimao
        9
    leimao  
       2022-02-06 14:16:47 +08:00
    为什么被 archive.org 采集也算消失? archive 会定期 snapshot 网站,不是么?
    比如说我的 https://leimao.github.io/就定期被 archive 收录:
    https://web.archive.org/web/20220121164939/https://leimao.github.io/
    aecra
        10
    aecra  
       2022-02-06 18:21:08 +08:00 via Android
    @leimao 这个还可以手动申请收录呢
    V20190710
        11
    V20190710  
       2022-02-09 19:53:29 +08:00
    @aecra
    这个收录是有其他人用程序定期还是网站自己采集?
    V20190710
        12
    V20190710  
       2022-02-09 19:57:22 +08:00
    @yzqzss 我打不开链接,有什么地方可以看到该项目收录的 blog
    aecra
        13
    aecra  
       2022-02-10 08:20:08 +08:00 via Android
    @V20190710 在上面搜不到可以让它收录自己提交的链接
    Qpua00az8c0ckiOM
        14
    Qpua00az8c0ckiOM  
       2022-03-23 23:19:18 +08:00
    哎,写了十几年了。但是经常存档,换域名,换站点……
    还是 wordpress 和 blogger 坚挺。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2789 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 00:24 PVG 08:24 LAX 17:24 JFK 20:24
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86