[续] 辛苦爬了 5000+个 Telegram 群/频道/机器人,异常占比却高达 41.7%? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
BeiChuanAlex
V2EX    程序员

[续] 辛苦爬了 5000+个 Telegram 群/频道/机器人,异常占比却高达 41.7%?

  •  5  
  •   BeiChuanAlex 2023-06-27 16:38:03 +08:00 7617 次点击
    这是一个创建于 887 天前的主题,其中的信息可能已经有所发展或是发生改变。

    书接上文,没看过上集的同学可以看,第一集内容: t/951729


    第二集:

    首先来看看一些有意思的数据:

    • v2ex
      • 在帖子发出后的 24 小时内:共有 6232 次点击,206 人收藏,22 人感谢,被 4505 位注册会员查看过。其中 收藏率 4.6%感谢占比 0.49% ,还有 126 次来自 Google 的点击。
    • GitHub
      • 在帖子发出后的 24 小时内:共收到 Star 552 个,Fork 51 个,有 7 人提交了 issue 。平均每小时 Star 23 个

    昨天发帖之后,发现样本还是太少,所以又重新收集了数据,在昨天数据的基础上,爬了一晚上,样本数来到了 5000+ (这貌似是我能找到的极限了),基于更大的样本集,也重新产出了一些值得参考的新数据:

    • 总样本数量:5205 个
      • 其中正常账号 3036 个,异常账号 2169 个(主要是已注销账号),异常账号占比:41.7%正常账号占比:58%

      • 频道数:1700 ,群组:1136 ,机器人:198 。分别占比:32.7%,21.8%,0.38%

      • 频道订阅人数排名前 10 的没有一个中文账号,前 10 的账号订阅人数均超过了 100 万,最高订阅人数 912 万

      • 群组会员人数排名前 10 的 9 个都是中文账号,最高会员人数 19 万,最低 6 万

    • 在过滤了 144 个关键字之后还剩下 2209 个账号,当然这其中依然有不少是需要筛选的(人麻了,筛了 5 个小时,实在筛不动了...),结果如下:
      • 资源分享类 352 个,占比 15.9%
      • 机场、VPS 类 103 个,占比 4.7%
      • 影视类 108 个,占比 4.9%
      • 音乐类 56 个,占比 2.5%
      • 币圈类 39 个,占比 1.8%
      • 书类 67 个,占比 3%
      • 破解类 44 个,占比 2%
      • 羊毛、优惠类 53 个,占比 2.4%

    总结:

    本次总共从 25 个 URL 地址获得了 5205 个样本集,样本集本身已经做了去重处理,实际的数量应该有 10000+,重复的账号没有分析的意义,就直接过滤掉了没有入库。入库之后的数据进行了二次过滤(主要是人工过滤),过滤了 Sex 、Gamble 、Politics 、黑灰产、已注销、私人账号等,经过两轮筛选最终只剩下了 2209 个账号,占总数的:42.4% ,已经不到一半了,这还是粗筛,如果细筛那最终样本会更少。

    从过滤之后的数据来看,貌似各个分类的占比都很少,其实不然,因为很多账号都是跨多个分类,并不是只专精一个分类。另一方面从关键字来筛选分类,并不是很准确,最准确的应该是点进每个账号里去看内容,但这样的话人工成本会很高。

    假如按照程序员这个角色的用户画像来进行推荐的话,应该和昨天的 6% 差距不大,这也基本反应了现在 Telegram 中文生态的现状。这些数据还有其他的挖掘价值,用来做数据分析还是很不错的。


    总数


    GitHub 地址: https://github.com/alexbei/telegram-groups

    网页版:https://www.tgqun.xyz

    20 条回复    2024-10-12 12:15:49 +08:00
    pengtdyd
        1
    pengtdyd  
       2023-06-27 16:54:21 +08:00
    已 star
    bjzhush
        2
    bjzhush  
       2023-06-27 16:57:46 +08:00
    thanks ,值得翻一翻
    BeiChuanAlex
        3
    BeiChuanAlex  
    OP
       2023-06-27 17:13:30 +08:00
    @bjzhush @pengtdyd 谢谢
    virlaser
        4
    virlaser  
       2023-06-27 17:23:14 +08:00
    我从自己搜集的 20 个左右 sex 相关频道开始爬取,一共爬取了 3000 多个频道,经过筛选(更新质量差、广告、媒体保护、隐藏频道名称)后更新质量可以接受的有 600 多个。
    所有频道每天差不多一共更新 40000 条媒体信息,其中大概有 20000 条消息不可用(命中广告、猎奇关键字,频道间互相转发的重复信息)。
    创建 sex 相关频道用来给广告、菠菜引流已经是完整的产业链了,看到好多频道都是用什么 [xx 转载王] 来批量上传媒体的,顺便还推广工具。这种上传的质量一般都比较差。
    还有一小部分频道主,用爱发电,更新高质量资源,发起众筹买资源,而且还开放媒体下载,简直泪目。
    到目前为止已经爬取了一千多万条消息,还没想到怎么去做数据挖掘。
    BeiChuanAlex
        5
    BeiChuanAlex  
    OP
       2023-06-27 17:28:06 +08:00   1
    @virlaser 做数据挖掘的前提是数据有价值,按照目前 Tg 的生态,数据没什么价值,换个方向吧。
    mywei1989
        6
    mywei1989  
       2023-06-27 18:10:36 +08:00   2
    @virlaser 结果发出来吧
    murongxdb
        7
    murongxdb  
       2023-06-27 18:20:36 +08:00
    @virlaser 结果发出来吧
    fengjianxinghun
        8
    fengjianxinghun  
       2023-06-27 18:23:01 +08:00
    @virlaser 老哥,就等你了
    itechify
        9
    itechify  
    PRO
       2023-06-27 18:37:57 +08:00 via Android
    @virlaser 我的好兄弟,就等你了
    virlaser
        10
    virlaser  
       2023-06-27 19:25:19 +08:00   9
    spicy777
        11
    spicy777  
       2023-06-27 19:32:06 +08:00
    @virlaser 太攒劲了
        12
    TArysiyehua  
       2023-06-27 19:46:40 +08:00
    请问 filter 过滤器在哪里设置的?如何改成只剩下 sex ?
    BeiChuanAlex
        13
    BeiChuanAlex  
    OP
       2023-06-27 19:48:56 +08:00
    @TArysiyehua 啥都不用改,代码运行就是所有数据,代码里没过滤
    xiaoxuan6
        14
    xiaoxuan6  
       2023-06-27 20:52:32 +08:00
    随机进去第一个频道第一个视频就是色情,还好不是自动播放 [狗头]
    BeiChuanAlex
        15
    BeiChuanAlex  
    OP
       2023-06-27 21:08:17 +08:00
    @xiaoxuan6 哪个?
    Promtheus
        16
    Promtheus  
       2023-06-28 08:17:58 +08:00
    tg 质量高的群组好少啊,包括色情类的。都是大量的数据堆积。需要费力的从一大堆垃圾中刨食的感觉
    NjcyNzMzNDQ3
        17
    NjcyNzMzNDQ3  
       2023-06-28 16:26:05 +08:00
    1 、都上 tg 了还自我阉割啥 ( dog
    2 、数据里选择大于 1500 人,其次含有中文简介的群组,只剩下 500 条了
    3 、数据源好多推荐引流站,还有 V2EX 的陈年老帖。。。

    扫了一圈就加了一个 vps 优惠通知群,qaq
    BeiChuanAlex
        18
    BeiChuanAlex  
    OP
       2023-06-28 22:26:11 +08:00
    @NjcyNzMzNDQ3 暂时还没有去研究其他的数据源渠道。数据要经过过滤、去重、聚合、筛选、整理后才有价值,在精不在多。
    ClA0ClA0
        19
    ClA0ClA0  
       2023-12-03 20:32:42 +08:00
    @virlaser #10 佬,过期了可以重新发一下吗
    FlyingDough
        20
    FlyingDough  
       2024-10-12 12:15:49 +08:00
    大佬样本集是怎么找的啊
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1035 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 23:34 PVG 07:34 LAX 15:34 JFK 18:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86