chuansong.me 这网站一直都是采集的微信公众号的文章,这种采集是如何实现的那?采集的来源是哪里那? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Pyhon the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
soho176
V2EX    Python

chuansong.me 这网站一直都是采集的微信公众号的文章,这种采集是如何实现的那?采集的来源是哪里那?

  •  
  •   soho176 2016-09-23 12:21:30 +08:00 26035 次点击
    这是一个创建于 3380 天前的主题,其中的信息可能已经有所发展或是发生改变。
    43 条回复    2017-11-05 15:24:56 +08:00
    billytom
        1
    billytom  
       2016-09-23 13:33:02 +08:00   1
    这个网站要发财了

    chuansong.me 的站点信息
    备案信息:浙 ICP 备 15001855 号-1(个人备案)
    该网站共有 2,061,848 个网页被百度收录

    按这种收录数,每天至少 10-15 万独立 IP 访问
    而本人什么都不用干,就给服务器钱就可以了

    牛!
    billytom
        2
    billytom  
       2016-09-23 13:36:34 +08:00   1
    什么叫躺着挣钱? 一句话,牛逼

    billytom
        3
    billytom  
       2016-09-23 13:37:38 +08:00
    只可惜格局还是小了点,这种数量文字的索引量,如果把平时收入的 1/3 拿出来买大站的链接。中文网站前三名都能做上去的
    eightqueen
        4
    eightqueen  
       2016-09-23 14:17:11 +08:00
    其实这功能应该由微信提供,我就不信只有我一个人喜欢在电脑上看公众号。
    xiaoice
        5
    xiaoice  
       2016-09-23 14:24:24 +08:00 via iPhone
    牛逼。做些技术苦力外包 不如自己搞些项目。
    csx163
        6
    csx163  
       2016-09-23 14:41:27 +08:00
    记得以前发网站上来就会被 DDOS ,这不是害人家么
    layzai
        7
    layzai  
       2016-09-23 15:01:23 +08:00
    mark 这个站关注很久了
    zixianlei
        8
    zixianlei  
       2016-09-23 15:04:07 +08:00
    估计站长想打死你了。。。 hhh
    daybyday
        9
    daybyday  
       2016-09-23 15:20:33 +08:00
    @billytom 贴图的查询网站是?
    crab
        10
    crab  
       2016-09-23 15:49:47 +08:00
    @daybyday aizhan.com
    记得作者之前在 weibo 说会分享,但后来就没消息了。
    laoyuan
        11
    laoyuan  
       2016-09-23 15:52:30 +08:00
    企鹅会不会报警抓人?
    xiaojay
        12
    xiaojay  
       2016-09-23 15:54:48 +08:00
    首发就在 V2EX 233
    t/66454
    tyhunter
        13
    tyhunter  
       2016-09-23 15:59:17 +08:00
    站长就在 V2EX @alexzhan
    aricch
        14
    aricch  
       2016-09-23 16:13:17 +08:00
    发现备案号都查询不到呀
    benteke
        15
    benteke  
       2016-09-23 16:24:48 +08:00
    采集站的收录量也能这么高。。。?
    xtynk
        16
    xtynk  
       2016-09-23 16:26:53 +08:00
    @eightqueen wx.sogou.com 腾讯投资了搜狗,这个就是微信公众号官方的 WEB 展示页面
    porwyn
        17
    porwyn  
       2016-09-23 16:33:52 +08:00
    @aricch 去后缀为 gov.cn 查询
    jason52
        18
    jason52  
       2016-09-23 16:44:36 +08:00
    @xiaojay 竟然出现过我。哈哈
    tadtung
        19
    tadtung  
       2016-09-23 16:48:33 +08:00
    微信公众号文章采集,,,年初的时候,我见过有人卖过源码。
    而且微信公众号文章采集,,收录过亿的都有。。。具体你可以百度。
    @benteke 这个和现在百度的算法有关,,,很多时候原创(当然高质量原创另说)的确敌不过采集,,我自己的站就是。
    Robias
        20
    Robias  
       2016-09-23 16:49:45 +08:00
    不定时采集吗?腾讯不封?
    sunocean
        21
    sunocean  
       2016-09-23 16:52:51 +08:00
    学会一种新思维, 谢谢楼主
    Immortal
        22
    Immortal  
       2016-09-23 16:54:30 +08:00
    别跑题啊
    我也好奇这块采集怎么处理的
    有大牛讲解下么
    billytom
        23
    billytom  
       2016-09-23 18:33:41 +08:00
    @aricch 站长把域名注册人都隐藏了,显然是对此方法可能造成的“法律风险”做了一定的规避
    不过三年能做到这种流量,很不错了
    billytom
        24
    billytom  
       2016-09-23 18:35:13 +08:00
    @zixianlei 的确,这种网站闷声赚钱是最好的
    bombless
        25
    bombless  
       2016-09-23 18:37:51 +08:00   1
    https://github.com/bowenpay/wechat-spider
    之前 v 站不是有人分享过他这个项目么
    livc
        26
    livc  
       2016-09-23 22:03:40 +08:00
    好奇这个网站是手动收录的吗?
    shiny
        27
    shiny  
    PRO
       2016-09-23 22:08:23 +08:00
    很久以前问过他本人,就是他没透露。 他做的比搜狗的要早。
    chiv2
        28
    chiv2  
       2016-09-23 23:00:21 +08:00
    页面上没有广告,流量如何变现?
    soho176
        29
    soho176  
    OP
       2016-09-23 23:50:11 +08:00
    @chiv2 醉了 没广告?、你确定?肯定是浏览器有屏蔽插件 吧,一个页面上 好些广告的
    VmuTargh
        30
    VmuTargh  
       2016-09-23 23:52:28 +08:00 via Android
    不过我个人觉得这个站不错啊
    至少像我这种不用微信的人来说还是很方便的。
    soho176
        31
    soho176  
    OP
       2016-09-23 23:53:20 +08:00
    @billytom 的确是发财了 闷声发大财啊
    soho176
        32
    soho176  
    OP
       2016-09-23 23:55:34 +08:00
    @sunocean 那么杂感谢我那。。哈
    murmur
        33
    murmur  
       2016-09-23 23:57:51 +08:00
    支持 D 一下 微信公众号盗抄 这个盗抄公众号。。。
    adfsadfssfd
        34
    adfsadfssfd  
       2016-09-24 00:47:55 +08:00
    垃圾采集站 以偷东西为生
    wizardforcel
        35
    wizardforcel  
       2016-09-24 08:46:54 +08:00 via Android
    微信生态封闭,简直是自食其果。
    pango
        36
    pango  
       2016-09-24 11:46:46 +08:00
    据我所知,早期的一些直接采微信的采集方法均已失效,这个网站可能有内部资源(我不认识作者,纯猜测)。
    marcus930
        37
    marcus930  
       2016-09-25 13:14:19 +08:00 via Android
    @eightqueen 同感,手机看着太累了,图片加载也慢。
    gamecreating
        38
    gamecreating  
       2016-10-04 19:40:11 +08:00
    @billytom 看代码 是采集的 http://weixin.sogou.com/ 这似乎不是 chuansong.me 应该是直接采集的 微信数据才对吧
    ppyace
        39
    ppyace  
       2017-08-21 16:57:51 +08:00
    仔细研究,发现采集的是 sougou,不多最近数据代码看,看来,他选用每日采集,符合微信最新 10 篇文章规则。
    AlwaysBee
        40
    AlwaysBee  
       2017-09-16 20:39:04 +08:00
    之前也做了一款 WordPress 插件一键导入微信文章到网站中,并且突破防盗链,能够把图片下载下来,支持自动同步,如果要采集所有文章提供这样的服务,感兴趣可以搜一下 beepress,http://artizen.me/beepress

    现在大部分爬虫都是采集搜狗的,还有一种基于中间人代理去爬取,现在看传送门的文章里面的图片好像都被防盗链弄掉了
    shiny
        41
    shiny  
    PRO
       2017-11-01 20:03:09 +08:00
    这个站已经不行了,被百度上线的算法打击,断崖式下滑 http://ziyuan.baidu.com/wiki/1050
    dongdong95
        42
    dongdong95  
       2017-11-05 12:12:49 +08:00
    @shiny 但是每日访客还是很牛逼
    shiny
        43
    shiny  
    PRO
       2017-11-05 15:24:56 +08:00
    @dongdong95 比以前掉了太多了,当然瘦死的骆驼比马大 https://lishi.aizhan.com/chuansong.me/randabr/2017-05-05/2017-11-05/
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5194 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 87ms UTC 07:25 PVG 15:25 LAX 23:25 JFK 02:25
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86