1 lawder 2015-12-08 10:49:27 +08:00 抓的搜狗搜索吗? |
![]() | 2 50vip 2015-12-08 10:56:19 +08:00 很厉害。。。 |
3 XianZaiZhuCe 2015-12-08 11:05:12 +08:00 那干嘛不用 wordpress 还自己撸什么 |
![]() | 4 sinux 2015-12-08 11:12:38 +08:00 代码呢? |
5 1987618girl 2015-12-08 11:26:57 +08:00 代码呢,求 git |
![]() | 7 pango OP @XianZaiZhuCe 自己撸可以撸出成就感 |
![]() | 8 pango OP |
![]() | 9 Moker 2015-12-08 12:47:39 +08:00 以前也通过搜狗抓过 后来被封了 就别搞了 |
![]() | 10 qmqy 2015-12-08 12:50:51 +08:00 请问楼主如何处理搜狗反爬虫的策略的? 听说搜狗这方面做了超多限制,各种黑科技。 |
12 Jackhuang 2015-12-08 14:19:32 +08:00 via iPhone 抓搜狗有两个问题,第一是搜狗老是增加难度,第二是不全,而现在在网页端可以分析 xml ,公众可以很全,但是问题是中间有一步需要人工转发到网页端提取 xml 。请问楼主怎么搞定的?前段时间想法就是先人工把公众号的历史搞定,之后更新信息从搜狗抓,但是人工这一步太烦了,搜狗现在用 phtomjs 模拟浏览器, url 居然是 sogou ,原来是直接 tx 的 url 了,意味着还要一步,假期写了一半的爬虫就此放弃了。。。 @pango |
13 daoluan 2015-12-08 15:29:15 +08:00 半分钟切换数据库或者缓存实现 这句话是什么意思? |
![]() | 14 costimes 2015-12-08 15:47:16 +08:00 RSS 非全文输出………… |
![]() | 15 sadara 2015-12-08 16:13:20 +08:00 求代码 |
![]() | 16 dong3580 2015-12-08 16:50:42 +08:00 ![]() @qmqy 先获取列表,保存下 cookie ,然后带 cookie 请求公众号所在的列表地址, 再用该 cookie 去请求某页的列表, 继续用该 cookie 请求列表中某篇文章的内容。 建议用浏览器抓抓,看看原理就懂了,很好理解的。 |
![]() | 17 lazarus 2015-12-08 17:00:21 +08:00 code 没放出来吗? |
![]() | 18 pango OP @Jackhuang 我也是人工,但是数量不多,结合自己写个小程序辅助一下,所以还好。另外还支持直接提交文章,提交的文章只要把 biz 提取出来就可以自动分类。我没涉及到 xml 。 |
19 honeycomb 2015-12-08 17:13:17 +08:00 via Android 楼主强力! |
![]() | 21 pango OP @dong3580 最好用 phantomjs 获取 cookie ,直接 request.get 的话好像拿不到完整的 cookie |
![]() | 22 pango OP @costimes 先关注一些公众号,在“我的关注”里面输出的 rss 是全文的。 因为微信公众号的文章里面的图片地址不是常规的,要通过 python 转换一下,蛮耗 CPU 的,所以没法全部用全文输出。 |
![]() | 25 JiaFeiX 2015-12-08 23:34:20 +08:00 求代码 |
![]() | 26 jkm 2015-12-09 10:01:54 +08:00 我也自己做过一个网站, 和大家分享一下: 去年在国外看到一个很有意思的趣味和搞笑类的视频网站 break.com, 于是仿照它的结构和界面用 CoolPHP 做了一个恶搞类的视频网站(上线地址: http://www.iprank.tv ,因为内嵌了 youtube 视频,需要翻墙才能看到完整的效果)。整个网站从原型制作、 UI 设计、文字策划、前端开发、后台开发以及运营工作等全部工作由我一人兼职完成。 整个网站使用响应式设计,支持 PC,手机和平板等多种分辨率显示设备,网站使用如下技术栈: PHP 开发框架 - CoolPHP 前段框架 - Bootstrap, 使用 Less 来设计调试页面样式,正式上线编译成 css 代码压缩 - Minify 对 js/css 进行文字压缩 第三方 SDK - Google Adsense, Google Analytics, Facebook SDK, Twitter SDK... 网站测试地址: 前台界面,支持注册登陆、浏览以及发布视频: http://www.iprank.tv 后台界面,支持 YouTube 视频抓取,内容编辑等: http://www.iprank.tv/admin 测试账号: [email protected]/123456 |
![]() | 29 pango OP @jkm 有,很多人做英文采集站都是以图片、软件、视频开始的,因为不涉及到改写,难度较低,所以这样的站很多,也都能分到一点 google 的流量 |
30 mycccc 2015-12-09 14:36:28 +08:00 发现一些自己想看的上面没有 可以提供一个提交公众号的入口么? |
32 Aquamarine 2016-01-04 20:39:12 +08:00 太感谢楼主了,正在找类似的网站,但愿能存活久一些。 另外可以支持知乎专栏或者日报吗? |
33 Aquamarine 2016-01-06 09:43:18 +08:00 感觉奇怪,发现大家要手动刷新 The Old Reader 才能获取到。 |
![]() | 34 pango OP @Aquamarine 目前广告收入 2 块,正好摊平服务器费用,所以,我想会存活下去,吧。。。 |
![]() | 35 pango OP |
36 Aquamarine 2016-01-07 19:06:34 +08:00 @pango 我指的倒不是经济上的问题,而是会被官方封杀,此类之前的几个不是都荒废了么。 |
37 Aquamarine 2016-01-07 19:07:56 +08:00 @pango 就是说无法主动推送到阅读器中,要手动刷新才能有新的未读条目。但是我第二次发现能够接收到了,我再观察看看,有情况再反馈。 |
![]() | 38 pango OP @Aquamarine 感谢反馈,不过 weiheji.net 提供的是普通的 Rss ,应该不是导致出现你这个情况的原因。 |
39 Aquamarine 2016-01-09 13:57:57 +08:00 @pango 今天观察结果,能够自动收到订阅内容。不过有时差,截止发回复时点,我这里(手动刷新无更新)最新的是《袁征:漫画大师丁聪之二丨从批判别人到自己挨整》,显示 15 小时前,而你的网站最新是《念经时念亡人名字回向非常重要》,显示 17 分钟前,这个是 RSS 阅读器的问题吧? |