![]() | 1 missqso 2015-04-27 23:34:38 +08:00 谢谢 |
2 alsacegustav 2015-04-28 00:17:48 +08:00 好用,文字、图片、格式抓取过来都正常,希望能长期使用,加油 |
![]() | 3 wlwr OP @alsacegustav 会长期维护,谢谢支持哈 |
4 wizos 2015-04-28 11:02:12 +08:00 用inoreader时,抓取的内容会直接显示标签…… |
![]() | 5 m3ng9i 2015-04-28 12:30:37 +08:00 不错。另外有一些符号,比如英文圆括号能不能不要编码成 ( 和 ) 啊? |
![]() | 6 m3ng9i /div> 2015-04-28 13:04:47 +08:00 这个地址报错:Internal Server Error http://rss.wlwr.net/weixin/oIWsFt_fzFTmSWJ96bXXqFX0yHIQ |
![]() | 7 ccbikai PRO 搜狗有反爬虫,你做处理了吗? |
![]() | 8 XnEnokq9vkvVq4 2015-04-28 13:36:43 +08:00 ![]() 用 inoreader 看时,有些会显示代码。。 |
9 siriusVtoEX 2015-04-28 13:45:38 +08:00 @wizos 同样的问题 |
![]() | 14 ccbikai PRO @ccbikai 不只是 IP ,还有 cookies ,有人 做过 http://bozpy.sinaapp.com/blog/24 |
![]() | 15 mrjoel 2015-04-29 09:29:07 +08:00 额 仔细看了下 是订阅公众号内容。。 |
16 wizos 2015-05-01 16:05:26 +08:00 好像没用了…… |
18 mytion 2015-05-02 22:02:41 +08:00 不错,已经收藏使用,希望长期保持。加油 |
![]() | 22 zangbob 2015-05-05 13:02:52 +08:00 @wlwr 感谢楼主的作品,希望能长期运行。 PS:貌似html代码过滤不干净。。。比如这个: http://rss.wlwr.net/weixin/oIWsFt2w7J2ciAdD722lQRr6_Tec |
24 xcz 2015-05-18 20:10:55 +08:00 via Android 这个不做过滤在inoreader里面看见的真的很纠结啊,别的没有测试,楼主用什么RSS阅读器? |
![]() | 26 berry10086 2015-05-20 12:09:19 +08:00 楼主是抓取搜狗的gzhjs这个地址吗 |
![]() | 27 berry10086 2015-05-20 12:09:40 +08:00 现在好像又是数据采集异常 |
28 wizos 2015-05-22 13:46:37 +08:00 换用http://weirss.me/吧 |
![]() | 29 wlwr OP ![]() @berry10086 是的,搜狗接口做了加密处理,导致采集失败。问题已修复,可以正常使用了。 |
![]() | 30 berry10086 2015-05-23 09:42:31 +08:00 @wlwr 我也试着写了一个,http://weirss.me,抓取是直接用selenium + phantomjs,解析js渲染后的html,不用考虑cookies和接口变化。但是问题是抓取速度太慢,有时会超时 |
![]() | 31 berry10086 2015-05-23 09:59:39 +08:00 @wlwr 你的网站抓取非常快 |
![]() | 32 wlwr OP @berry10086 当时也有考虑过phantomjs,但等待请求的资源过多,还是选择直接调接口。不过维护成本高些。 |
![]() | 33 SolLo PRO 只能是订阅号嘛?不知为何搜狗搜不到我想找的服务号啊 |
![]() | 34 Williamzhang515 2015-05-25 18:28:23 +08:00 题图似乎无法显示啊 |
36 wlwr OP @Williamzhang515 文章封面图的问题修复了,后面订阅的文章会显示封面图 |
39 sinosure 2015-05-27 12:27:12 +08:00 @wlwr 奇怪,开始能跑,但运行一段时间后就再也不能跑了,始终报错 listening on port 3000 <-- GET / <-- GET / --> GET / 200 337ms - --> GET / 200 352ms - <-- GET /weixin/oIWsFt0GzJ9B8He5MfCo4DpkeYBg <-- GET /favicon.ico --> GET /favicon.ico 404 12ms - [SyntaxError: Unexpected end of input] --> GET /weixin/oIWsFt0GzJ9B8He5MfCo4DpkeYBg 200 3,074ms - |
![]() | 41 vchard 2015-05-27 18:15:42 +08:00 这个不错,就是有的文章只有标题没有内容。 |
42 gzany 2015-05-27 18:32:11 +08:00 之前一直在用,很不错!! |
44 sinosure 2015-05-28 09:20:17 +08:00 @berry10086 看来还是基于网页的最稳定啊,有考虑开源么 |
45 icsonzhou 2015-05-29 08:27:01 +08:00 |
![]() | 46 vchard 2015-05-29 09:17:41 +08:00 无法更新了 |
![]() | 47 fuckgfw 2015-05-29 09:41:25 +08:00 采集异常,无法获取数据 |
![]() | 48 berry10086 2015-05-29 10:35:52 +08:00 @sinosure 会开源的,但是现在还没有完全做好,还有一些问题 |
![]() | 49 vchard 2015-05-29 11:34:59 +08:00 已经很好了。恢复原装就可以,能更新就行! |
50 cainiao 2015-06-07 20:31:32 +08:00 又挂了,无法采集了 |
![]() | 51 wlwr OP @cainiao 恢复了。搜狗限制了频率,请求量较多会造成不定时抽风。建议取代码 https://github.com/wlwr/rss 自己搭建一个。 |
![]() | 52 ulic95 2015-06-18 11:19:39 +08:00 现在又采集异常了 |
![]() | 54 WenyiJi 2015-07-31 13:01:48 +08:00 请问lz还在更新这个作品吗?网页打不开了 |
55 globetour 2016-07-09 12:57:22 +08:00 via Android 安装后可以正常用,但是两个小问题。 1 ,系统后台运行一段时间后自动退出了,不知什么原因。 2 ,这个能绕过搜狗的反爬机制吗? |
56 globetour 2016-07-09 16:36:42 +08:00 第 3 个问题 RSS 里好像是取每次群发的第一篇文章,其余的就没有了。 |
![]() | 57 knightliao 2016-12-20 13:44:52 +08:00 |
![]() | 58 knightliao 2018-06-13 13:43:14 +08:00 |