
1 ququzone OP http://code.google.com/p/cx-extractor/ 这个是我目前在用的算法 |
3 sohoer 2013-09-26 09:39:19 +08:00 感谢分享,也正在寻找。 |
4 mywaiting 2013-09-26 11:46:02 +08:00 虽不明,但觉厉~ |
5 cctvsmg 2013-09-26 11:51:27 +08:00 可以参考下印象笔记的剪藏插件 |
6 yushiro 2013-09-26 11:55:18 +08:00 还有一种是readability的方法, 适合提取英文的HTML正文, 对中文支持不是很好(至少以前是这样, 现在不清楚) |
7 ququzone OP @justfindu @sohoer @mywaiting 看来还是有人对这个有需求,我把目前简单的实现开源出来供大家参考: https://github.com/ququzone/html-extracor |