有人知道印象笔记的 Chrome 插件剪藏的实现原理么？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

Vimium 在 Chrome 里使用 vim 快捷键

这是一个创建于 3655 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题， Chrome 插件的剪藏插件可以把网页的内容剪下来存入到一片笔记中，对于技术资料的收集简直是一大利器。

因为网上的网址可能不会永久存在，但是剪藏下来，就不会怕网址无法访问而丢失原来的内容了。而且也方便自己做知识的管理。

对于这个剪藏插件的原理和算法特别好奇，想知道它是如何识别网页正文、识别广告的呢？有知道的同学吗？

附 2 张图：

9 条回复 2016-03-31 16:10:47 +08:00

pheyer

2016 年 3 月 31 日

你解压 crx 看一下它的源码不就知道了吗

pheyer

2016 年 3 月 31 日

也不是一直很可靠，其实一般来说我都是选中文字再进行剪藏的

flyslow

2016 年 3 月 31 日

@pheyer 解压看过，全部是混淆的代码，不是非常清晰。

morvencao

2016 年 3 月 31 日

貌似是给标签打分。

flyslow

2016 年 3 月 31 日

@morvencao 猜测还是有相关的分析？

towser

2016 年 3 月 31 日

正文提取算法，做爬虫也能用到。

nameryan

2016 年 3 月 31 日

现在 V2 的帖子是越来越水了！
---
crx 的可以看源码，不过核心技术应该不会放在上面
类似的还有 instpaper 和 pocket ，有相应的 api 开放可供开发者调用
其实这就是从大段的 div 里面找到正文然后识别出来而已，只不过优化做的好不好。

sciooga

2016 年 3 月 31 日

关键词： Readability

V 站内有过很多讨论：
/t/10934
/t/67099
/t/223840
/t/241986

看一下就能了解个大概。

leojoy710

2016 年 3 月 31 日