几万条网页剪藏,且在不断增加中,如何便捷的管理与检索? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gdm
V2EX    问与答

几万条网页剪藏,且在不断增加中,如何便捷的管理与检索?

  •  
  •   gdm 2020-12-04 04:47:46 +08:00 4275 次点击
    这是一个创建于 1773 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今有文科的 C 教授,因论文研究需要,收藏了约三万条网页新闻内容,且每年还会增加两三千条。
    任何资料多了,管理都很麻烦。目前 C 教授使用某古老版本的 FileMaker Pro 来管理这些网页内容,所有内容都由助理来录入新闻的日期、来源、正文、C 教授的评论,及 C 教授特有的几大 tags 。可是 FileMaker Pro 的性能其实也没很好,基本上要一年做一个 database,现在已经收集了十几年,所以,比如要在新闻里面找「 APEC 」,C 教授需要一个一个 database 的打开,然后搜索,效率低下,而且会破坏思路……
    C 教授也使用 Evernote 来记笔记,所以在考虑改用 Evernote 来搜集,并逐渐将 FileMaker Pro 搜集好的内容转移到 Evernote 。我担心 Evernote 跑不动他这三万,最后还是要一两年一个号。而且 Evernote 有 tags 上限,最多十万,其实是不太够用的。
    可能也可以新东西就 Evernote,毕竟 Evernote 的剪藏好用,而旧的三万条就转去某个便于检索的软件。这样分两个检索应该还不至于麻烦死人。
    大家有什么建议的软件吗?
    38 条回复    2022-08-26 12:06:57 +08:00
    Ettup
        1
    Ettup  
       2020-12-04 05:10:20 +08:00 via iPhone
    TimePPT
        2
    TimePPT  
    PRO
       2020-12-04 08:34:13 +08:00 via Android
    有助理整理,且这么大的量,直接搭个 wiki 吧,后端检索如果想优化单接个 ES,有一点开发成本,但既然是刚需就有必要
    err1y
        3
    err1y  
       2020-12-04 08:44:47 +08:00 via iPhone
    t/730574

    这个项目想解决的一部分问题就包括你说的这个事情。未来半年到一年内差不多可以实现(现在还处于理念雏形阶段)
    gdm
        4
    gdm  
    OP
       2020-12-04 08:52:43 +08:00
    谢谢答复。为什么收藏比回复多啊?

    @Ettup 然鹅教授办公室、laptop 、家里的电脑全都用 Windows……

    @TimePPT 助理都是些大二大三的中文系女生,约等于打字员,没有维护能力。搭建好后几年教授要换电脑时又可能会发生灾难,所以教授倾向于使用成品软件……
    AndyAO
        5
    AndyAO  
       2020-12-04 08:57:10 +08:00   1
    我的收藏比这个教授更恐怖,不仅有大量的网页(Chrome 有保存到本地的扩展,很棒),还有很多很多的电子书(图片版都自动 OCR 了)。

    方法是直接全文检索(Windows 有专门的接口),这方面的工具有很多支持,布尔表达式(NEAR 好用爆了)和正则表达式,几乎可以满足所有的需求。

    目前不管是笔记,电子书还是检查,全部是在本地的,数据完全在自己手里,想怎么弄就怎么弄。
    AndyAO
        6
    AndyAO  
       2020-12-04 08:58:32 +08:00   1
    每次我查资料的时候,只要输入表达式,例如(结构化编程 NEAR 数学),然后我很快就能听到风扇巨大的轰鸣声,之后就把这两个词相邻的所有文档全给列出来了,而且我能一目了然的直接查看里面的内容根本就不用切换界面。
    vsitebon
        7
    vsitebon  
       2020-12-04 09:09:28 +08:00   1
    如果只是要保存内容,那就只保存纯文本文件(例如 markdown,方便后期索引);
    然后用本地检索软件,例如 Filelocator 进行检索,然后因为有好几万个,tags 也有好几万个,那就专门在文本中直接保留原始的#标签,另外再整理一份完整的 #tag 列表,也可以专门去找打 tag 软件;
    至于为了查看,那就用各种 markdown 查看软件(目前有朋友一万三千个笔记也是这样整理
    不过他还会用 devonthink 来分析整理
    gdm
        8
    gdm  
    OP
       2020-12-04 09:11:32 +08:00
    @err1y 祝早日完成


    @AndyAO 自己弄全文检索问题在于 tags 的管理,我以前和教授建讨论过 DocFetcher 配合 markdown,后来还是因为 tags 的问题放弃,因为 tags 对文科研究者而言是攸关论文主轴和理论框架的问题
    AndyAO
        9
    AndyAO  
       2020-12-04 09:15:29 +08:00
    感觉如果 tags 是标签的意思,例如印象笔记中的标签,那么不妨碍在本地使用全文检索,感觉对于程序员来说解决起来应该是非常简单的。
    laike9m
        10
    laike9m  
       2020-12-04 09:24:14 +08:00 via Android
    建议不要用印象笔记。主要是因为印象笔记的搜索并不好,而且我<1w 的笔记量有时候已经很卡了。不过具体用什么,我也不知道,毕竟印象的剪藏还是无可匹敌的
    gdm
        11
    gdm  
    OP
       2020-12-04 09:29:15 +08:00
    @AndyAO 由于教授只使用不到十个 tags 来归纳他的三万剪藏,一个 tag 的结果会有几千条,呈现效率会比较恶心,而且打断思路。教授是文科的,不是程序员,他只想要一款由程序员精心制作的软件来帮他解决问题……

    @vsitebon 这和最初讨论过的方案比较接近,但由于教授还需要在多台电脑上作业,打 tags 软件不太好同步


    @laike9m 谢谢提醒,果然还是不能用 Evernote虽然我最近发现做网页收集的文科教授们都很爱用这货
    laike9m
        12
    laike9m  
       2020-12-04 09:30:05 +08:00 via Android
    @gdm 如果你找到更好的替代品可以提醒我一下。我因为历史原因还在用
    vsitebon
        13
    vsitebon  
       2020-12-04 09:31:45 +08:00
    @gdm 我的意思是直接在文本中加上对应的标签列,例如

    # 新闻标题

    #标签 1 #标签 2 #标签 3

    {摘录日期}

    {内容}

    {评论(外部的另说)}

    然后另外维护一个列表,包括#标签 1 #标签 2 #标签 3,然后用 Filelocator 每次检索的时候,直接加上标签 #标签 1,然后内容,支持的索引的话,纯文本文件会非常快。

    如何解决图片内容以及 扫描版 pdf 的本地内容管理,这里还另外建议 ABBYY 。

    理论上这个工作流,会很方便;但是如果希望自己每次填充标签的时候,能够有类似搜索建议的弹窗,那我现在就只能推荐各种本身支持 tag 的 markdown 软件,或,如上所说的,单独维护一个标签列表,每次在打标签的时候,同时检索一下之前也没有类似的标签。

    所以最后问题落在,如何在每次输入#标签 1.1 的时候会建议#标签 1,
    gdm
        14
    gdm  
    OP
       2020-12-04 09:43:39 +08:00
    @vsitebon 我觉得他打 tags 是需要外部呈现的,可能会拿来 sort 或是怎样,总之他强调过多次 tags 对他而言很重要。可能是因为他论文还在构建,可能还存在某些逻辑上的欠缺或模糊,所以对我表述时并不是特别清晰
    由于是很纯文科的教授,不太用理科的思维去思考,不过我会根据你的建议,向他介绍理科思维,谢谢


    @laike9m 看了你的回复我终于明白为什么收藏人数大于回复人数了 XD
    cmdOptionKana
        15
    cmdOptionKana  
       2020-12-04 09:55:57 +08:00
    TimePPT
        16
    TimePPT  
    PRO
       2020-12-04 09:58:00 +08:00
    @gdm 搭 wiki 当然是服务器上搭,直接 web 登录,换哪个电脑都没所谓了
    AndyAO
        17
    AndyAO  
       2020-12-04 10:22:28 +08:00
    @gdm #11

    场景是这样吗?也就是十几个标签管理,上万个电子书,点开每个 tag,那么每次的话需要展示上千个文档.

    你这里说一下我想到的东西,也许会对你有点用

    1. 对于某个表达式进行搜索和排序,并且返回结果,速度应该是非常快的。如果你的软件做不到那么不太合适。
    2. 展示几千个文档,这个当然是不可能的,也是不需要的。如果你的软件是直接这么列出来的,那么它本来就不适合这种场景。

    **百度或谷歌搜索引擎就是这样的,返回速度非常快,但只会返回并渲染 10~20 个结果。这种解决方案在很多的其他 App 也都有,是很成熟的。**

    前几天看到过有个人在做这方面的工作,好像也在 V2EX 发过贴,叫做归海数据.我曾经试用过,或许能解决这种情况?

    https://i.loli.net/2020/12/04/KZhmpnQNWXqGFUl.png

    ***

    还有就是我不太明白为什么会有『一个 tag 的结果几千条,呈现效率会比较恶心,而且打断思路』的情况出现,如果要搜索资料库的话,应该不会直接匹配搜索库的 1/10 。

    按照我的理解,出现这种情况的话,教授可能会这样搜索,`tags:历史`如果真是这样的话,我是没有办法理解教授的行为,这种关键词能查出什么东西?返回的内容太多太多.

    如果不是,**可以把教授的搜索关键词发上来**.
    coolair
        18
    coolair  
       2020-12-04 10:55:10 +08:00
    你可以去微博问问伞哥,他的收藏估计比 C 教授还多。
    vsitebon
        19
    vsitebon  
       2020-12-04 10:56:10 +08:00
    @gdm 其实关于标签管理,完全可以用类似杜威十进制或中国图书馆的类别进行管理,以下是我的笔记(标签管理)实例以及具体类别实例:

    https://imgur.com/nwIdyFa

    https://imgur.com/eIA4YOU

    然后如果担心实在太多太多,那就将同类别的标签,新建一个页面,用于管理;因为类别大概率只会有几个(而且不会增加),但是类别内的关键词可能会大幅度增加,这样可以保证未来的可验证能力

    而且我特地推荐这种纯文本+#标签的方式的原因是,我此前也用 Evernote Notion 等,当你仅需要保留文件内容检索的时候,这两者都会遇到性能瓶颈,因为他们并不是专门的检索应用;

    专业的事情应该由专业的软件去做,笔记软件可以用任意能写纯文本的软件,裁剪用专门的裁剪插件,检索也可以用你所说的 Docfetcher 或者我提到的 fileLocator 。
    vsitebon
        20
    vsitebon  
       2020-12-04 10:58:06 +08:00   1
    echowuhao
        21
    echowuhao  
       2020-12-04 14:40:34 +08:00
    没有一个用 NAS 的。

    买一个 NAS,我用的威联通有 Qsirch,chrome 有 Qsirch Helper 插件。

    买个性能好的 NAS,全部 SSD 。 几万,几十万文件不在话下。

    即使没有搜索需求那么多重要文件,也该考虑 NAS 备份了。
    NasirQ
        22
    NasirQ  
       2020-12-04 14:59:43 +08:00
    威联通+1
    Qsirch 很好用
    组个 RAID,备份安全。
    tankren
        23
    tankren  
       2020-12-04 15:30:26 +08:00
    至少弄个文件服务器或者 NAS 吧 多终端才方便
    sun1991
        24
    sun1991  
       2020-12-04 17:08:05 +08:00
    无责任推荐 MyBase [http://www.wjjsoft.com/mybase.html], 最近正在考虑从 Evernote 转.
    sillydaddy
        25
    sillydaddy  
       2020-12-04 17:28:05 +08:00 via Android
    @vsitebon 这些 tags 的列表是 obsidian 里面的结构吗?看着像是 wiki
    sunbreak
        26
    sunbreak  
       2020-12-04 17:31:32 +08:00
    vsitebon
        27
    vsitebon  
       2020-12-04 19:28:44 +08:00
    @sillydaddy 是 Obsidian
    gdm
        28
    gdm  
    OP
       2020-12-04 22:00:52 +08:00
    @cmdOptionKana 这看起来蛮酷的,我觉得是个不错的方案

    @TimePPT 文科教授没有购置服务器的经费,只能用办公室电脑本地搭建,助理可能都没听过 Linux,不太可能让他们弄这个

    @AndyAO 不是十几个 tags 管理,而是写论文就是要集中你的主题,不可能分散到几百个主题里面,那写不出论文。所以教授用的 tags 不到十个。我也觉得他的需求近乎桌面搜索,但可能他对搜索结果的呈现要求比较高。
    关键词比如「画像」,tags 比如「族群」,涉及象征政治学、agnotology 、社会动力学等理论,v2ex 看过的人应该不超过十个。

    @vsitebon 一般人收集的东西啥都有,而 C 教授收集的东西用图书分类法来分的话,几乎全在一两个子类里面。

    @echowuhao 谢谢,我会建议他试试看,不过 Linux 对他来说会是大问题

    @sun1991 量少的时候 mybase 确实很不错,我担心的是 3 万以上的量,搜索会故障

    @sunbreak 这看起来是阅读插件? C 教授不太有这类需求,因为他全都看过了
    whatalittleboy
        29
    whatalittleboy  
       2020-12-04 22:12:29 +08:00
    “Archivarius 3000 是一个搜索计算机上,局域网上和可移动驱动器( CD,DVD )上的文档和电子邮件. 文档可以使用关键字或使用查询语言进行搜索, 和在 Internet 搜索引擎一样”

    虽然这个软件界面设计很古老,但全文检索真的牛逼,支持的格式还贼多;另外,网页可以用 chrome 插件 SlingFile 保存为单个 html 文件,图文都能原样式保存下来

    https://sm.ms/image/uKWbn8Ix14Qp6fG

    http://www.likasoft.com/cn/document-search/
    echowuhao
        30
    echowuhao  
       2020-12-04 22:21:41 +08:00 via Android
    nas 设置一下花几个小时 然后就都是网页访问 花 2000 块买一个回来玩玩就知道了 这可能是最好的方案了
    Kyon945
        31
    Kyon945  
       2020-12-05 12:10:30 +08:00   1
    SingleFile (浏览器扩展) 离线保存网页
    简悦(浏览器扩展)网页上广告比较多的用简悦保存为离线 html
    网页剪贴簿(浏览器扩展)+ Everything 本地 http 服务后给离线网页做笔记
    Archivarius3000 ( Win )完美实现 PDF / markdown / html / mobi / epub / azw3 / txt 格式全文搜索
    手机是 iPhone,用 iCloud 同步笔记到手机端,iPhone 自带的文件 APP 可以完美打开离线 html 网页/ PDF...

    这大概是我的方案
    AX5N
        32
    AX5N  
       2020-12-06 20:39:23 +08:00
    @gdm 你的教授的习惯是这样吗看到不错的东西,保存下来后并且打上 tag 。等需要的时候,输入 tag,然后软件把所有的该 tag 下的文章给找出来。还是说不仅要搜索 tag,还要搜索正文内容?
    panyuz
        33
    panyuz  
       2021-10-10 21:52:29 +08:00 via iPhone
    教授最后选择了哪个方案? @gdm
    panyuz
        34
    panyuz  
       2021-10-10 21:55:24 +08:00 via iPhone
    @AndyAO 支持 near 的是哪个软件?
    AndyAO
        35
    AndyAO  
       2021-10-11 06:09:31 +08:00
    @panyuz FileLocator 布尔表达式
    gdm
        36
    gdm  
    OP
       2021-10-11 08:36:54 +08:00
    @panyuz 由于对检索速度太执着,目前使用了一个很古老的佛经搜索软件叫 accelon 3,最新的东西就在文件名上打好 tags,然后用 everything 来搜
    voidtools
        37
    voidtools  
       2022-08-26 12:04:33 +08:00 via Android
    @AndyAO 帖子很久了,但是想问一下。有没有用过 filel0cator 的命令行模式我碰到一个问题。布尔正则表达式在图形化界面正常,在命令行模式就出现错误,无法解析。
    voidtools
        38
    voidtools  
       2022-08-26 12:06:57 +08:00 via Android
    @AndyAO 帖子很久了,但是想问一下。有没有用过 filel0cator 的命令行模式我碰到一个问题。写了个布尔正则表达式在图形化界面正常,在命令行模式就出现错误,无法解析。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2724 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 07:47 PVG 15:47 LAX 00:47 JFK 03:47
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86