求本地大量 PDF 文档管理工具推荐? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
kingdom8
V2EX    程序员

求本地大量 PDF 文档管理工具推荐?

  •  
  •   kingdom8 2024-08-23 13:19:03 +08:00 3337 次点击
    这是一个创建于 415 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我在 NAS 上放了很多计算机类的文档( PDF 居多),早期使用 Endnote 管理过,但是远程同步是个问题,后来换成 wps 会员存日常使用频率最多的。但我还有大量的专业类 PDF 存在 NAS ,也一直没有整理,希望有同样遭遇的大佬们给出出主意,需求:
    1. 能否整理大批量文档
    2. 针对非图的文档可以直接全局索引(这是我为啥还没弃用 wps 的原因)
    3. 方便导出(万一以后弃坑也方便转移)
    4. 如果能添加或者编辑元数据,类似 endnote 那样更好
    5. 方便导入(总共 70GB+)
    6. 能够分类,方便查找,不单 pdf ,可能也会存在 epub 之类的电子书
    第 1 条附言    2024-08-24 10:11:54 +08:00
    我的场景里,PDF 专业类的占大头,索引的目的就是会经常去查找,方便精确匹配,对于图片类 pdf 我已经 ocr 嵌进文件里可以直接搜索内容了
    22 条回复    2024-10-22 10:38:18 +08:00
    pxiphx891
        1
    pxiphx891  
       2024-08-23 14:37:56 +08:00
    其实我也一直想这个事,我的 nas 上也有大量电子书。我尝试过百度的 ocr ,非常准。我想,如果用 ocr 一页一页把我 nas 上的电子书都整理成文本,再接入大模型,用来问答或分类,感觉都不错,就像在 iPhone 上搜索日落,能够搜到你拍的一些照片一样,你问大模型一个问题,他能从 nas 中找到几个和你问题相关的电子书的段落
    longredzzz
        2
    longredzzz  
       2024-08-23 14:53:03 +08:00
    zotero + webdav
    ClearMoki
        3
    ClearMoki  
       2024-08-23 15:00:57 +08:00
    如果需要笔记可以看看 zotero
    functionABC
        4
    functionABC  
       2024-08-23 16:05:17 +08:00
    zotero
    sumu
        5
    sumu  
       2024-08-23 16:14:19 +08:00 via Android
    以前我也是各种折腾,现在做统一传到微信读书中了(一百多本),然后开个会员,有正版的优先用正版,还没有正版的才用下载的版本。
    自带讲扫描版转电子版、听书、ai 问书都很好用
    regent
        6
    regent  
       2024-08-23 16:15:09 +08:00
    有能跑在 docker 上的 calibre web ,楼主可以试试看
    iambic
        7
    iambic  
       2024-08-23 16:16:45 +08:00
    我用的是 talebook ( https://github.com/talebook/talebook ),感觉还不错
    iambic
        8
    iambic  
       2024-08-23 16:17:14 +08:00
    电子书 talebook ,文献类 zotero
    since2021
        9
    since2021  
       2024-08-23 16:25:54 +08:00
    zotero + webdav
    ploud.fr 有 1T 的免费 webdav 空间,国内可以访问~
    itisqiang
        10
    itisqiang  
       2024-08-23 19:06:51 +08:00
    刚想推荐 Zotero ,但是一看 70 个 G 的 PDF ,这可以问问爱思唯尔或者 Wiley ~
    Apol1oBelvedere
        11
    Apol1oBelvedere  
       2024-08-23 21:48:34 +08:00
    @iambic #8 都试过,体验如下:
    1 、talebook:非常耗费资源,优化不好,对扫描类 PDF 支持不好。
    2 、zotero:全量数据同步,几十 GB 内容体验也不好。

    希望有一种服务器端做所有数据索引管理,客户端全量搜索,按需下载数据的是最好的。
    Charlot98
        12
    Charlot98  
       2024-08-24 07:24:00 +08:00
    google 的 paperpile ,可以免费试用 1 个月,可以多标签管理,做笔记,多设备实时同步。
    缺点是,单个文件较大,不好同步
    kingdom8
        13
    kingdom8  
    OP
       2024-08-24 10:07:42 +08:00
    @Apol1oBelvedere 是的,上一次从 endnote 转出来,就是进的 zetero ,但是大文件 webdav 同步确实麻烦,所以 zetero 也弃坑了,目前常用的还是 wps 云存储,一口气开了五年
    kingdom8
        14
    kingdom8  
    OP
       2024-08-24 10:08:34 +08:00
    @longredzzz zotero 也用过,大量的同步也是个麻烦事
    kingdom8
        15
    kingdom8  
    OP
       2024-08-24 10:13:36 +08:00
    @Apol1oBelvedere 是的,甚至像 @pxiphx891 这样有 AI 付费的我也可以接受
    fuis
        16
    fuis  
       2024-08-24 14:17:01 +08:00
    zotero + webdav
    invzhi
        17
    invzhi  
       2024-08-25 19:38:18 +08:00
    Devonthink + WebDAV
    zealinux
        18
    zealinux  
       2024-08-25 22:09:59 +08:00
    DEVONThink 就是为这些需求而生,但是要你电脑换成 MacOS
    dode
        19
    dode  
       2024-08-26 09:34:19 +08:00
    可以开发一个简单的 Web 系统,把 pdf 逐页转为 txt 文本,导入数据库,做一个全文索引搜索功能,结果,链接跳转到指定 pdf 下载&预览
    kingdom8
        20
    kingdom8  
    OP
       2024-09-10 11:30:06 +08:00
    @zealinux 感谢,这个我去研究一下
    kingdom8
        21
    kingdom8  
    OP
       2024-09-10 14:29:25 +08:00
    @iambic #7 感谢,我去研究下
    AusardiaTx
        22
    AusardiaTx  
       355 天前
    @zealinux devonthink 中文搜索太拉了,还得专门用 foxtrot
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2713 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 12:10 PVG 20:10 LAX 05:10 JFK 08:10
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86