求推荐一个能检索内容的 pdf 文件管理软件 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
f1ynnv2
V2EX    问与答

求推荐一个能检索内容的 pdf 文件管理软件

  f1ynnv2 2023-03-14 09:23:12 +08:00 3706 次点击
这是一个创建于 942 天前的主题,其中的信息可能已经有所发展或是发生改变。

因为平时会把一些论文、文章转成 pdf 保存,时间久了 pdf 文件非常多,所以想找个 pdf 管理软件,想要的特性如下:

  1. 能检索 pdf 标题和内容
  2. 最好能给 pdf 文件打标签
  3. B/S 架构,这样可以部署到一台服务器上,多端访问

谢谢。

30 条回复    2023-03-15 16:53:55 +08:00
jamosLi
    1
jamosLi  
   2023-03-14 09:41:48 +08:00
有了踢踢我
koto
    2
koto  
   2023-03-14 09:42:32 +08:00
abbyy ?不过是收费的
DigitalG
    3
DigitalG  
   2023-03-14 09:52:38 +08:00
devonthink 有 server 版本,一次性付费,虽然比较贵。
DigitalG
    4
DigitalG  
   2023-03-14 09:53:33 +08:00
@DigitalG 不过除了 server ,client 只有 Apple 生态的版本
shalingye
    5
shalingye  
   2023-03-14 10:00:47 +08:00 via Android
calibre ,能写元数据,自带 web 服务,但似乎不能检索 pdf 内容。
virlaser
    6
virlaser  
   2023-03-14 10:05:37 +08:00
目前用的 NAS 实现这个功能
对于可以复制文字的 PDF ,NAS 可以直接索引里面的文字,直接搜索
对于不能复制文字的 PDF ,需要先通过 OCR 软件识别一下(之前用的 PDFElement ,不过好像调的还是 abbyy 引擎),在 PDF 上覆盖一层透明的文字层,然后再保存到 NAS 里面,这样就可以索引了
NAS 本身的文件管理提供了打标签、多端访问和索引的功能
mmm159357456
    7
mmm159357456  
   2023-03-14 10:11:52 +08:00   1
为啥没人说 zotero 和 endnote
tool2d
    8
tool2d  
   2023-03-14 10:16:55 +08:00
自己写一个 pdf 搜索并不难。你可以用工具批量 pdf to txt ,然后针对 txt 做文本搜索,就会方便太多。
f1ynnv2
    9
f1ynnv2  
OP
   2023-03-14 10:31:15 +08:00
@mmm159357456 调研过 zotero ,这个好像就是个单体软件,只是能通过 webdav 同步,离 web-based 有些远。endnote 没接触过,我去了解下。
f1ynnv2
    10
f1ynnv2  
OP
   2023-03-14 10:35:59 +08:00
@tool2d 理论上确实是可以自己写,但是时间花在这上面不太值。
f1ynnv2
    11
f1ynnv2  
OP
   2023-03-14 10:43:35 +08:00
找到一个开源的,似乎完美符合我的要求。
https://github.com/papermerge/papermerge-core
litengyu86
    12
litengyu86  
   2023-03-14 12:35:02 +08:00
@koto abbyy 丢丢贵
TerranceL
    13
TerranceL  
   2023-03-14 13:05:23 +08:00
mendely
f1ynnv2
    14
f1ynnv2  
OP
   2023-03-14 13:12:51 +08:00
@f1ynnv2 试了下,功能是有,但是不稳定。。
NutsoGao
    15
NutsoGao  
   2023-03-14 13:38:06 +08:00
插眼,有了我踢踢我
beyondex
    16
beyondex  
   2023-03-14 15:53:05 +08:00
sea desktop search ,满足 1 ,3 B/S 架构,这样可以部署到一台服务器上,多端访问
不过浏览器访问需要手动配置,倒也不复杂,不提供傻瓜化开关。
aitianci
    17
aitianci  
   2023-03-14 16:52:29 +08:00
mendeley 和 zotero 确实符合条件,我现在在用的是 zotero ,可以手动导入 pdf 然后它自己会 OCR 搞一套检索,标题内容都能搜索,至于打标签那是基本功能,科研工具就是做笔记方便。另外可以用坚果云的 webdav 同步,多端访问也不成问题。
kukat
    18
kukat  
   2023-03-14 18:08:47 +08:00
paperless-ngx
congjinyebaiya
    19
congjinyebaiya  
   2023-03-14 18:21:28 +08:00 via iPhone
zotero 貌似可以
wanghaoyang
    20
wanghaoyang  
   2023-03-14 18:31:24 +08:00
Confluence
hicdn
    21
hicdn  
   2023-03-14 22:07:52 +08:00
继续安利 recoll ,https://www.lesbonscomptes.com/recoll/pages/index-recoll.html 支持全平台,功能十分强大,压缩包里的文件内容都可以索引,还能自己扩展可索引的文件后缀名,比如 xmind 的思维导图。
mmdsun
    22
mmdsun  
   2023-03-14 22:11:10 +08:00
我用的 Adobe Acrobat Pro DC 工具可以搜索 pdf 内容,用的 微博 Vposy 大神出的 Adobe 全家桶
em70
    23
em70  
   2023-03-14 22:13:10 +08:00
chatPDF
mmdsun
    24
mmdsun  
   2023-03-14 22:14:47 +08:00
抱歉没看 B/S 架构,建议用 Apache Solr 。PDF\word 各种格式都能搜索,类似 ES ,带 UI

Apache Solr:
https://solr.apache.org/features.html
f1ynnv2
    25
f1ynnv2  
OP
   2023-03-14 22:48:00 +08:00
@kukat 试用了一下,这个确实很好用,基本满足我列的要求。非常感谢
不过默认自带的 ocr 不支持中文,用 Docker 的话得自己重新写个 Dockerfile
dier
    26
dier  
   2023-03-14 22:49:33 +08:00 via iPhone
听说最近出了一个 chatPDF
enrolls
    27
enrolls  
   2023-03-14 23:07:14 +08:00 via iPhone
这个整合一下应用,应该很快就能有雏形啊
kukat
    28
kukat  
   2023-03-15 10:13:48 +08:00
@f1ynnv2 不用啊,可以调整 OCR 的语言选项。https://docs.paperless-ngx.com/configuration/#ocr

用官方提供的安装脚本就行,不过语言项有点 bug ,一会下划线一会横线…… 记得改一下 docker-compose.env
PAPERLESS_OCR_LANGUAGE=eng+chi_sim
PAPERLESS_OCR_LANGUAGES=eng chi-sim
f1ynnv2
    29
f1ynnv2  
OP
   2023-03-15 11:17:14 +08:00
@kukat 我启动 docker 时提示没安装 chi 的 ocr ,只好自己又装了一下重新做了个镜像
f1ynnv2
    30
f1ynnv2  
OP
   2023-03-15 16:53:55 +08:00
@kukat 请问一下,docker 镜像里,我已经通过 apt install tesseract-ocr-chi-sim 了,但是启动的时候仍然提示

2023-03-15 16:36:16 Reading package lists...
2023-03-15 16:36:16 Package tesseract-ocr-eng already installed!
2023-03-15 16:36:17 Package tesseract-ocr-chi_sim not found! :(

不过奇怪的是确实已经可以 OCR 扫描到文字了。
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     989 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 26ms UTC 23:08 PVG 07:08 LAX 16:08 JFK 19:08
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86