有办法将 pdf 转成 markdown 吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
elevioux
V2EX    问与答

有办法将 pdf 转成 markdown 吗?

  •  
  •   elevioux 2023-08-25 09:18:48 +08:00 3027 次点击
    这是一个创建于 778 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试了下网上的几个工具,结果出来都不太理想。

    pdf 都是一些产品说明介绍,有各种图表图片等,排版复杂没有规律。

    想着能不能把产品 pdf 的主要内容,表格之类的转成 markdown ,方便后续 embedding 喂给 chatgpt 。

    又或者 pdf to markdown 这一步需要单独训练个 AI 出来?如何开始,大家有思路吗?

    19 条回复    2023-08-25 16:49:57 +08:00
    me221
        1
    me221  
       2023-08-25 09:19:39 +08:00
    pdf 可以直接 embedding 给 ChatGPT 呀
    SWALLOWW
        2
    SWALLOWW  
       2023-08-25 09:29:16 +08:00
    @me221 怎么嵌入啊,怎么给文件,图片这些信息啊
    elevioux
        3
    elevioux  
    OP
       2023-08-25 09:29:25 +08:00
    @me221 如果我理解没问题的话,embedding 本身只是用于语义搜索,搜索出来的结果必须要有对应的原文本才好给到 chatgpt 处理。如果 pdf 转 markdown 不理想的话,chatgpt 拿到文本也是很难理解。还是我思路有问题?望指教
    fzls
        4
    fzls  
       2023-08-25 09:31:54 +08:00
    @elevioux #3 下面这个网站可以直接喂 pdf

    https://www.chatpdf.com/
    yekern
        5
    yekern  
       2023-08-25 09:31:56 +08:00
    pdf 转 html 转 markdown 不可以么
    elevioux
        6
    elevioux  
    OP
       2023-08-25 09:39:28 +08:00
    @fzls 知道有这个网站,试了一下,有些问题还是回答不了,说文本没有提到。。。。
    eleviou
        7
    elevioux  
    OP
       2023-08-25 09:41:28 +08:00
    @yekern 有想到过,也试过,还是表格形式的数据难以转换。pdf 的排版太没规律了,我们人眼看起来是个表格,转成 html ,就成了各种 div 的拼凑。
    c2const
        8
    c2const  
       2023-08-25 09:55:21 +08:00
    1.PDF 包含的信息太多了,比如嵌入私有字体都可以,想保留格式转化没啥好办法 :(
    2.可以直接把所有 PDF 打印成高质量图片,markdown 贴图 :)
    3.精细一点,可以把简单格式的文字转 markdwon ,不方便转表格图片其它格式就用图片,但是不知道有没有现成的自动化程序 :(
    gitignore
        9
    gitignore  
       2023-08-25 09:59:56 +08:00   1
    找个大学生帮你手工转
    me221
        10
    me221  
       2023-08-25 10:08:10 +08:00   1
    @elevioux #3 你的思路没问题。是我没考虑 PDF 中的图片问题,可以用 OCR 把 PDF 转为 Docx 格式,然后 embedding
    elevioux
        11
    elevioux  
    OP
       2023-08-25 10:13:51 +08:00
    @c2const 其实并不是想要用 markdown 来还原 pdf ,只是用 markdown 来保留 pdf 的关键信息和表格,方便 chatgpt 理解。
    elevioux
        12
    elevioux  
    OP
       2023-08-25 10:25:21 +08:00
    @me221 试过百度的 padddle ,错别字有点多( pdf 主要是繁体),当然也可能是我其它参数没设置好。目前主要想法是自己训练一个 AI 来识别文档的内容,如标记哪里是表格,哪里是大段文字等,再用 pymupdf 等提取文字再合成 markdown 。不过苦于对 AI 不熟悉,用 pytorch 写了个 demo 就没有然后了,不知如何开始。
    YGHMXFAL
        13
    YGHMXFAL  
       2023-08-25 12:10:20 +08:00   1
    PANDOC 看看行不行
    amlee
        14
    amlee  
       2023-08-25 12:53:28 +08:00   1
    YGHMXFAL
        15
    YGHMXFAL  
       2023-08-25 14:22:34 +08:00
    看了一下,PANDOC 好像不行,InPut 格式不支持 PDF,不符合楼主需求
    iX8NEGGn
        16
    iX8NEGGn  
       2023-08-25 15:03:10 +08:00 via iPhone   2
    用 Abbyy Finereader 先转换成 docx ,然后再转换成 md
    noahhhh
        17
    noahhhh  
       2023-08-25 15:14:04 +08:00 via Android
    pandagpt ,直接用能导入 PDF 的工具不好吗
    elevioux
        18
    elevioux  
    OP
       2023-08-25 16:09:28 +08:00
    @iX8NEGGn 感谢提供思路。试了用 acrobat 转成 docx ,再用 pandoc 转成 markdown ,是目前效果最好的。
    iX8NEGGn
        19
    iX8NEGGn  
       2023-08-25 16:49:57 +08:00 via iPhone
    @elevioux 用 Abbyy 效果还可以更好,会自动分析哪些是图片哪些是表格,也可以手动框选哪些是图片哪些是表格,Acrobat 也有用 Abbyy 家的技术。
    关于     帮助文档     自助推广系统     博客     API     FAQ nbsp;   Solana     1719 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 16:15 PVG 00:15 LAX 09:15 JFK 12:15
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86