问了大模型,目前用 pdfinfo/pdffonts/pdfimages 结合来,准确度不理想。
![]() | 1 tool2dx 305 天前 纯扫描版就是 jpg 内嵌大图,没有具体文字可以选中,用 pdf 文字提取工具,很容易识别的吧。 |
![]() | 2 shintendo 305 天前 文件体积除以页数 |
4 paopjian 305 天前 直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版 |
![]() | 5 mclxly OP |
![]() | 7 sketcherly 305 天前 直接析 pdf 统计字数呢 |
8 CLMan 305 天前 就算是用 文件大小/页 ,准确率应该也差不到哪里去。 |
![]() | 9 cowcomic 305 天前 如果是大面上的区分的话,大小除以页数应该就是比较迅速的方式了 除非要求比较精确,百分之多少是图片之类的 |
![]() | 10 mclxly OP |
![]() | 11 xiaomageit 305 天前 降精 |
![]() | 12 israinbow 304 天前 via Android 文字版 pdf 转成 html 看起来会很有逻辑. |