http://bulletin.cebpubservice.com/biddingBulletin/2020-06-05/3034096.html
上述网站中的 pdf 文件,我可以获取到一个 swf 文件,这个文件只能用 360 浏览器打开。
有没有办法批量获取到 pdf 文件
感谢各位大佬!!
![]() | 1 Jerry1112 2020-06-05 15:16:47 +08:00 爬虫爬它 |
![]() | 3 kop1989 2020-06-05 15:24:51 +08:00 这个获取不了吧。相当于是一个 flash 做的 pdf 查看器。swf 是编译过的状态。 |
![]() | 4 kop1989 2020-06-05 15:25:38 +08:00 除非你把这个 swf 反编译。拿到它里面对应的 pdf 地址,然后结合 html 里传入的参数,来推定你需要的 pdf 的网址。 |
5 yinzhili 2020-06-05 15:27:13 +08:00 这个页面不是 pdf,是 pdf 转换成了 flash |
![]() | 6 also24 2020-06-05 15:31:36 +08:00 |
![]() | 7 also24 2020-06-05 15:33:59 +08:00 https://www.neowin.net/forum/topic/1226007-ways-to-download-pdf-from-flexpaper/ https://www.jianshu.com/p/1bcbfb9f144f 翻看了几个关于 flexpaper 的内容,基本都是通过 “打印 SWF 到虚拟打印机” 实现的。 |
![]() | 8 different 2020-06-05 15:36:25 +08:00 点击打印,输出到 Microsoft Print to PDF 不就行了嘛? |
![]() | 9 different 2020-06-05 15:37:05 +08:00 不好意思,没留意到“批量” |
10 sleepm 2020-06-05 15:38:30 +08:00 左上角打印,另存为 pdf 左上角菜单(打印 单页 第二页 缩略图 适合宽度...) 眼看着是扫描的,保存出来也是,所以文字是选择不了的 |
13 nuistzhou 2020-06-05 15:45:42 +08:00 via iPhone Selenium 模拟然后批量虚拟打印?(我瞎说的) |
![]() | 14 xueyoucai OP @nuistzhou 在 HMTL 中这个 pdf 展示 是一个<object> selenuim 无法获取到元素 |
15 Jirajine 2020-06-05 15:47:37 +08:00 via Android 抓包看一下,能找到文件请求的话可以通过 mitm 配合脚步截获,要是加密了的话就没办法了,你得找个会逆 flash 的人。 |
16 sleepm 2020-06-05 15:47:48 +08:00 批量的话按键精灵 。。。 |
19 yinzhili 2020-06-05 15:52:40 +08:00 @xueyoucai 我们以前做过一个在线教育的网站,就是用 swftools 把 PDF 文件转换成 swf 在网页上展示,原始 PDF 文件不会放到公网的。 |
![]() | 20 CageZhong 2020-06-05 16:44:59 +08:00 之前做过一个工具,也是爬虫爬取所有的 swf 文件回来,然后转换 pdf,合并 pdf |
![]() | 21 Latin 2020-06-05 16:50:20 +08:00 |
22 sleepm 2020-06-05 17:21:40 +08:00 扫码有惊喜,关注后有手机查看的页面,里面有链接 |
![]() | 23 muyi 2020-06-05 17:28:19 +08:00 使用 swftools 中的 swfrender 将 swf 转成 png,再用 imagemagick 将所有 png 合成 pdf,这两步都能用命令行完成,写个软件可以做到批量化 |
![]() | 24 frankyxu 2020-06-05 17:44:16 +08:00 ffdec 将 swf 转成 image,命令如下 java -jar ffdec.jar -cli -export image images C:\Users\EDZ\Downloads\bf8792877a7d48bcb48564fce83f99fa.swf 然后自己写个函数将 image 转成 pdf |
![]() | 25 Arrowing 2020-06-05 17:51:02 +08:00 swf to pdf,我试了可行。 先安装 pdf 24,他会安装一个虚拟打印机。 然后在浏览器上点击打印,选择这个虚拟打印机,选择之后,又个选项是保存 PDF 选项。 成功! 现在就是怎么把这些操作自动化,就可以完成你的任务了。 |