java 转 office(doc\ppt),pdf 为 html 格式有什么好建议 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mysoko
V2EX    Java

java 转 office(doc\ppt),pdf 为 html 格式有什么好建议

  •  1
     
  •   mysoko
    mysoko 2015-07-29 23:05:48 +08:00 6471 次点击
    这是一个创建于 3781 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家知道百度文库的方案怎么实现的不?

    现在想做个把doc内容转为html内容,便于桌面和手机浏览

    百度文库把ppt作为image保存的,请问如何实现?


    有相关经验的可以详谈,收费价格合理都是可以的,mail:supersoko#qq.com。

    补充:主要是内容格式和图片如何保留????

    12 条回复    2015-08-01 13:28:30 +08:00
    kslr
        1
    kslr  
       2015-07-30 00:06:38 +08:00 via Android
    到Github搜一搜,我记得有几个正式解决方案了。
    cxe2v
        2
    cxe2v  
       2015-07-30 00:12:43 +08:00
    以前做过doc转pdf,html的,不过是用c#做的中间件,里面太复杂了
    OpooPages
        3
    OpooPages  
       2015-07-30 00:12:59 +08:00 via Android
    openoffice
    OpooPages
        4
    OpooPages  
       2015-07-30 00:21:33 +08:00 via Android
    openoffice可以作为后台服务启动运行,监听在特定端口,java调用即可。
    通常2种方式:
    1 doc 通过openoffice转 pdf,再通过pdf2swf转 swf,然后封装个阅读器可以在网页上阅读,但无法复制等,起到文档保护作用。
    2 doc 通过openoffice转 pdf,再通过pdf2png转图片,然后可在网页浏览。

    至于doc转html,openoffice似乎也支持。
    ob
        5
    ob  
       2015-07-30 00:38:42 +08:00 via Android
    jacob控件可以直接调用office的word转pdf功能,前提是要在windows下面,并且要安装office,通过java代码可以直接操作,好几种转换格式,应该也有html的。
    neetrorschach
        6
    neetrorschach  
       2015-07-30 00:38:46 +08:00
    有个itext或者itextsharp库
    一个是java的一个是c#的,用来做pdf的转化。
    以前给一个客户做过一个excel插件用来转化pdf到excel,但只能用在固定格式的pdf上。
    https://www.pdftoexcelonline.com/这个网站做的很好,几乎能做成和原页面一样的文档,不知道怎么实现的。
    helone
        7
    helone 
       2015-07-30 00:43:00 +08:00
    七牛不是刚出文档转换的服务么?可以参考一下
    OpooPages
        8
    OpooPages  
       2015-07-30 00:43:53 +08:00 via Android
    OpenOffice是跨平台的,windows linux solaris都能跑。

    有个前端的东西好像叫FlexPaper.
    OpooPages
        9
    OpooPages  
       2015-07-30 17:53:02 +08:00
    在WEB应用提供文档在线阅读功能通常有以下两个目的:
    1. 方便阅读。最终用户不需要下载后才能阅读,也不需要安装阅读软件(Microsoft Office, Adobe Reader等)即可阅读文件内容
    2. 文档保护。只允许阅读,不允许打印和下载。


    以前做类似功能时,专门做了一些研究,研究的对象包括百度文库、豆丁、Google Docs Viewer、 DocVerse(被Google收购)、Scribd、OPEN文档、BOOKFM等(有些是不是还活着没留意)。

    这些产品基本上支持以下一些格式的在线阅读(不尽相同):
    Microsoft Word(.DOC 和 .DOCX)
    Microsoft Excel(.XLS 和 .XLSX)
    Microsoft PowerPoint(.PPT 和 .PPTX)
    Adobe 便携式文档格式 (.pdf)
    Text (.txt)
    OpenDocument (.odf)


    以上研究对象可分为两类:

    1. 将原始文档转成图片(JPEG,PNG等),在浏览器中展示;

    将原始文件通过一系列过程最终转换成多个图片文件,原始文件中的每一页对应一个图片文件,然后通过HTML结合Javascript设计一个阅读器(也可以通过Flex设计阅读器),根据用户操作动态加载图片进行展示。Google Docs Viewer、Bookfm 属于这类产品。

    Google Docs Viewer有强大的硬件支持和技术,放大缩小时都重新从后台加载不同尺寸的图片,所以放大到一定程度也不会需,小图快速浏览时不会加载小尺寸图提高速度。而且选择区域后从后台提取文字到剪贴板,很牛。

    2. 将原始文档转成Flash文件(SWF),在浏览器中展示。

    将原始文件通过一系列过程最终转换成一个或者多个swf文件。转成单个SWF时,原始文件中的每一页对应swf文件中的每一帧;转成多个SWF时,每个SWF文件只有一帧,对应原始文件中的一页。然后通过SWF的阅读器(例如FlexPaper)展示。Scribd, DocVerse, 百度文库,豆丁属于这类产品。

    百度文库还略有不同,它将原始文件分成了N个部分,每个部分大约是5页,然后转成了N个SWF,也就是说每个SWF中都包含了大约5页的内容,然后在网页通过一定的手段一次读取大约5页的内容。具体参考百度文库章节。

    (哦,再次强调,这是几年前研究的情况,目前可能已经不同,毕竟技术日新月异)
    OpooPages
        10
    OpooPages  
       2015-07-30 17:56:39 +08:00
    (怎么修改回复呢。。。。)
    上文部分为: 所以放大到一定程度也不会虚,小图快速浏览时会加载小尺寸图以提高速度。
    mysoko
        11
    mysoko  
    OP
       2015-08-01 13:28:08 +08:00
    @kslr 请求有什么项目
    mysoko
        12
    mysoko  
    OP
       2015-08-01 13:28:30 +08:00
    @OpooPages 能否留个联系方式细谈
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2467 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 15:40 PVG 23:40 LAX 07:40 JFK 10:40
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86