周末花一天时间跟 Claude 复刻了沉浸式翻译的 pdf 翻译功能 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
LuliYanng
V2EX    分享创造

周末花一天时间跟 Claude 复刻了沉浸式翻译的 pdf 翻译功能

  •  
  •   LuliYanng 4 天前 1204 次点击
    上周我有个研究生同学告诉我翻译外文的 pdf ,最好还是能够翻译后保持跟原文版面一模一样功能的。再我去帮他找软件的过程中,发现沉浸式翻译做的 pdf 翻译功能还蛮不错,平时虽然用它来翻译网站比较多,但是翻译 pdf 还真没怎么用过。

    定眼一看,还是 beta 版,自信心上来了,感觉应该能捣鼓一个简单版的。于是周六花了一天的时间,跟 claude 尝试复刻这个功能,看看按照自己的方案能够做到什么样的程度。目前第一版就已经能够实现基本的翻译和排版效果,复杂的公式和图表还原的很不错。不过就像绝大多数翻译功能会遇到的问题一样,原文译文的长度难以控制,因此文本渲染上还有不少瑕疵,而且也只测试了 2 、3 篇论文,还不清楚真实能力是不是足够稳定。
    一开始没发现,干到一半才发现人家已经开源了,还没仔细看人家的方案。要是跟人家实现方式一样,那就纯纯造轮子小丑了。

    但不得不说,vide coding 真上头,就是一天就差不多把我 cursor 一个月的额度干一半了,剩下得省着用了。

    i.imgur.com/zYRMnT9.png
    i.imgur.com/zHZSe1q.png
    i.imgur.com/cif5wnO.png
    18 条回复    2026-01-26 19:10:03 +08:00
    LuliYanng
        1
    LuliYanng  
    OP
       4 天前
    楼主第一次发有图片的图,怎么跟着教程来,还是显示不出来图片啊,评论区换个方式再发一次看看
    https://imgur.com/cif5wnO
    https://imgur.com/zHZSe1q
    https://imgur.com/zYRMnT9
    LuliYanng
        2
    LuliYanng  
    OP
       4 天前
    好吧 看来还是不行...
    Weixiao0725
        3
    Weixiao0725  
       4 天前
    Weixiao0725
        4
    Weixiao0725  
       4 天前
    ![test]( )
    Weixiao0725
        5
    Weixiao0725  
       4 天前
    @LuliYanng 你要用 ![]( https://xxx) 这种格式,url 写完整了。
    Weixiao0725
        6
    Weixiao0725  
       4 天前
    好像直接写 完整的 url 就可以,不要写 markdown , 因为回复框这里使用的 V2EX native 编辑器,你发帖的时候可以选 markdown
    SuperDaniel313
        7
    SuperDaniel313  
       4 天前 via Android
    其实豆包的效果还可以的,直接发给豆包就行,能打开双语对照模式,还能截图提问。但只能因为 Web 端,移动端不行。

    腾讯的 ima 也有类似的功能,但排版没豆包好,好像和微信读书一个模块出来的,排版效果很差。

    看原版书还是推荐豆包
    LuliYanng
        8
    LuliYanng  
    OP
       4 天前
    @Weixiao0725 回复框是直接贴完整 url 的和发帖也是用 native 编辑器,没选 markdown 。
    我再试试
    ![对比图 1]( )
    ![对比图 1]( https://imgur.com/cif5wnO)
    LuliYanng
        9
    LuliYanng  
    OP
       4 天前
    @SuperDaniel313 可以 我去试试
    LuliYanng
        10
    LuliYanng  
    OP
       4 天前
    @SuperDaniel313 ![doubao]( )
    豆包好像只能实现这样。他能生成翻译后的论文吗?豆包的那种方式实现起来也简单,但是交互还是挺不错的。适合深入去探讨论文内容,而不仅仅只是简单的点击翻译了。要是两个功能结合起来不就更好了,既可以一眼看到翻译后的论文,还能直接点击跟进询问内容。
    whats
        11
    whats  
       4 天前
    沉浸式翻译那个是假开源,实际并未开源
    SuperDaniel313
        12
    SuperDaniel313  
       4 天前 via Android
    @LuliYanng PDF 正上方有一个翻译全文,点击之后就是双排版的界面。左侧是原文,然后右侧会有一个译文。点击高亮块,它就能回显原文的对应文本。

    我只用过它的翻译,跟豆包讨论问题,感觉跟智障说话差不多。

    我更喜欢 NotebookLM ,不过 NotebookLM 更适合学习,双语对照好像没有。NotebookLM 的学习方式稍微割裂一点,也就是你自己有原版的 PDF , 然后看 PDF 之后不懂的就直接提问,没有划词提问。不过 NotebookLM 能干好几本书进去,可以进行主题学习。关键是背后的模型差异。Gemini 虽然被网友称为美国豆包,但是比中国豆包还是上好几个档次。
    LuliYanng
        13
    LuliYanng  
    OP
       4 天前
    @SuperDaniel313 okok ,看到这个功能了,虽然这个双语没有特别美观,不过基本够用了。notebooklm 我也有用,确实,模型的能力差距还是很大的。不过 gemini 还不至于跟豆包比,都不是一个水平的。像这种点击对照,然后自己设置 llm 的功能也完全可以做,不过暂时还没这个考虑,只是当个小项目玩玩。
    LuliYanng
        14
    LuliYanng  
    OP
       4 天前
    @whats 怎么说,还有假开源的吗?
    SuperDaniel313
        15
    SuperDaniel313  
       4 天前 via Android
    @LuliYanng 如果说搞着玩嘛,是可以玩玩。

    实际上只需要把豆包的翻译用上,然后把原版书扔到 NotebookLM 里面。然后就能畅读原版书了呀。豆包拿来读,NotebookLM 拿来问。配合语音输入法,根本不需要划词啊,只需要直接说第几页,什么问题,然后 NotebookLM 就能直接定位到那里,然后跟你讲解。关键最牛的一点是,那些图表也能解读出来,不是单纯的文字,包括公式啊,都可以。这点 Gemini 是真的牛逼。

    特别是那种翻译烂的,我觉得豆包的能力,即便再烂,也还是能解决基础的语言问题。至少在信息传递的这个层面上,不会像一些垃圾译本一样误人子弟。
    shawnli3299
        16
    shawnli3299  
       4 天前
    ocr 用的什么引擎或模型?
    LuliYanng
        17
    LuliYanng  
    OP
       3 天前
    @shawnli3299 ocr 就是用的百度的 paddle vl
    LuliYanng
        18
    LuliYanng  
    OP
       3 天前
    @SuperDaniel313 去豆包读在到 notebooklm 问当然可以,就是需要跨平台,在用户交互体验上始终还是差一点点
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4496 人在线   最高录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 08:50 PVG 16:50 LAX 00:50 JFK 03:50
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86