如何优雅的保存网页正文? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
creedowl
V2EX    互联网

如何优雅的保存网页正文?

  •  1
     
  •   creedowl 2018-07-04 15:40:25 +08:00 21754 次点击
    这是一个创建于 2665 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到一些好的文章 /博客,想要保存下来,方便以后查阅,用过 pocket 体验不好,会丢格式,代码高亮...

    目前想法是把文章正文保存为 PDF,考虑用 puppeteer,但是它好像只能将整个页面保存为 PDF,请问有什么更优雅的方法?

    93 条回复    2019-07-24 13:42:09 +08:00
    VVVVVEX
        1
    VVVVVEX  
       2018-07-04 15:44:21 +08:00
    收藏链接
    nulIptr
        2
    nulIptr  
       2018-07-04 15:48:47 +08:00
    pdf 可以的话屏幕剪辑也行啊,我用 onenote
    creedowl
        3
    creedowl  
    OP
       2018-07-04 15:49:11 +08:00
    @VVVVVEX 怕时间久了链接凉了,毕竟挺多个人博客域名经常换..
    creedowl
        4
    creedowl  
    OP
       2018-07-04 15:50:09 +08:00
    @nulIptr #2 那样不能复制吧..想用 PDF 就是因为可以复制,图片可以放大
    lurenw
        5
    lurenw  
       2018-07-04 15:51:40 +08:00
    diggo
    randyzhao
        6
    randyzhao  
       2018-07-04 15:55:36 +08:00
    我好像听人说过印象笔记可以直接保存整个网页副本?
    randyzhao
        7
    randyzhao  
       2018-07-04 15:57:02 +08:00   1
    #5 我补充一下 5 楼的

    https://www.diigo.com/premium

    Store your online resources with annotations intact forever, regardless of whether the original source is still active. (Premium Feature)
    haimall
        8
    haimall  
       2018-07-04 15:58:22 +08:00 via Android
    滚动截屏,放 onenote 之类的
    fakeJas0n
        9
    fakeJas0n  
       2018-07-04 15:58:26 +08:00
    creedowl
        10
    creedowl  
    OP
       2018-07-04 15:58:31 +08:00
    @lurenw #5 老哥好像打错了 emm..我看看这个
    creedowl
        11
    creedowl  
    OP
       2018-07-04 15:58:47 +08:00
    @haimall 那样不能复制吧..想用 PDF 就是因为可以复制,图片可以放大
    JackEggie
        12
    JackEggie  
       2018-07-04 15:59:25 +08:00
    evernote 的 chrome 插件
    smdbh
        13
    smdbh  
       2018-07-04 15:59:26 +08:00
    evernote
    creedowl
        14
    creedowl  
    OP
       2018-07-04 15:59:56 +08:00
    @randyzhao #6 整个网页的话有多余元素不好去掉..
    pexcn
        15
    pexcn  
       2018-07-04 16:02:11 +08:00
    网页滚动截屏: https://sspai.com/post/42193
    Mbin
        16
    Mbin  
       2018-07-04 16:02:49 +08:00
    我也想知道,一直没什么特别舒服的方法,有道和印象体验都不好
    haimall
        17
    haimall  
       2018-07-04 16:03:14 +08:00 via Android
    @creedowl 看你复制的机率有多大,有一种功能叫识别图片文字。想完美,总要牺牲点东西的。
    logOo
        18
    logOo  
       2018-07-04 16:04:20 +08:00 via Android
    页面千千万,没啥特别优雅的方案
    cdfmr
        19
    cdfmr  
       2018-07-04 16:09:21 +08:00
    Firefox 的插件 Scrapbook,坚守 ESR 52 的最大原因。
    radio777
        20
    radio777  
       2018-07-04 16:10:13 +08:00
    chrome 浏览器 打印 里面可选择保存为 pdf 格式
    randyzhao
        21
    randyzhao  
       2018-07-04 16:10:56 +08:00
    @creedowl 误解你的意思了,你的意思是只保留文章的正文?

    那我暂时不知道了。。。
    creedowl
        22
    creedowl  
    OP
       2018-07-04 16:12:32 +08:00
    @randyzhao 因为现在页面总有各种乱七八糟的东西..
    aice114
        23
    aice114  
       2018-07-04 16:13:32 +08:00
    有道云笔记,chrome 插件
    imn1
        24
    imn1  
       2018-07-04 16:18:10 +08:00
    前两天不是有个人发了个 maoxian 什么的剪切扩展么?
    goodniuniu
        25
    goodniuniu  
       2018-07-04 16:19:10 +08:00
    印象笔记!
    ericzeng
        26
    ericzeng  
       2018-07-04 16:19:20 +08:00
    印象笔记保存这个不错,还能提醒
    Trumeet
        27
    Trumeet  
       2018-07-04 16:21:56 +08:00 via Android
    archive.is 和类似网站 试试?
    cuzfinal
        28
    cuzfinal  
       2018-07-04 16:37:18 +08:00
    打印成 pdf 文件存起来。
    geying
        29
    geying  
       2018-07-04 16:40:48 +08:00
    全屏截图
    JCZ2MkKb5S8ZX9pq
        30
    JCZ2MkKb5S8ZX9pq  
       2018-07-04 16:45:01 +08:00
    onenote 也有 chrome 插件,但后来我嫌太占空间了,还是 pocket 了。
    nosay
        31
    nosay  
       2018-07-04 16:58:51 +08:00
    有过类似的需求,找了一圈都不太好用。无奈用自己上次搭车买的良心云服务器,做了个相关服务,用到现在。
    不过不是截取正文,只是简单的生成图片以及下载相应页面然后分类入库。
    tabris17
        32
    tabris17  
       2018-07-04 17:02:29 +08:00
    要格式还要带图片,mht 格式是最好的。

    页面要剪裁,可以用开发者工具来清除元素,再另存 pdf,或者存 evernote
    v2sir
        33
    v2sir  
       2018-07-04 17:11:02 +08:00   6
    哎嘛, 那么多回答, 没一个能轻松而优雅的解决问题的。 这届程序员不行?
    chrome,选定所需内容, 右键点击,选择打印... (注意要选定内容,并且右键菜单选择打印)
    绝大多数网站都能适配,个别网站打印的 PDF 排版有点问题, 还有的网站有分享浮动条的, 会导致右键弹出菜单失效。
    回答完毕。
    rb6221
        34
    rb6221  
       2018-07-04 17:31:33 +08:00
    onenote evernote 类似的网页剪藏
    glasslion
        35
    glasslion  
       2018-07-04 17:38:16 +08:00
    我现在是 印象笔记剪藏, 印象桌面客户端可以导出为 html,定期 用 calibre 转成 epub 电子书
    hebwjb
        36
    hebwjb  
       2018-07-04 17:39:21 +08:00
    印象笔记剪藏
    hebwjb
        37
    hebwjb  
       2018-07-04 17:40:04 +08:00
    zangbob
        38
    zangbob  
       2018-07-04 17:46:10 +08:00
    randyzhao
        39
    randyzhao  
       2018-07-04 17:49:54 +08:00
    @v2sir 这种方法我知道的,不过每次都要选择全文。。。并不优雅啊
    SeptimusX
        40
    SeptimusX  
       2018-07-04 17:50:51 +08:00
    Evernote 之前的 Clearly 干这个最合适,简阅似乎也可以…
    sudoz
        41
    sudoz  
       2018-07-04 17:52:01 +08:00
    @nulIptr onenote 的网页截屏非常难用,排版、字体都极差
    Seanfuck
        42
    Seanfuck  
       2018-07-04 17:56:36 +08:00
    @cdfmr Firefox 自带截屏功能,不需要插件;用开发者工具也方便复制文字。
    frozenthrone
        43
    frozenthrone  
       2018-07-04 18:18:25 +08:00 via iPhone
    阅读模式转 pdf,保存到 icloud
    nulIptr
        44
    nulIptr  
       2018-07-04 18:26:18 +08:00
    @sudoz ???我用火狐,有个 onenote 的插件,一件截图整个网页啊
    StarRED
        45
    StarRED  
       2018-07-04 18:27:08 +08:00 via Android
    有软件可以搬网站
    sammo
        46
    sammo  
       2018-07-04 18:28:39 +08:00
    收藏链接,收藏到 archive.is 或 Wayback Machine
    mikezhang0515
        47
    mikezhang0515  
       2018-07-04 18:34:03 +08:00   1
    mhtml,这个难道没人知道吗?我的天
    Vitameans
        48
    Vitameans  
       2018-07-04 18:49:17 +08:00 via iPhone
    MzM2ODkx
        49
    MzM2ODkx  
       2018-07-04 18:53:28 +08:00   1
    Chrome 开发者工具,<kbd>ctrl</kbd>+<kbd>shift</kbd>+<kbd>p</kbd> 输入 `capture`选择,可以截图整个网页或者 某个 DOM 的内容,比如下面评论区的截图

    ![image]( )
    FanWall
        50
    FanWall  
       2018-07-04 18:57:34 +08:00 via Android
    Evernote+1,用了两年效果很好,移动端效果差些,chrome 插件则完全满足我的需求。
    Davidwg
        51
    Davidwg  
       2018-07-04 19:08:41 +08:00
    push to kindle
    Pai
        52
    Pai  
       2018-07-04 19:18:14 +08:00
    左上角 设置 另存为 放一个文件夹
    windsage
        53
    windsage  
       2018-07-04 19:19:32 +08:00 via iPhone
    印象笔记裁剪插件了解一下
    zeroten
        54
    zeroten  
       2018-07-04 19:32:57 +08:00
    loryyang
        55
    loryyang  
       2018-07-04 19:36:11 +08:00
    pdf + 印象笔记插件,基本够用了
    Qzier
        56
    Qzier  
       2018-07-04 19:38:17 +08:00 via iPhone
    保存为 mhtml
    snw
        57
    snw  
       2018-07-04 19:40:20 +08:00 via Android
    Firefox 全网页截图:Shift+F2,然后输入 screenshot --fullscreen
    Messiv2
        58
    Messiv2  
       2018-07-04 19:50:21 +08:00
    @randyzhao 是的。大象还可以截图保存网页的一部分。不过我一般都是用大象保存正文。
    Pyjamas
        59
    Pyjamas  
       2018-07-04 20:51:37 +08:00
    有 rss 的话可以用 inoreader 之类的软件订阅然后打印成 pdf
    omph
        60
    omph  
       2018-07-04 23:04:58 +08:00
    简悦,存 pdf 或 md
    zhangbohun
        61
    zhangbohun  
       2018-07-04 23:48:57 +08:00
    为知笔记的 chrome 扩展,识别很准
    trn4
        62
    trn4  
       2018-07-05 01:05:45 +08:00 via iPhone
    网页另存为就是干这个的……虽然会把所有杂七杂八的东西都存了
    oscargong
        63
    oscargong  
       2018-07-05 01:12:23 +08:00
    我用 Python 包了一下 Mercury API,然后保存为 HTML。

    https://mercury.postlight.com/web-parser/
    dobelee
        64
    dobelee  
       2018-07-05 01:17:47 +08:00 via Android
    无敌大象。
    CEBBCAT
        65
    CEBBCAT  
       2018-07-05 01:52:52 +08:00 via Android
    深夜了,推荐个 简阅 ,多个浏览器都能用,不细介绍了
    elvisyao
        66
    elvisyao  
       2018-07-05 05:49:28 +08:00
    印象笔记最重要,对我来说也是唯一卖点,就是 非常简单的剪辑页面 保存到云端

    现在我就是想,今日头条什么时候也能保存到印象笔记
    wtdd
        67
    wtdd  
       2018-07-05 06:16:34 +08:00 via Android
    没有,互联网就不是让这么用的,强行本地化,要么肥要么累
    marknote
        68
    marknote  
       2018-07-05 07:09:49 +08:00
    必须推荐一下自己的作品:MarkNote

    内容会被自动抓取并被转换为 Markdown 格式
    然后你可以随便修随便改
    加标签方便管理

    demo:
    https://www.jianshu.com/p/8949e11da186
    standin000
        69
    standin000  
       2018-07-05 07:39:46 +08:00
    @oscargong 能分享下代码吗,谢谢
    wofave
        70
    wofave  
       2018-07-05 07:44:07 +08:00   1
    zhishidahao
        71
    zhishidahao  
       2018-07-05 08:19:19 +08:00
    @wofave 我就用的这个
    yingfengi
        72
    yingfengi  
       2018-07-05 08:42:15 +08:00 via Android
    Ctrl + P 打印成 PDF
    siagasky
        73
    siagasky  
       2018-07-05 08:51:39 +08:00
    用 evernote 的话 evernote 最佳,不用的话 wallabag 了解一下
    oska874
        74
    oska874  
       2018-07-05 09:42:39 +08:00
    evernote 啊,最佳。
    Clarencep
        75
    Clarencep  
       2018-07-05 09:48:40 +08:00
    印象笔记剪藏 +1
    LichMscy
        76
    LichMscy  
       2018-07-05 10:15:12 +08:00
    保存正文
    用 Pocket 啊
    ZRS
        78
    ZRS  
       2018-07-05 11:31:07 +08:00
    instapaper
    inter1908
        79
    inter1908  
       2018-07-05 13:37:26 +08:00
    Safari 选择阅读器,然后导出 PDF。
    ethusdt
        80
    ethusdt  
       2018-07-05 13:42:09 +08:00
    single file
    ethusdt
        81
    ethusdt  
       2018-07-05 13:42:32 +08:00
    SIngleFile 和 SingleFile Core 这两个 chrome 插件
    echo404
        82
    echo404  
       2018-07-05 14:13:53 +08:00
    印象笔记 chrome 插件
    tsukiikekaoru
        83
    tsukiikekaoru  
       2018-07-05 14:15:29 +08:00 via Android
    先用简悦,然后选择你喜欢的方式导出
    donglongfei2008
        84
    donglongfei2008  
       2018-07-05 14:42:07 +08:00
    记得火狐很早之前就有截取整个网页的功能,保存成图片
    ibolee
        85
    ibolee  
       2018-07-05 15:10:03 +08:00
    先用 fireshot 插件整页截图,再用 10987654321 点 com 做在线图像识别转文本。
    ajan
        86
    ajan  
       2018-07-05 15:27:39 +08:00   1
    standin000
        87
    standin000  
       2018-07-05 20:29:10 +08:00
    @randyzhao diigo 能够导出 html 文件吗?
    randyzhao
        88
    randyzhao  
       2018-07-06 08:56:08 +08:00
    @standin000 这个我就不知道了,你喊一下 5 楼的同学
    laxapple
        89
    laxapple  
       2018-07-06 10:16:59 +08:00
    Safari Reader 模式打印保存为 PDF
    standin000
        90
    standin000  
       2018-07-06 19:25:43 +08:00
    好吧,继续请教 @lurenw
    H0TSp1RnG
        91
    H0TSp1RnG  
       2018-08-18 01:40:23 +08:00
    楼主有结论了吗
    creedowl
        92
    creedowl  
    OP
       2018-08-18 13:44:26 +08:00
    @H0TSp1RnG #91 上面推介的简阅不错
    PANWCS
        93
    PANWCS  
       2019-07-24 13:42:09 +08:00
    @v2sir 这个方法是真好评,方便。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     975 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 22:33 PVG 06:33 LAX 15:33 JFK 18:33
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86