从国外服务器下载大量数据( TB 级),求助方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
seki
V2EX    问与答

从国外服务器下载大量数据( TB 级),求助方案

  •  1
     
  •   seki 2016-05-24 18:47:20 +08:00 9647 次点击
    这是一个创建于 3477 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我所在的(小)公司需要从国外的服务器下载一个数据集,总数据量在 5TB 左右,受国内渣渣网络的原因,直接下载速度太慢,而数据下载(目前看起来)是可以直接用 http 反代的,所以需要有一些更有效率的代理中转方案。

    目前我想到的方案是:阿里云的 1CPU , 1GB 内存, 5Mbps 带宽 ECS 三台并行下载。

    5Mbps 带宽是因为带宽阶梯计价, 5Mbps 之后带宽单价变高,且受网络连接能力限制,即使有更高的带宽也不一定能实现满速,不如多台分别下载。云主机数量是考虑到了公司本身的下载带宽。反代工具使用 nginx ,用 python 生成 url ,下载用 python 的 requests 库(因为都是 windows 机器,装 wget 或者 curl 略麻烦)。不知道有什么更好的建议吗?

    P.S. 其实 linode 东京的速度试了一下也还好,而且更便宜,但是没有发票……

    第 1 条附言    2016-05-25 03:10:06 +08:00

    感谢大家的回复,我在文中说得有一点乱,所以把现有的一些情况再整理一下:

    1. 这个数据是美国政府出资因而公开提供的,提供 http 、ftp 和 opendap 下载方式,每个数据文件的下载地址都很有规律,不存在嗅探和构造地址方面的障碍。只不过下载限制(并发数,同 ip 流量等)不是特别明确,希望没什么限制吧。
    2. 数据量是 5TB 左右
    3. 在北京阿里云(没开 IO 优化)上单个数据 wget 下载速度 为 1.7M/s~2M/s 之间波动,Linode,20+M/s
    4. 公司的一个办公室是 10Mbps 电信,另外一个办公室是 100Mbps 小 ISP(所以是注水的带宽,经过测试能跑满 5Mbps 就挺好了……)。我自己租的房子也是在用一个小 ISP 的注水宽带,测试效果还更惨一些
    5. 机器全是 Windows
    6. 希望费用较为明确,并且最好能够有用于报销的发票

    下面回应一下我对一些方案的想法:

    选择按流量计费?

    • 按 0.8元/G 的流量计费来算的话,要花费 4000 元左右,而由于下载网络带宽的限制,并不能显著加快下载进度。 我列出来的固定带宽的阿里云主机每一台是 210元一个月

    外包代下载?

    • 当然是一个可行的方案,毕竟专业的事情交给专业的人是对的。我会问问领导的看法的。

    网盘中转?

    • 这个方案限制比较多,一是云主机的硬盘容量,二是网盘的容量和传输速度,三是网盘的 API,最后不能避免的瓶颈,还是下载带宽……

    虽然已经意识到最大的短板是本地下载带宽了,我个人是比较希望大家能够继续提出意见,多谢!

    第 2 条附言    2016-05-25 10:25:41 +08:00
    好了领导说找合作伙伴下载了……本帖完结,谢谢大家。知道了一种新的业务叫做代下载,这波不亏,以后有需要的话会考虑的
    32 条回复    2017-06-10 17:12:00 +08:00
    SkyEcho
        1
    SkyEcho  
       2016-05-24 18:52:03 +08:00   3
    国际快递
    Showfom
        2
    Showfom  
    PRO
       2016-05-24 18:52:12 +08:00 via iPhone   2
    Window s 下用 IDM 多线程下载更快

    我就晚上下载下载 一个月不到就塞满我 6T 硬盘了 阿里云还是 G 口

    要是很赶时间那就让机房寄硬盘吧
    Showfom
        3
    Showfom  
    PRO
       2016-05-24 18:53:09 +08:00 via iPhone
    这个业务可以包给我 我帮你们把数据放在香港的服务器里 你们本地开 10 个线程下载拖回来就是了
    halczy
        4
    halczy  
       2016-05-24 18:57:58 +08:00   1
    找个多线程下载的软件就可以了,例如 JDownloader , Aria2 等。你开 10-20 线程来下,国内网络还不至于烂到 15Mbps 都跑不过。
    seki
    &nbs;   5
    seki  
    OP
       2016-05-24 18:59:48 +08:00
    @Showfom 主要是公司网络本身也没这么快。可能的确要考虑在公司之外下载了。
    我自己下的话估计也有办法,但是涉及到费用报销的问题……麻烦
    Showfom
        6
    Showfom  
    PRO
       2016-05-24 19:00:57 +08:00 via iPhone
    @seki 显然可以开发票
    SourceMan
        7
    SourceMan  
       2016-05-24 19:04:27 +08:00   1
    你叫兽兽帮你存到硬盘寄给你不就得了,付一定的费用
    cloudbeyond
        8
    cloudbeyond  
       2016-05-24 19:35:23 +08:00   2
    TsunamiUDP 只有撑不住的机器,没有跑不满的带宽 :)
    zzutmebwd
        9
    zzutmebwd  
       2016-05-24 20:03:04 +08:00   1
    我可以试试帮忙下。这边直连蛮快的,一夜应该能下完。
    zzutmebwd
        10
    zzutmebwd  
       2016-05-24 20:05:50 +08:00
    @zzutmebwd 我错了 粗估了一下, 百兆满速需要五天
    popok
        11
    popok  
       2016-05-24 20:14:27 +08:00
    @zzutmebwd 一夜,我吓尿了。
    jhaohai
        12
    jhaohai  
       2016-05-24 20:8:08 +08:00 via iPhone   1
    找可以按流量计费的
    luo362722353
        13
    luo362722353  
       2016-05-24 20:55:10 +08:00   1
    找一个有 5T-6T 硬盘的机房落到机房,然后通过机房传国内网盘?
    AstroProfundis
        14
    AstroProfundis  
       2016-05-24 21:03:05 +08:00   1
    让兽兽从机房下载完装硬盘里寄给你好了
    fcicq
        15
    fcicq  
       2016-05-24 22:06:51 +08:00   1
    在国外下载, 边下载边传回到国内云存储啊. 就是个线路的问题
    hahahasnoopy
        16
    hahahasnoopy  
       2016-05-24 22:17:03 +08:00 via iPhone   1
    找个水货客顺路从香港那边下载好,然后到深圳那边带过来
    neilp
        17
    neilp  
       2016-05-24 22:19:38 +08:00   1
    用 cloudflare 做反代, 我这边下载能把本地贷款撑满.

    最近百度和 cloudflare 搞基.

    如果再用 百度 网盘会员 来下载 cloudlfare 的反代, 不知道能不能快.
    pxlxh
        18
    pxlxh  
       2016-05-24 22:43:56 +08:00   1
    香港基友下载,人肉带过关,然后顺丰。
    hicdn
        19
    hicdn  
       2016-05-24 23:13:18 +08:00   1
    上传天翼云盘,再下载,搬瓦工上传速度峰值 13MB/s ,平均 8MB/s
    leopard080264
        20
    leopard080264  
       2016-05-24 23:25:13 +08:00   1
    上海 48 小时内搞定,请联系 用户名 @gmail.com
    czk1997
        21
    czk1997  
       2016-05-25 02:32:01 +08:00   1
    不能直接拷盘么……
    按流量计费好点。
    em70
        22
    em70  
       2016-05-25 02:55:43 +08:00   1
    阿里云只对下行数据收费,上行带宽是免费的,最大带宽 1G,换句话说在服务器上下载数据是免费的
    w466397352
        23
    w466397352  
       2016-05-25 09:00:12 +08:00
    我也觉得最靠谱的就是人家下好把硬盘快递给你。。。
    LGA1150
        24
    LGA1150  
       2016-05-25 09:08:53 +08:00 via Android
    你可以试试百度云的离线下载
    “ 100M 小 ISP ”是长宽?
    LGA1150
        25
    LGA1150  
       2016-05-25 09:13:04 +08:00 via Android
    你也可以试试联通骨干网缓存服务器( 120.52.72.*)来缓存数据,不过我怀疑它能不能缓存 TB 级数据
    RqPS6rhmP3Nyn3Tm
        26
    RqPS6rhmP3Nyn3Tm  
       2016-05-25 09:30:44 +08:00 via Android
    迅雷离线…
    xunxuntj
        27
    xunxuntj  
       2016-05-25 10:08:01 +08:00 via Android
    FedEx 运 5T 数据,假设空运 3 天到,试算下带宽和代价
    mgna17
        28
    mgna17  
       2016-05-25 11:18:30 +08:00
    肉翻出去,下好再回来。。。。
    superxzr
        29
    superxzr  
       2016-05-25 13:16:32 +08:00
    @Showfom axel 暴力上线程数可以的... 我最高试过 150 线程,在不被 QoS 的情况下从美国取到了 12.6MB/s 的好速度..(我下行不够啦
    Showfom
        30
    Showfom  
    PRO
       2016-05-25 18:31:39 +08:00
    @superxzr - - 可以的
    kslr
        31
    kslr  
       2017-06-10 04:15:02 +08:00 via Android
    @hicdn 哥们,你是跑了个 Windows 上传到天翼吗?
    hicdn
        32
    hicdn  
       2017-06-10 17:12:00 +08:00
    @kslr 没有,写脚本用网页上传接口上传。
    关于     帮助文档     自助推广系统     博客     API   &nsp; FAQ     Solana     3679 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 00:56 PVG 08:56 LAX 16:56 JFK 19:56
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86