V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
V2April
V2EX  ›  NAS

实验室每季度产生 10TB 的数据,最佳的异地备份方案是什么?

  •  
  •   V2April · 14 天前 · 6455 次点击

    目前的做法是数据产生后实时同步至群晖,每几个月硬盘会被塞满,然后拷到移动硬盘里。有什么更好的异地备份、本地释放空间的方法吗?实验数据无敏感性,不介意上传至阿里云、腾讯云或 AWS 的云盘里,不需要加密,但怕丢。

    第 1 条附言  ·  14 天前
    关于“异地备份”的问题:

    不好意思可能非专业人士对专业词汇理解有偏差,我说的不是放到别的城市这种异地备份,我说的是从群晖取出来不要占群晖空间这种异地备份。现在的做法是每隔一段时间从群晖里把数据拷出来放移动硬盘,移动硬盘扔柜子里。这种数据安全性除了不确定硬盘会不会放久了坏掉以外已经能满足要求了,不过就是有点麻烦,而且一柜子硬盘不便于整理。


    关于数据量和压缩:

    昨天上群晖看了一下,从 24.10.1 到 24.12.31 一共产生了 10T 的数据。实验室现在用的是 6 盘位的群晖,每个盘 12T ,用 RAID 一共能有 50T 左右的空间,差不多也就是一年的数据量。实验数据是 CCD 相机拍的照片,每张照片 30MB 左右,每天 1000 张~ 4000 张不等吧,我们也不知道怎么压缩😂


    关于成本:

    实验室整体来讲不太差钱,不过按照个人经验,每年花 10000 块买硬盘、买机箱可能比每年花 10000 块买云服务更容易报销。
    75 条回复    2025-03-14 17:36:31 +08:00
    ooh
        1
    ooh  
       14 天前   ❤️ 2
    Cloudflare R2 下载不要钱,就问你厉害不厉害
    timethinker
        2
    timethinker  
       14 天前
    硬盘应该是最好的选择,云存储是按照容量固定周期扣费的,比如 1 个月 1 毛钱 1G ,那么每个月都要为此付费,你在本地跑的话,其实用云服务既无必要也不划算,而且大多云存储上传下载会有额外的流量成本。
    lifanxi
        3
    lifanxi  
       14 天前
    买 OSS ,按访问频率选择不同的 bucket 类型以尽可节省费用。如果只是存档,不太会再次访问,可以用归档存储,10TB 一年只要 2700 。
    SuzutsukiKaede
        4
    SuzutsukiKaede  
       14 天前
    数据要保存多久?用云服务的话,即使不考虑上传下载的流量成本,这个数据量的存储成本会很高
    w568w
        5
    w568w  
       14 天前   ❤️ 7
    看你的访问频率:

    - 几乎不访问(医疗影像、实验记录)可以考虑 S3 的冰川深度储存类,非常便宜,12 刀/年/TB (但取出数据需要半天时间解冻)

    - 非常频繁(模型权重、数据集)就看看阿里云之类的 OSS ,国内节点速度很快

    介于两者中间,就依次考虑 Backblaze 、S3 等储存服务吧。
    chinanetcoltd
        6
    chinanetcoltd  
       14 天前   ❤️ 10
    买台 LTO 磁带机,磁带很便宜。九代 LTO 磁带可提供 18T 的原生容量和 45T 的压缩容量
    stormtrooperx5
        7
    stormtrooperx5  
       14 天前
    oss 深度冷归档
    evill
        8
    evill  
       14 天前
    如果后续使用较少,不存在 ls 问题的话 可以考虑 s3fs
    opengps
        9
    opengps  
       14 天前
    其实大容量机械移动硬盘可靠性很高,多买几块异地邮寄备份可靠性未必低于网盘
    xmumiffy
        10
    xmumiffy  
       14 天前
    腾讯云归档储存 10 元/TB/月
    JoeDH
        11
    JoeDH  
       14 天前
    阿里云 oss 深度冷归档
    hefish
        12
    hefish  
       14 天前
    肯定是采购几套 EMC ,3PAR ,NetApp, HDS , 或者国产 华为,浪潮,曙光 存储啊。。 要全分布式的那种。。。 多买几套。
    xiaoz
        13
    xiaoz  
       14 天前
    恰好最近整理了几个比较便宜的对象存储,楼主可以参考: https://x.com/xiaozblog/status/1899419731389829624
    privil
        14
    privil  
       14 天前
    说存到云上的,得考虑上传带宽吧?
    stefsui
        15
    stefsui  
       14 天前
    每个月 3T 多,如果不是商用宽带,普通千兆宽带一般上传至右 100 - 200Mbps 上传,要 2-3 天。

    如果只是备份还是磁带靠谱,如果是怕实验室不安全,定期把磁带放另外一个地方就行,也算是灾备了
    BeautifulSoap
        16
    BeautifulSoap  
       14 天前
    实验室?用经费氪金买磁带机!
    R4rvZ6agNVWr56V0
        17
    R4rvZ6agNVWr56V0  
       14 天前
    10TB 不算多,但是没有交代为啥要异地备份啊。 如果用磁带机或者光盘刻录机,本地就行了啊,还不用担忧带宽、数据交给谁的问题。
    nong99
        18
    nong99  
       14 天前 via iPhone
    我觉得,首先最后再考虑带宽上传的方案。先不说速度如何、耗时多久。就现在运营商针对 pcdn 得搞法,管你什么行为上传。封!降速!当然,除非高额的商业宽带或许宽松一点
    realpg
        19
    realpg  
       14 天前
    买硬盘,然后快递发到某个临市的朋友家里,异地备份
    JIUBASHI
        20
    JIUBASHI  
       14 天前 via iPhone
    115 ,1t 也就不到十块,还是长期。一年几百块会员。性价比最佳
    234ygg
        21
    234ygg  
       14 天前 via iPhone
    备份用最便宜的类似 AWS s3 deep archive 的就行,或者阿里云也有类似业务,价格 1TB 每月只要 1 美元,上传流量不要钱,下载流量要钱
    234ygg
        22
    234ygg  
       14 天前 via iPhone
    看你要存多久了,需要保存超过 9 个月,那就肯定是自己买硬盘便宜了,硬盘以后不要了还能卖出去。。

    云上最便宜的应该就是 s3 deep 这种,无学习成本,s3 可以用网页上传,注意 s3 deep 每个被上传的对象最低按 180 天收费。
    update
        23
    update  
       14 天前
    刻光盘
    wangtian2020
        24
    wangtian2020  
       14 天前   ❤️ 1
    数据看样子是一点儿没压缩
    yinmin
        25
    yinmin  
       14 天前 via iPhone
    每季度产生 10TB 的数据,是高压缩率的吧? 弄一个 nas 开启 btrfs 压缩格式的放上去,有惊喜哦
    yinmin
        26
    yinmin  
       14 天前 via iPhone
    我们之前的实验数据压缩率超高,基本上 1GB 打包成 rar 只有几十 MB 。你试试每月 rar 打包存储,或者群晖 btrfs 开启压缩功能。
    paradoxs
        27
    paradoxs  
       14 天前
    "目前的做法是数据产生后实时同步至群晖,每几个月硬盘会被塞满,然后拷到移动硬盘里。"

    我不信你有这么多数据。

    按照你这个做法,你现在手上应该有几百 T 的数据了,存满的硬盘也有很多。

    拍照来看看?
    workshop
        28
    workshop  
       14 天前
    海边买个房,定期往房子里放硬盘
    salmon5
        29
    salmon5  
       14 天前
    AWS 都舍得用,我觉得招投标也不是不可以:自建数据中心
    qbmiller
        30
    qbmiller  
       14 天前
    实验数据 重复太多,压缩还是很可以的
    chinni
        31
    chinni  
       14 天前
    borg 每日备份 会压缩去重的 应该不会有那么多变化的数据。。。
    restic 和 kopia 也行
    heike8
        32
    heike8  
       14 天前
    卡车运输最便宜
    wangybsyuct
        33
    wangybsyuct  
       14 天前
    太多了,考虑删除没用的数据,压缩,用磁带备份,然后放到另外一个城市,间隔 100 公里以外,这个是异地备份的标准。
    MacsedProtoss
        34
    MacsedProtoss  
       14 天前 via iPhone
    @nong99 实验室一般是教育网 教育网全是对等上下行的 千兆不在话下 而且没有啥运营商的限制
    mayli
        35
    mayli  
       14 天前
    10T oss 还是最便宜的方案
    leonhao
        36
    leonhao  
       14 天前
    硬盘麻烦死了,不考虑成本,老板出钱的话肯定上云啊
    oldManNewThought
        37
    oldManNewThought  
       14 天前
    123 盘,买 svip, 几百 tb 容量还是多少有点忘了。但是要注意,这个狗屎网盘对存储数量有限制,上限是 500 万个,如果你们存的数量大就不适合
    smdbh
        38
    smdbh  
       14 天前
    感觉大容量硬盘就行了, 加个 usb 硬盘座挺好. 贴标签,放柜子
    TellMeWHY
        39
    TellMeWHY  
       14 天前
    115 网盘终身 VIP (搞活动时几千块搞定),5PB 总容量,用商业宽带来上传,一是上传带宽大,二是不容易被 ISP 封
    定期把一些有时效性的历史数据上传,清空一批本地硬盘,最新的实验数据还是用本地硬盘来保存。
    Busby
        40
    Busby  
       14 天前
    阿里云、腾讯云 oss 深度冷归档+1
    注意如果需要报销的话,阿里云需要学校认证,腾讯云个人认证也可以开学校抬头。
    vopsoft
        41
    vopsoft  
       14 天前 via Android
    我觉得还是买硬盘吧 现实些 那些推荐你用 oss 的压根不知道 oss 有多贵 90T 存储+流量 一年差不多 20 万左右 如果被刷流量 发现的晚 能让实验室直接破产
    vopsoft
        42
    vopsoft  
       14 天前 via Android
    归档也只是节省存储费用 流量费是大头 不会省
    testcgd
        43
    testcgd  
       14 天前 via Android
    主要看你要存多少年吧,上云容易,下云难,建议是按最近几年的容量上云,异地备份,按月删除控制成本,同时本地存一份磁带归档
    oneisall8955
        44
    oneisall8955  
       14 天前
    别上云,下载下来慢的要命。本地搞硬盘存储就行了
    webs
        45
    webs  
       14 天前
    去搜一搜无损压缩,你这套群灰应该能用到毕业
    hongye
        46
    hongye  
       14 天前
    看有倒卖数据的买了很多二手硬盘干这个事儿
    wetist
        47
    wetist  
       14 天前   ❤️ 1
    如果是国内的实验室首先排除 aws ,大容量的传输数据到境外,小心网安找上门,而且 aws 报销也是个大问题
    sjkdsfkkfd
        48
    sjkdsfkkfd  
       14 天前
    首先确定数据冷热和存储时效。因为就算冷归档 100/TB/年,每年 10TB 的话 10 年后也会超过 1w 的预算


    折腾的话就磁带加磁带机,lto6 两盘就有 10tb 了,大概 150 一盘。lto6 磁带机几千块钱,可以一直用
    不折腾那肯定上云了,按冷热程度选购就行
    kenny9572
        49
    kenny9572  
       14 天前
    按照你的需求,磁带机应该是综合成本安全性的最优解了
    gether1ner
        50
    gether1ner  
       14 天前
    可以考虑下腾讯云的低频存储,我这还能做额外的折扣,vx:Jack_Napier__
    nicoljiang
        51
    nicoljiang  
       14 天前
    可以考虑我们的服务,能以较低的成多地多服务商地备份,如果需要还可以保留随时访问数据的能力。
    https://www.bitiful.com/
    nicol#bitiful.com
    wow0o
        52
    wow0o  
       14 天前
    raid1 然后定期换掉其中一个 插入新的来重建 raid , 这样拔下来的那个可以用来恢复历史的 raid
    gam2046
        53
    gam2046  
       14 天前
    >> 每年花 10000 块买硬盘、买机箱可能比每年花 10000 块买云服务更容易报销

    需要留意的是,本地的硬件维护也是有成本的。需要有人员维护其可用性,定期检查设备健康状态,定期巡检、复检。

    还需要考虑,假设说由于维护人员的失误,导致数据丢失,需要背锅的情况。
    GGA
        54
    GGA  
       14 天前
    veeam+LTO9 驱动器的带库和磁带,备份妥妥的,完全不担心数据的丢失
    GotKiCry
        55
    GotKiCry  
       13 天前
    拷贝 贴标签是你最佳选择了,机械硬盘只要你保持干燥,避免震动都没啥问题
    majiajia
        56
    majiajia  
       13 天前
    @chinanetcoltd 不得不感叹人的智慧
    qqjt
        57
    qqjt  
       13 天前
    就放硬盘里挺好的啊,如果不需要考虑冗余和完整性的话。搞个盘位多的机器,装满了就替换硬盘
    JustBecause
        58
    JustBecause  
       13 天前
    @paradoxs 笑出来了,先不说几百 t 怎么算出来的,实验室有几百 t 的数据也不是多稀奇的事情吧,还给你拍照看看证明一下?
    yiguanxianyu
        59
    yiguanxianyu  
       13 天前
    买个好柜子,保持干燥,群晖改成 basic ,多批发点企业级空气盘,满一块换一块,取下来打标签做好记录
    OneMan
        60
    OneMan  
       13 天前
    硬盘若干,分两人各带回宿舍,异地两份,很牛逼
    ala2008
        61
    ala2008  
       13 天前
    每年都有?那还是存云上吧,冷冻备份的数据,便宜
    linxijun
        62
    linxijun  
       13 天前
    威联通的 qudedup 就解决了,前提是两地用的都是威联通的 nas
    aru
        63
    aru  
       13 天前
    搞一台支持热插拔的机器(其实你不需要热插拔,只是为了方便拆装硬盘)
    定期备份到这台机器的硬盘上,满了 1 个盘就拆下来,贴上标签保存,注意防潮。
    后续定期买新盘就行了,这是最简单的方式
    duanxianze
        64
    duanxianze  
       13 天前
    10tb 直接用云服务商的冷存储也没多少钱吧,实验室应该用的起
    aru
        65
    aru  
       13 天前
    根据你们对图片的需要,也许可能可以将容量降低到 3MB 每张但不影响数据保存
    就是压缩成高质量的 jpg 格式,可以尝试压缩下,看有没有影响
    Kinnice
        66
    Kinnice  
       13 天前 via Android
    磁带机
    Kinnice
        67
    Kinnice  
       13 天前 via Android
    有没有尝试就用简单的 zip 压缩一下试试,能小多少
    yinmin
        68
    yinmin  
       13 天前 via iPhone
    @V2April 图片推荐压缩成 webp 格式,图片压缩都是有损压缩,一般人眼看不出啥差别但是尺寸能小很多。主要还是看用途,对比压缩后的 webp 文件,有没有必要保存历史原始文件,毕竟是有损压缩,放大很多倍还是有点差别的。

    你让 ai 写一个 python 程序,定期运行一次,问 ai 的提示词:“ 写一个 python 程序,将指定目录中的 jpg 文件压缩成 webp 文件,图片尺寸不变,精度一般即可,保存在这个目录的 webp 子目录里”,claude 3.7 sonnet 编写编码比较牛,用别的 ai 也能凑合。
    capgrey
        69
    capgrey  
       13 天前
    个人感觉,这数据 100 年都不会再使用
    sengle
        70
    sengle  
       13 天前
    感觉调优一下目前方案就行了:
    1. 优先加入压缩方案,看看是否可以大概满足需求。(获得更多的群晖可用空间,也不用太频繁迁移数据释放空间)
    2. 群晖进一步扩容,加盘位以及升级单个硬盘容量,保障群晖随时留有可用空间,并且能存储一定时间段范围数据。
    3. 优化数据迁移流程,固定时间将群晖数据打包到硬盘做冷存储,贴上标签,码齐放特定地方就行了。

    以上方案你每年如果有 10000 买硬盘预算,大概也够用了。一堆硬盘不好整理的原因,我猜是数据拷贝比较混乱,不知道每块硬盘放了啥,如果数据统一格式存放,贴上标签,放整齐了,应该不难管理。而且还可以建立在线文档,把硬盘序列号和内容记录下来,这样只要硬盘不丢就很好找了。

    感觉实验室在你呆的这几年大概数据也是百 T 量级,没必要折腾云存储。以后数据更多了再考虑换其他方案。
    maizero
        71
    maizero  
       13 天前
    你说的是离线备份吧?

    买多点 HDD 就好了,如果不是真正意义上的冷备,多个 HDD 副本就可以了
    haibudong
        72
    haibudong  
       13 天前
    大约 199 元买个 10t 天翼云盘
    yqesl1
        73
    yqesl1  
       12 天前
    115 永 V 一劳永逸
    hanyuwei70
        74
    hanyuwei70  
       12 天前
    首先说一下 3-2-1 备份原则:3 份数据,2 个介质,1 份(物理)异地。
    这就意味着一般来说你的数据存放方式是这样的
    1. 保持随时可用的一份(比如群晖)
    2. 移动硬盘一份
    3. 异地(云服务或者离线硬盘)一份

    然后是定价:
    1. 云服务:这个取决于你们访问的频率,云服务一般都是存储便宜流量非常贵;
    2. 本地硬盘:HC570 22TB 京东价格 3099 ,这个就是标杆价。

    之后是管理:
    如果你打算长期存储,定期验证数据是必不可少的(建议在线的一个月一次,离线的半年一次)。我自己是用 btrfs 并定期 scrub ,你们实验室可以自己确定一下验证数据的方案(如果你们的数据自带校验是最好的)。
    压缩的话也就是自己压或者交给文件系统压,没什么特别多的说法。
    Co1e
        75
    Co1e  
       11 天前 via Android
    我是卖群晖的,其他产品怎么运行不太清楚。群晖的想省钱可以以你现有的群晖 NAS 作为业务机,再买一台存储容量的更大的群晖使用 abb 去备份业务机,可以使用自动备份。还有其他想法也可以沟通沟通,异地城市之间也可以做实时同步,目前做过最远的是上海和北京实时同步,两台机器都是 100+T 。做过最大的项目也就是 3.5pb 了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5182 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 08:56 · PVG 16:56 · LAX 01:56 · JFK 04:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.