有个 NVME 盘用了好些年最近老掉盘, smartctl 查的指标咋分析健康状态。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
ofyann
V2EX    程序员

有个 NVME 盘用了好些年最近老掉盘, smartctl 查的指标咋分析健康状态。

  •  
  •   ofyann 174 天前 2234 次点击
    这是一个创建于 174 天前的主题,其中的信息可能已经有所发展或是发生改变。
    === START OF SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED SMART/Health Information (NVMe Log 0x02) Critical Warning: 0x00 Temperature: 48 Celsius Available Spare: 100% Available Spare Threshold: 50% Percentage Used: 15% Data Units Read: 1,107,071 [566 GB] Data Units Written: 10,088,868 [5.16 TB] Host Read Commands: 4,631,272 Host Write Commands: 257,829,708 Controller Busy Time: 4,255 Power Cycles: 124 Power On Hours: 446 Unsafe Shutdowns: 101 Media and Data Integrity Errors: 2,472 Error Information Log Entries: 58 Warning Comp. Temperature Time: 239 Critical Comp. Temperature Time: 157 Temperature Sensor 1: 48 Celsius Temperature Sensor 2: 51 Celsius Thermal Temp. 2 Transition Count: 6 Thermal Temp. 2 Total Time: 13611507 
    23 条回复    2025-07-02 11:04:39 +08:00
    1vanishedtotally
        1
    1vanishedtotally  
       174 天前
    其实你可以设置主板启动时间+1s,有的时候就是主板启动太快了,硬盘还没睡醒就开机了
    lechain
        2
    lechain  
       174 天前
    为啥写比读大一个数量级?你的电脑是日常开了啥一直写盘的软件吗?
    ofyann
        3
    ofyann  
    OP
       174 天前
    @1vanishedtotally 机器从来不关机,就这几个月会出现突然读取不到硬盘了,需要断电重启。
    ofyann
        4
    ofyann  
    OP
       174 天前
    @lechain 要说一直在运行的软件,也就每天本地文档增量压缩归档一份到 COS 里面。
    busier
        5
    busier  
       174 天前 via Android
    下次你把 smart 报表贴到 AI 里面 给你分析的妥妥的
    ntedshen
        6
    ntedshen  
       174 天前
    > Percentage Used: 15%
    > Media and Data Integrity Errors: 2,472
    C0reFast
        7
    C0reFast  
       174 天前
    Media and Data Integrity Errors: 2,472
    0E 了,换盘吧。
    wuruxu
        8
    wuruxu  
       174 天前
    是的,扔给 GPT 分析的很全面
    AI 特别适合处理有边界的信息
    qq316107934
        9
    qq316107934  
       174 天前
    445 小时运行 500GB 读 5TB 写入 就坏块了么,这是哪家的 SSD ?
    124 次通电循环里有 101 次非正常关机也是有点惨...
    Cooky
        10
    Cooky  
       174 天前
    Error Information Log Entries
    这个应该是可以看详细日志的
    DesmondCobb
        11
    DesmondCobb  
       174 天前
    > Media and Data Integrity Errors: 2,472

    礼问 OP 是三星的盘吗?前两年三星的部分批次疑似存在缺陷,有大量爆 0E 的情况,我手上两块 980 都碰到了

    ref: https://www.reddit.com/r/buildapc/comments/x82mwe/samsung_ssd_smart_0e_issue/
    HFX3389
        12
    HFX3389  
       174 天前
    > Media and Data Integrity Errors: 2,472
    0E 都上 2000 了赶紧换吧
    JoeJasper
        13
    JoeJasper  
       174 天前
    如果是从来不关机的话,那就得检查下排查电源/系统问题吧,124 次通电 101 非正常断电
    ofyann
        14
    ofyann  
    OP
       174 天前
    @DesmondCobb Micron 2200S 镁光的
    ofyann
        15
    ofyann  
    OP
       174 天前   1
    @qq316107934 镁光的
    ofyann
        16
    ofyann  
    OP
       174 天前
    @Cooky 日志里面没啥信息
    ofyann
        17
    ofyann  
    OP
       174 天前
    @wuruxu
    @busier

    PASSED ,AI 让我继续用。
    ofyann
        18
    ofyann  
    OP
       174 天前
    @JoeJasper 我看看
    sssxxxyyzz
        19
    sssxxxyyzz  
       174 天前
    Gemini 2.5 Pro 建议你换盘

    好的,我们来详细分析一下这块镁光 2200S 固态硬盘的 S.M.A.R.T. 数据。

    一句话总结:虽然硬盘自检结果为“通过”,但详细数据显示出几个非常严重的问题,表明这块硬盘的可靠性已经严重受损,存在数据丢失的风险。

    正面指标 (The Good)

    Critical Warning: 0x00: 硬盘目前没有触发任何最高级别的紧急警报。

    Available Spare: 100%: 备用块充足。

    Percentage Used: 15%: 硬盘的理论写入寿命消耗了 15%,还剩余 85%。

    Temperature: 48 Celsius: 当前的工作温度是正常的。

    严重问题 (The Bad - Red Flags)

    这块硬盘有三个非常令人担忧的指标,需要您高度重视:

    Media and Data Integrity Errors: 2,472

    这是最严重的问题。 这个数值记录了主控芯片在从闪存读取数据时,发生无法用 ECC (错误检查和纠正)代码修复的错误次数。理想情况下,这个值应该永远是 0 。出现如此高的数值意味着硬盘的闪存单元( NAND Flash )已经出现物理损坏或不稳定,无法可靠地存储数据。这直接威胁到您的数据安全。

    Unsafe Shutdowns: 101

    这个数字非常高。它记录了硬盘在没有接到正常关机指令的情况下被断电的次数。这通常由强制关机、蓝屏、突然断电或系统崩溃引起。

    与仅有 124 次的通电次数( Power Cycles )相比,不安全关机率高达 81% (101 / 124)。这说明设备几乎每次都处于非正常关机的状态,这会严重损害硬盘的文件系统和内部数据映射表,是导致数据损坏和硬盘故障的常见原因。

    Critical Comp. Temperature Time: 157

    这个指标记录了硬盘在“严重过热”状态下运行的总时长,单位是分钟。

    您的硬盘有 157 分钟(约 2.6 小时) 的时间处于严重过热状态。长时间过热会加速闪存单元的老化,甚至对主控芯片造成不可逆的物理损伤。这很可能是导致 Media and Data Integrity Errors 数量巨大的根本原因。

    使用模式分析

    写入量: 在仅 446 个通电小时内,硬盘已经写入了 5.16 TB 的数据。这属于中高强度的写入。

    寿命估算: 根据 5.16 TB 写入消耗了 15% 的寿命,可以估算出该硬盘的总写入寿命( TBW )大约在 35 TB 左右 (5.16 / 0.15 ≈ 34.4)。这是一个非常低的 TBW 数值,表明这可能是一款低耐久度的 QLC 硬盘,或者过热已经严重加速了其寿命损耗。

    结论与建议

    这块硬盘虽然还能工作,但已经是一颗“定时炸弹”。它的闪存介质已经出现问题,并且其工作环境(频繁断电和严重过热)非常恶劣。

    我强烈建议您:

    立即备份所有重要数据! 这是最优先、最紧急的事项。鉴于已有 2,472 次媒体和数据完整性错误,您的某些文件可能已经损坏。

    调查并解决问题根源:

    过热问题:检查设备的散热系统。如果是笔记本,请清理风扇和散热口的灰尘。确保硬盘所在位置有足够的空气流通。

    断电问题:排查为什么会频繁发生不安全关机。是操作系统问题、电源问题还是您有强制关机的习惯?

    考虑更换硬盘:鉴于硬件已经出现不可逆转的迹象(完整性错误),为了您数据的长期安全,更换一块新的、质量可靠的固态硬盘是最稳妥的解决方案。
    kokutou
        20
    kokutou  
       174 天前 via Android
    大船货?
    sssxxxyyzz
        21
    sssxxxyyzz  
       174 天前
    写入那么少就掉了 15%寿命。怀疑你这不是正经盘,你看我的
    好的,这是对您提供的三份 CrystalDiskInfo 报告的分析。

    这三份报告记录了同一块固态硬盘( SSD )在不同时间点的状态。

    硬盘基本信息

    型号: UMIS RPJYJ1T24MLR1HWY

    容量: 1024.2 GB

    接口: NVMe PCIe 4.0 x4

    状态对比分析

    下表总结了硬盘从 2024 年 10 月到 2025 年 7 月 的关键使用数据变化:

    指标 2024 年 10 月 23 日 2025 年 3 月 15 日 2025 年 7 月 1 日
    通电总时长 2090 小时 4310 小时 6166 小时
    健康状态 99 % 98 % 97 %
    已用百分比 1 % 2 % 3 %
    总读取量 20841 GB 36792 GB 66383 GB
    总写入量 17034 GB 28315 GB 47577 GB
    通电次数 448 次 834 次 1134 次
    不安全关机次数 11 次 22 次 30 次
    温度 45°C 44°C 47°C
    结论解读

    使用强度: 该硬盘的使用强度非常高。

    在 2024 年 10 月至 2025 年 3 月的大约 5 个月里,通电时间增加了约 2220 小时,写入了超过 11000 GB 的数据。

    在 2025 年 3 月至 2025 年 7 月的大约 3.5 个月里,通电时间增加了约 1856 小时,写入了超过 19000 GB 的数据,使用强度进一步加大。

    健康度损耗: 硬盘的健康状态( Health Status )和已用百分比( Percentage Used )数值变化符合其高强度使用的预期。健康度从 99% 缓慢下降到 97%,属于正常磨损。

    运行状态:

    硬盘的工作温度在 44°C 到 47°C 之间,对于一块 NVMe 固态硬盘来说,这是一个正常且理想的温度范围。

    值得注意的是,“不安全关机次数”在持续增加,从 11 次增加到 30 次。这通常指系统在未完成正常关机程序时断电(如强制关机、意外断电)。虽然目前没有引发问题,但频繁的不安全关机可能会增加数据丢失或固件损坏的风险。

    总的来说,这块硬盘目前状态良好,但正处于高强度的使用环境中。各项指标的变化均在正常范围内,唯一需要留意的是不安全的关机次数有所增多。
    importmeta
        22
    importmeta  
       174 天前
    之前我也碰见类似的, 不建议用了, 如果能刷固件找俄语论坛刷固件, 然后买个盒子做成移动硬盘.
    charles0
        23
    charles0  
       173 天前 via iPhone
    0e 这一项( Media and Data Integrity Errors )不为 0 ,这个固态硬盘已经可以看作坏了,建议立即抢救数据,然后换一个硬盘
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1269 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 17:25 PVG 01:25 LAX 09:25 JFK 12:25
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86