NVM Express网站推荐开源的nvme-cli【1】,来在linux上检查ssd nvme固态硬盘的健康状态。大部分linux发行版的包名叫“nvme-cli”,直接使用yum/apt等包管理程序安装即可。
以下为常见命令示例。
1、列出可管理的nvme固态命令
nvme list
输出示例:
Node Generic SN Model Namespace Usage Format FW Rev
--------------------- --------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 /dev/ng0n1 XXXXXXXXXXXXXX SAMSUNG MZVL2512HCJQ-00BL7 1 365.36 GB / 512.11 GB 512 B + 0 B EL2QGXA7
2、查看/dev/nvme0n1的健康信息(smart值)
nvme smart-log /dev/nvme0n1
输出示例:
Smart Log for NVME device:nvme0n1 namespace-id:ffffffff
critical_warning : 0
temperature : 34°C (307 Kelvin)
available_spare : 100%
available_spare_threshold : 10%
percentage_used : 1%
endurance group critical warning summary: 0
Data Units Read : 4,038,833 (2.07 TB)
Data Units Written : 8,466,932 (4.34 TB)
host_read_commands : 40,310,552
host_write_commands : 162,010,584
controller_busy_time : 1,302
power_cycles : 295
power_on_hours : 9,502
unsafe_shutdowns : 20
media_errors : 0
num_err_log_entries : 0
Warning Temperature Time : 0
Critical Composite Temperature Time : 0
Temperature Sensor 1 : 34°C (307 Kelvin)
Temperature Sensor 2 : 31°C (304 Kelvin)
Thermal Management T1 Trans Count : 0
Thermal Management T2 Trans Count : 0
Thermal Management T1 Total Time : 0
Thermal Management T2 Total Time : 0
网上在讨论“三星0e门”事件时,会有一些ID代称,和nvme-cli里面的对应关系如下:
(1)0e:一般指“media_errors”值(媒体与数据完整性错误计数)。正常情况下为0。如果出现非0,可能存在坏块,数据可能或已经丢失,建议尽快备份重要数据及更换固态。
(2)03:一般指“available_spare”(可用备用块百分比;剩余健康OP空间百分比)。该指标非常重要,一旦发现降低,尽快备份重要数据及更换固态。
(3)05:一般指“percentage_used”(已用寿命百分比)。
参考信息:
Open Source NVMe® SSD Management Utility – NVMe Command Line Interface (NVMe-CLI):https://nvmexpress.org/open-source-nvme-management-utility-nvme-command-line-interface-nvme-cli/
本页永久链接:https://www.orztip.com/?p=878&article_title=use-nvme-cli-to-check-ssd-nvme-health