扫描二维码关注官方公众号
1234下一页
返回列表 发布新帖

[玩法/技巧] 为什么RAID5往往掉一个盘后第二个盘也立刻挂掉的原因

 
15222 91
发表于 2013-7-7 22:49:37 | 显示全部楼层 阅读模式

来吧兄弟,一起玩一起讨论!

您需要 登录 才可以下载或查看,没有账号?注册

×
如果你的数据具有比较高的安全要求,你会怎么做?组建RAID5还是raid6?
其实,如果是使用大容量的硬盘(无论是哪种硬盘,桌面盘也好,企业盘也罢),r5或者r6已经不再安全,单机存储,最安全的只有r1
如果要求更高,您可以学学emaic的办法,R1+异备+冷备,不过这个不是这个帖子的重点,如果有兴趣的话单独讨论

下面转帖开始
非原创,原帖地址见http://bbs.et8.net/bbs/showthread.php?t=1026112


很多人遇到过服务器RAID5挂掉,往往掉一个盘后,第二个盘也立刻挂掉。

大家都知道RAID5 一次允许一个盘缺失,

引用:
RAID 5也是以数据的校验位来保证数据的安全,但它不是以单独硬盘来存放数据的校验位,而是将数据段的校验位交互存放于各个硬盘上。这样,任何一个硬盘损坏,都可以根据其它硬盘上的校验位来重建损坏的数据。硬盘的利用率为n-1。

如果挂掉两个盘,数据就玩完了。
理论上两个硬盘同时失效的概率是很低的,但为什么会这样呢?

引用:
从数学角度说,每个磁盘的平均无故障时间 (MTBF) 大约为 50 万至 150 万小时(也就是每 50~150 年发生一次硬盘损坏)。实际往往不能达到这种理想的情况,在大多数散热和机械条件下,都会造成硬盘正常工作的时间大幅减少。考虑到每个磁盘的寿命不同,阵列中的任何磁盘都可能出现问题,从统计学角度说,阵列中 N 个磁盘发生故障的机率比单个磁盘发生故障的机率要大 N 倍。结合上述因素,如果阵列中的磁盘数量合理,且这些磁盘的平均无故障时间 (MTBF) 较短,那么在磁盘阵列的预期使用寿命过程中,就很有可能发生磁盘故障(比方说每几个月或每隔几年就会发生一次故障)。

两块磁盘同时损坏的几率有多大呢(“同时”就是指一块磁盘尚未完全修复时另一块磁盘也坏掉了)?如果说 RAID 5 阵列的MTBF相当于MTBF^2,那么这种几率为每隔10^15个小时发生一次(也就是1万多年才出现一次),因此不管工作条件如何,发生这种情况的概率是极低的。从数学理论角度来说,是有这种概率,但在现实情况中我们并不用考虑这一问题。不过有时却是会发生两块磁盘同时损坏的情况,我们不能完全忽略这种可能性,实际两块磁盘同时损坏的原因与MTBF基本没有任何关系。

今天刚好在测试一个ZFS阵列,能清晰地进行数据校验并看到结果,于是正好分析了一下原因。

对这种情况来说,这里首先要引入一个一般人不常接触到的概念:

BER 硬盘误码率,英文是BER(Bit Error Rate),是描述硬盘性能的一个非常重要的参数,是衡量硬盘出错可能性的一个参数。

这个参数代表你写入硬盘的数据,在读取时遇到 不可修复的读错误的概率。

(不能恢复的ECC读取错误)从统计角度来说也比较少见,一般来说是指读取多少位后会出现一次读取错误。

随着硬盘容量增加,驱动器读取数据的误读率就会增加,而硬盘容量暴涨,误码率的比例一直保持相对增加。一个1TB的驱动器是需要更多读取整个驱动器,这是在RAID重建期间发生错误的概率会比300G 驱动器遇到错误的几率大。
那这个错误的几率到底有多大呢?或者说,我们写入多少GB数据,才会遇到1byte的读取错误呢?

看这篇文章:
http://lenciel.cn/docs/scsi-sata-reliability/

对于不同类型的硬盘(以前企业级、服务器、数据中心级硬盘用SCSI/光纤,商用、民用级别是IDE;现在对应的则是SAS/SATA;
他们的MRBF(平均无故障时间)是接近的,但是BER便宜的SATA硬盘要比昂贵的SCSI硬盘的误码率(BER)要高得多。
也就是说,出现某个sector无法读取的情况,SATA要比SCSI严重得多。
这两种硬盘(企业级的SCSI/ FC/ SAS 磁盘)/(商用/民用级的IDE/SATA)BER的差距大概是1-2个数量级。

按照文中的计算,一个1TB的硬盘,通常你无法读取所有sector的概率达到了56%,因此你用便宜的大容量SATA盘,在出现硬盘故障的情况下重建RAID的希望是:无法实现。

我们回到RAID5的情况来。
在RAID5大行其道之初,硬盘的容量基本不超过100GB.

在过去,做RAID5一般RAID的磁盘容量都不大,比如72GB。无法恢复一个RAID的概率按照文献是1.1%(注意,1.1%已经很不错了,因为你在硬盘故障之后,才需要去恢复RAID。两个概率是要相乘的。

当硬盘容量上升到200GB,假设出现故障的概率是线性增长的[1]。那么失败率有11%,估计负责存储的人就被老板操的厉害了。

但是56%,也就是你用1TB的SATA硬盘做RAID5的话,当你遇到一个硬盘失效的情况,几乎剩下的两个以上硬盘(RAID5最少组合是3个)铁定会遇到一个硬盘读取错误,从而重建失败。

所以,以前小硬盘做RAID5,基本很少遇到同时挂掉两个盘的情况;现在硬盘大了,出问题的概率也越来越大了。

本帖被以下淘专辑推荐:

评论91

ivanlau 发表于 2013-10-13 12:36:29 | 显示全部楼层
翻到那个帖子最后一页看吧,这个文章的谬误网友已经写的很清楚了
回复 点赞

使用道具 举报

鏡頭看世界Lv.5 发表于 2013-8-27 14:46:21 | 显示全部楼层
aspire 发表于 2013-8-2 11:38
呵呵,仅仅随便聊聊,不必太认真哈。

硬盘无论是不通电还是作为Hot Spare长期通电,都可能损坏。当你以 ...

藍光還真可以自動,只是藍光沒磁帶成本低,
至於安全吧,一般存儲上會自動檢測,壞了就換就是,全壞了還有備份在,只要肯花錢;
實際應用中,需要那麼高級別的應用場景那個不是有完善的應急方案,而不是討論方案中一個小點用不用RAiD。

說回家用,資料文檔能過1T?小電影沒了就沒了,
適當備份就可以,至於喜歡高速的,可以R0下載,R1資料,單盤影音,
啥都不懂,就乖乖想Pc那樣弄,買個外置的硬盤做為備份就是。
回复 点赞

使用道具 举报

鏡頭看世界Lv.5 发表于 2013-8-27 14:36:32 | 显示全部楼层
emaic 发表于 2013-8-6 12:06
非专业硬盘技术人员,是否被夸大不清楚,我只知道的是,我所接触和调试的服务器,选择raid5和6的很少,基 ...

5有速度,關鍵性應用還是會用,SAS硬盤不怕的,就算是SATA的企業級也可以;
一個100人ERP使用,用R1只會是數據區,R5做為讀寫區,R0是緩存區,一般會這樣用;
那個服務器不換換盤的,對吧
其實這個看業務的IO讀寫;
RAID作為一項保障技術,很成熟,但他對應的硬盤要求也高。
文章誤導厲害。
家用也好,企業用也好,備份異地是必須的。
回复 点赞

使用道具 举报

caomaoLBLLv.3 发表于 2013-8-27 14:03:11 | 显示全部楼层
謝謝分享
回复 点赞

使用道具 举报

isekuLv.5 发表于 2013-8-27 10:46:08 | 显示全部楼层
本帖最后由 iseku 于 2013-8-27 10:56 编辑

看来数据分散还是王道,都集中在一起容易悲剧。
目前我是用5块1T的SATA组raid5,主要放的是虚拟机磁盘数据,用VDR定期备份到一块独立的1T硬盘上,已经快两年了。看来差不多到该换硬盘的时候了,准备用4块3T的SAS盘做两组RAID1来替换原先的RAID5,大家看怎么样?
回复 点赞

使用道具 举报

fubu1983Lv.3 发表于 2013-8-27 10:13:41 | 显示全部楼层
这么悲崔的
回复 点赞

使用道具 举报

zym789Lv.5 发表于 2013-8-27 09:50:38 | 显示全部楼层
emaic 发表于 2013-7-7 22:50
有人会问:56%?
文章里面这个数据还是显得有些“不可信”。大概是因为下面两个原因,我们才没有怎么听说过 ...

所以说zfs还是王道
回复 点赞

使用道具 举报

gayyzxyxLv.2 发表于 2013-8-27 09:37:12 | 显示全部楼层
还是RAID1得了 多花一块硬盘
回复 点赞

使用道具 举报

leowang022Lv.3 发表于 2013-8-27 00:30:07 | 显示全部楼层
学习了
。。。。。。。。。。。。。。。。。。。。
回复 点赞

使用道具 举报

jeanfLv.10 发表于 2013-8-27 00:19:04 | 显示全部楼层
说了这么多,那DSM中的SHR,谁来说下,都说不好。WHY?
这是什么
回复 点赞

使用道具 举报

牛柳Lv.2 发表于 2013-8-26 17:22:25 | 显示全部楼层
标记了慢慢看
回复 点赞

使用道具 举报

tuhaohuiLv.3 发表于 2013-8-21 23:49:45 | 显示全部楼层
先留个脚印,以后来看!
回复 点赞

使用道具 举报

wenyLv.3 发表于 2013-8-21 17:37:26 | 显示全部楼层
故资料重要的话,最好是双机热备了
回复 点赞

使用道具 举报

pan3000Lv.10 发表于 2013-8-6 21:15:52 | 显示全部楼层
学习了,让我有点换freenas ZFS的冲动。
回复 点赞

使用道具 举报

yht2002Lv.6 发表于 2013-8-6 20:40:18 | 显示全部楼层

收藏慢慢学习
回复 点赞

使用道具 举报

Nokia3310Lv.3 发表于 2013-8-6 19:59:56 | 显示全部楼层
多謝分享文章
回复 点赞

使用道具 举报

yukkiLv.5 发表于 2013-8-6 12:19:53 | 显示全部楼层
很多企业用户或者家庭用户第一块硬盘损坏之后很多都不知道怎么后续操作,误操作使第二块硬盘英勇就义的概率增大了非常多。
回复 点赞

使用道具 举报

emaicVIPLv.6 发表于 2013-8-6 12:06:47 | 显示全部楼层
pgsheng 发表于 2013-8-4 09:13
raid的故障率有点被夸大得太厉害了

非专业硬盘技术人员,是否被夸大不清楚,我只知道的是,我所接触和调试的服务器,选择raid5和6的很少,基本都是R1,曾经搞过一台算是比较高端的存储,IBM的DS8700,这玩意支持FC磁盘、可加密FC磁盘,SATA盘与固态盘四种类型,当时还特意咨询过IBM的技术支持,回复说,如果一定要做R5,最好使用FC硬盘,SATA是绝对不推荐的,原因就是不安全,长期运行下来故障率高的可怕!
5有速度,關鍵性應用還是會用,SAS硬盤不怕的,就算是SATA的企業級也可以; 一個100人ERP使用,用R1只會是數據區,R5做為讀寫區,R0是緩存區,一般會這樣用; 那個服務器不換換盤的,對吧 其實這個看業務的IO讀寫;  详情 回复
发表于 2013-8-27 14:36
回复 点赞

使用道具 举报

pgshengLv.3 发表于 2013-8-4 09:13:57 | 显示全部楼层
raid的故障率有点被夸大得太厉害了
回复 点赞

使用道具 举报

lonelytigerLv.5 发表于 2013-8-3 15:46:14 | 显示全部楼层
steven_pan 发表于 2013-8-3 12:35
raid 10呢,这个好像也很安全

和RAID1差不多,简单,安全,高效!
回复 点赞

使用道具 举报

回复

懒得打字嘛,点击右侧快捷回复 【本站酷狼4T,750元】
您需要登录后才可以回帖 登录 | 注册

本版积分规则

投诉/建议联系

support@gebi1.cn

未经授权禁止转载,复制和建立镜像,
如有违反,追究法律责任
  • 关注公众号
  • 添加微信客服
Copyright © 2001-2024 隔壁网 版权所有 All Rights Reserved. 粤ICP备14056481号-1
关灯 在本版发帖
扫一扫添加微信客服
返回顶部
快速回复 返回顶部 返回列表