软件可靠性——从2003年北美大停电说起

2003年北美大停电给人造成的印象比较深刻,据称最后发现其原因与GE公司的XA/21系统中的软件缺陷有关系:Software Bug Contributed to Blackout。电力系统作为一个高度复杂的系统,不仅涉及到众多的软件和硬件,也涉及到人。系统本身应有各种各样的报警和预警措施,为什么全部都不好使了呢?反思美加大停电一文对此做出了一些专业的分析。

教材上说的可靠性度量指标为平均无故障时间(MTBF)、平均故障恢复时间(MTTF)等。也有人喜欢用可靠性是几个9(99.999……%)来说明系统的可靠性。在产品宣传册上,我们经常可以看到的是“本系统可以24X7小时不间断运行”之类的话语。不过这些指标大多只能在事后才能准确计算出来,事前只能通过一些模型方法进行评估。软件可靠性不是一个1+1=2之类的数学问题,而是一个工程问题,需要贯穿于整个产品生命周期之中进行考虑。

  1. 北航的一个PPT
  2. 华为的文章:解决方案——让用户数据管理系统更可靠
  3. 中国可靠性网:企业追求的永恒目标:高可靠性
[ Misc ]
Written on March 30, 2010