答案:和双路平台不同,多路平台不仅要求更高的性能,也要有更强的稳定性。一直以来,X86服务器在同RISC小型机竞争时,在RAS(Reliability可靠性、Availability 可用性和Serviceability可服务性)方面往往处于下风,这也是一些关键领域的小型机用户迟迟不敢向X86/Linux开放平台迁移的重要原因之一。 Nehalem-EX的出现,将X86系统的RAS特性提高到了一个全新的水平,这些技术多达22条,集中解决三个方面的问题:一是数据保护,可以诊断哪些数据出错,利用CRC、ECC校验来纠正错误,如果不能纠正,可以把这些坏的数据进行隔离,以保证不影响其他数据,避免系统的重启和宕机。二是高可用设计,包括QPI Link之间的互备和热切换,内存和CPU的热切换、故障预警机制等等,以保证系统的高可用。三是降低系统计划内的宕机时间,包括系统分区管理技术、CPU和内存的热添加和热移除等。具体如下表所示:
Nehalem-EX处理器的22项RAS特性
方面
功能
技术
数据保护
l 减少关键级的错误l 全系统数据错误检测l 限制错误所产生的影响
1. Parity checking and ECC 寄偶检验与ECC
2. Memory Themal Throttling 内存热量分流
3. Memory demand & patrol scrubbing 内存需求与巡视清除
4. Corrupt data containment 计算数据防泄漏
5. QPI viral mode QPI防病毒模式
6. QPI rolling CRC QPI卷动CRC检验
高可用
l 恢复失效的数据连接l 从失效的CPU与内存上迁移工作负载l 从无法修正的错误中恢复l 帮助进行故障预测
1. Intel SMI Lane Failover 内存控制器(SMI)通道容错
2. Intel SMI Clock Fail Over 内存控制器时钟容错
3. Intel SMI & QPI Packet Retry 内存控制器与QPI包重试
4. QPI Clock Fail Over QPI时钟容错
5. QPI Self-Healing QPI自我修复
6. SDDC plus random bit error recovery 单设备失效代码与随机位错误恢复
7. Memory Mirroring 内存镜像
8. Memory DIMM and Rank Spaning 内存DIMM与列(RANK)广度
9. Dynamic CPU and memory migration CPU与内存动态迁移
10. MCA-recovery with OS support 操作系统支持MCA恢复
减少计划内宕机时间
l 维护模块化分区而非整个系统l 预先替换将失效的组件
1. Static system partitioning 静态系统分区
2. MCA error logging(CMCI) with OS predictive failure analysis 基于操作系统预知失效分析的MAC错误记录
3. Physical Memory Board Hot Add/remove 物理内存卡热添加与移除
4. Dynamic/OS Memory On-lining(capacity change) 动态/OS内存在线(容量变更)
5. Physical CPU Board Hot Add/remove 物理CPU卡添加/移除
6. OS CPU on-lining(capacity change)OS处理器在线(容量变更)
这里特别值得一提的就是,Nehalem-EX增加了原来只在安腾处理器上才有的MCA(Machine Check Architecture)机器校验恢复功能。这个功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,这对于虚拟化环境非常重要。在虚拟化环境中,要关机查找和修复故障意味着必须迁移所有的虚拟机,如采用机器检查恢复功能,这个故障可以隔离,不必迁移所有的虚拟机。目前,包括微软Windows Server、Redhat、SuseLinux以及VMware都已经支持这一功能。
可以说,Nehalem-EX已经拥有X86系统里最高级别的RAS特性,而且与小型机相比,差距也已经不大。但需要注意的是,这些RAS特性的最终实现需要系统厂商和软件厂商的支持。目前,在操作系统和虚拟化方面,Novell、Redhat、微软和VMware都已经做好准备,为至强7500中的高级RAS特性提供支持,以保证可以将这些功能提供给上层的应用软件使用。另一方面,虽然至强7500提供了20多个RAS功能,但并不是所有服务器厂商都需要或者有能力去实现这些功能,比如硬件分区、CPU热添加/热删除、内存板的热添加/热移除,不同厂商会有各自的考虑。这些都需要用户在方案选型时加以考虑。
wordend 相关阅读:
透视八核心至强 Nehalem-EX处理器解析 8路CPU128线程 Nehalem-EX处理器再曝光 英特尔提前展示下一代多路至强处理器
|