HP BL685c G7 Combined Unit Error

HP ProLiant BL685c G7 serisi sunucuda karşılaştığım bir sorundan bahsedeyim.

İlk başlarda çalışan sistemi kesintiye uğratacak bir sorun olarak başlamadı. Konsola ve sistem loguna aşağıdaki hataları basıyordu. İnternette araştırdım ancak olumlu veya tatmin eden bir cevap alamadım. HP’yi arayıp durumu bildirdim ancak neden olduğunu açıkca söylemediler. CPU’da sorun olduğunu ve değişince sorun kalmayacağını bildirdiler. Çalışma için gün kararlaştırıldı ve ertesi gün sunucu kendini durduk yere yeniden başlattı. Ciddi bir sorun yaşatmış oldu. Neyse, HP’den teknik bir arkadaş geldi ve CPU’yu değiştirdi. Sorun ortadan kalktı sandık ancak, CPU değişmesine rağmen aynı hatalar gelmeye devam etti. Aslında CPU’da sorun yokmuş BIOS güncellenmesi ile sorun çözüldü.

Message from syslogd@travego at Apr 24 23:49:02 ... kernel:[Hardware Error]: MC2_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c0d401000040136  
Message from syslogd@travego at Apr 24 23:49:02 ... kernel:[Hardware Error]: Combined Unit Error: Fill ECC error on data fills.  
Message from syslogd@travego at Apr 24 23:49:02 ... kernel:[Hardware Error]: cache level: L2, tx: DATA, mem-tx: DRD  
Aug 12 12:23:43 travego kernel: [Hardware Error]: CPU:55 MC2_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c0d401000040136  
Aug 12 12:23:43 travego kernel: [Hardware Error]:     MC2_ADDR: 0x00000038338ae278 Aug 12 12:23:43 travego kernel: [Hardware Error]: Combined Unit Error: Fill ECC error on data fills.  
Aug 12 12:23:43 travego kernel: [Hardware Error]: cache level: L2, tx: DATA, mem-tx: DRD  
Aug 12 12:23:43 travego kernel: [Hardware Error]: Machine check events logged  
Aug 12 12:26:12 travego kernel: [Hardware Error]: CPU:51 MC2_STATUS[-|CE|MiscV|-|-|-|-|CECC]: 0x980d4000000c0176  
Aug 12 12:26:12 travego kernel: [Hardware Error]: Combined Unit Error: VB Data/ECC error.  
Aug 12 12:26:12 travego kernel: [Hardware Error]: cache level: L2, tx: DATA, mem-tx: EV  
Aug 12 12:26:12 travego kernel: [Hardware Error]: Machine check events logged  

Bu sorun, yüksek CPU kullanımı olan sunucularda (VM host gibi) daha sık yeniden başlatma sorunu yaşatabilirmiş. Bizim yüksek CPU kullanımı olmadığı için sadece 1 kere yeniden başlama sorunu başımıza geldi.

Erkin Çakar

PostgreSQL DBA & Software developer