BSOD: WHEA_UNCORRECTABLE_ERROR – DE nachtmerrie van elke sysadmin


Al tijden probeer ik een stabiele Windows Server 2008 (R2) te installeren, een onmogelijke taak lijkt zo……

Het begon een paar maanden geleden, met een ASUS M2A-VM, dit bord crashte telkens op het moment dat er een RDP verbinding werd opgezet, chipset drivers, video drivers, het mocht niet baten, W2k8r2 bleef crashen bij RDP….

Een continue self-test van het systeem mocht niet baten, bijna een week lang heeft het ding aangestaan om zichzelf op de knieĆ«n te krijgen, ruim 6 dagen lang onder full-load werkte het systeem naar behoren, dit was niet onder Windows, maar onder Linux…

Ligt het probleem dan toch aan Windows…geen idee.

Uiteindelijk besloten een nieuw moederbord plus processor te kopen, een M3N78-VM met een AMD X2 240, installatie verloopt smooth en alles lijkt goed te werken…lijkt goed te werken…
Bij een geheugen gebruik boven de 1,9GB knalt het systeem eruit…

Na een reboot zie ik het volgende na het inloggen:
4b5b7f1e1a232-img_0004

Het debuggen begint…

Na het analyseren van het dump file blijkt dat WHEA_UNCORRECTABLE_ERROR de foutmelding is, met 0×124 als bugcheck code.

De eerste parameter is 0×0, op de Microsoft website zeggen ze daar het volgende over:

Parameter 1 Parameter 2 Parameter 3 Parameter 4 Cause of error
0×0 Address of WHEA_ERROR_RECORD structure. High 32 bits of MCi_STATUS MSR for the MCA bank that had the error. Low 32 bits of MCi_STATUS MSR for the MCA bank that had the error. A machine check exception occurred.

These parameter descriptions apply if the processor is based on the x64 architecture, or the x86 architecture that has the MCA feature available (for example, Intel Pentium Pro, Pentium IV, or Xeon).

Een lastig parket dus, en ik heb geen idee waar het aan kan liggen, ik ga nu nogmaals alles doortesten…

Voor de mensen die het graag zelf eens willen onderzoeken wat het kan zijn:

Bugcheck code: 0×124 (0×0, 0xFFFFFA8001CCF8F8, 0×0, 0×0)

En download HIER het dump file van windows (opslaan als!).

Mocht iemand een idee hebben wat het kan zijn…ik hou me aanbevolen!

DJVG out.

EDIT 24-1 12:00: Memtest gedaan, wall time van 9 en 24 pass. Geheugen is dus OK….

  1. #1 by Dennis at January 27th, 2010

    Hoi Daan,

    Windows Server 2008 R2 zelf is retestabiel! Je moet echter wel hardware gebruiken die gecertificeerd is!

    Ik weet niet of het mobo zelf voor komt op de lijst van goedgekeurde hardware en of als je drivers signed zijn.

    Als je onder Linux stressed geen problemen boven de 1,9GB?

  2. #2 by Offtopic at January 27th, 2010

    Morgen Daan,

    Kom hier eens kijken, hier geen problemen … nou staat hier natuurlijk wel een prof. server ….

    Groet,

    Offtopic

  3. #3 by Offtopic at January 27th, 2010

    An uncorrectable PCI Express error

    Kortom probeer eens een ander slot ?

    Zal een combinatie van PCI Ex en de manier waarop Win2008 sommige routines schrijft.

    Zou ook verklaren waarom het onde Linux OS wel werkt

  4. #4 by DJVG at January 27th, 2010

    Er zit niks in het PCI Express slot, het moederbord komt niet voor in de Server Catalog

    Gister het bord + proc. omgeruild voor dezelfde. Geheugen is echt in orde.

    Schone installatie gedaan + stress test, na 3 uur 10 minuten en 2 seconden is het apparaat weer vastgelopen.
    4b5feba842f06-IMG_0034

    Dat het apparaat niet gecertificeerd is klopt, maar deze fouten zijn heel moeilijk te herleiden.

    Met de tool verifier heb ik gecontroleerd of er ergens in het systeem op dat moment verkeerd gaat…en dat is niet het geval. Voordat verifier iets kan detecteren is hij alweer vastgelopen…

    Ik vind het heeeeeeeel moeilijk, snap er niks van!

  5. #5 by Offtopic at January 27th, 2010

    Ja das balen …
    Ander moederbord ? Een echte ?

  6. #6 by DJVG at January 27th, 2010

    Hmmm, ja graag, enkel is het voor een test servertje nou niet echt de bedoeling om er enorm veel geld aan uit te geven….

    W2k8r2 + Exchange 2010 moet dit ding echt wel makkelijk aankunnen…

  7. #7 by DJVG at January 27th, 2010

    Of ik installeer gewoon windows sever 2003 met exchange 2007…..

  8. #8 by Dennis at January 27th, 2010

    Zodra je werkt met niet gecertificeerde hardware kan het al gauw uitlopen op problemen. Hoewel dit wel tot in het extreme is! Wat als je Linux gebruikt als host en MS virtualiseert? Niet echt charmant, maar als het toch alleen maar een testbak is?

  9. #9 by DJVG at January 27th, 2010

    Geheugen is nu vervangen door Corsair, met dat smerige OCZ heb ik al veel meer problemen gehad.

  10. #10 by Dennis at January 27th, 2010

    OCZ… ik heb OCZ reapers in mijn werkbak hier, in combinatie met een Asus Striker II Extreme gaf dat enorme problemen! Pas na een half jaar voltages, timings en andere elende tweaken heb ik nu geen vastlopers meer in games. In tests bleef alles overeind!

    Ik zweer nu bij die Approved Vendor Lists van die moederborden fabrikanten. Op papier klopt alles, in de praktijk niet.

(will not be published)
  1. No trackbacks yet.