Здравствуйте! Карта Gigabyte RX6400 4GB стояла в готовой сборке, пришедшей с проблемой через раз при старте Windows пропадает картинка (нет сигнала), но если стартует, то до следующего сна/перезагрузки всё стабильно работает.
В ходе диагностики выяснилось, что при неудачном старте карта падает в код 43, а AGT показал что проблема возникает при попытке перейти в 1й режим PowerPlay:
Запись консоли
root@vgatest/mnt/gbtvga/atidiag/R64D6# ./agt -vctfstatus
AMD GPU TOOL version 3.0.39.0E, Copyright (c) 2021 Advanced Micro Devices, Inc.
VDDGfx : 0.85000 V
VDDCI : 0.85000 V
VDDCR_SOC : 1.00000 V
ASIC Temperature : 57.00 C
root@vgatest/mnt/gbtvga/atidiag/R64D6# ./agt -ppmode=1
AMD GPU TOOL version 3.0.39.0E, Copyright (c) 2021 Advanced Micro Devices, Inc.
Initialized GC successfully
SMC FW load success.
Failed to set PowerPlay mode 1
root@vgatest/mnt/gbtvga/atidiag/R64D6# ./agt -vctfstatus
AMD GPU TOOL version 3.0.39.0E, Copyright (c) 2021 Advanced Micro Devices, Inc.
VDDGfx : 0.71875 V
VDDCI : 0.67500 V
VDDCR_SOC : 1.00000 V
ASIC Temperature : 55.00 C
Карта при этом не виснет. Все напряжения присутствуют, значения от AGT +/- соответствуют фактическим. Установлена карта в райзере или в материнке - поведение одинаково.
При дальнейшем осмотре была найдена ударенная керамика (сама целая, но стояла боком) по линии 1.8, стоящая с краю группы кондёров под областью GPU. И после её шевеления, (или перевозке карты на машине???) карте стало сильно хуже, т.е. она удачно стартовала теперь 1 раз через 20. Дальнейшие манипуляции с этим кондёром и без него, толку не принесли. Других видимых механических повреждений не нашёл.
Потом, случайным образом было установлено, что если с разобранной карты с установленным на чипе маленьким радиатором, убрать обдув и дать нагреться чипу ~ до 65 градусов, то появляется стабильный старт.
В процессе поиска возле чипа элемента реагирующего на температуру, никакой закономерности найдено не было, зато стало опять хуже - разогревать GPU надо было до 70+.
По итогу, решил выпаять флешку и перепроверить её на программаторе. Теперь удачных стартов нет вообще - давал нагреваться чипу почти до 80, дальше бросил эти эксперименты.
Склоняюсь к тому, что из-за удара отвалился чип. Это бы объяснило, что после шевелений и нагревов проблема усугубилась, но не уверен в этом.
Находил
похожую тему без решения, там ситуация аналогична, с единственной разницей что у меня AGT определяет память вот так:
./agt -mccfg
AMD GPU TOOL version 3.0.39.0E, Copyright (c) 2021 Advanced Micro Devices, Inc.
Memory vendor/type : MICRON GDDR6
Current memory size : 4080 MB
detected memory size: 4076 MB
1019MB(A0), 1019MB(A1), 1019MB(B0), 1019MB(B1)
Col bits: 7
Row bits: 14
Channels: 4
Banks : 16
Ch width: 16
Calculated memory size: 4096 MB
Frame buffer map range: 8000000000 - 80FFFFFFFF (4096 MB)
При том что физически стоят 2 банки D9ZPP.
Но раз при удачном старте карта полностью исправно работала во всех режимах, и memfa проходит на PASS, видимо это какие-то особенности организации GDDR6.