Проверка ошибок Machine Check Exception (MCE) в Linux


Недавно мы рассмотрели ODROID-H2 с Ubuntu 19.04 и заметили некоторые сообщения об ошибках в журнале ядра одноплатного компьютера Intel Celeron J4105 при выполнении теста SBC-Bench: 

Не понятно, что делать с этими ошибками, но нам сказали, что мы получим более подробную информацию с помощью mcelog, который можно установить следующим образом: 

Есть только одна маленькая проблема: его нет в репозитории Ubuntu 19.04, а в отчете об ошибке упоминается, что mcelog устарел, и его необходимо удалить из Ubuntu 18.04 Bionic. Вместо этого нам сообщают, что функциональность пакета mcelog была заменена на rasdaemon.

Но, прежде чем изучать утилиты, давайте выясним, что такое Machine Check Exception (MCE) из ArchLinux Wiki:

Machine Check Exception  (MCE) — это ошибка, генерируемая ЦП, когда ЦП обнаруживает, что произошла аппаратная ошибка или сбой.

Machine Check Exception (MCE) могут возникать по разным причинам: от нежелательных или не соответствующих напряжений от источника питания, от космического излучения, изменяющего биты в модулях памяти DIMM или ЦП, или от других различных сбоев, включая сбой программного обеспечения вызывающий аппаратные ошибки.

Аппаратную ошибку, вероятно, следует воспринимать всерьез. Давайте рассмотрим, как запустить инструменты. Сначала попытаемся установить mcelog из Ubuntu 16.04: 

Отлично!  Запустим несколько команд: 

Ничего интересного,  файл /var/log/mcelog запущен, и мы можем увидеть подробности об ошибках:

Попробуем также рекомендуемый rasdaemon, чтобы увидеть, сможем ли мы получить аналогичные детали.

Установка: 

Похоже, что служба не запустится автоматически после установки, может потребоваться перезагрузка или просто выполнить следующую команду: 

Выполняем несколько команд, и вначале нам показалось, что может понадобиться какой-то драйвер: 

Это должно быть связано с драйверами EDAC, которые используются для памяти ECC в соответствии с соединением в Grokbase. Процессоры Gemini Lake не поддерживают память ECC, поэтому, вероятно, она нам не понадобится.

Запустим еще одну команду, чтобы показать сводку ошибок, и получаем: 

12-ая исправленная ошибка, связанная с кешем L2. Мы можем получить полную информацию с помощью соответствующей команды: 

Статус зеленый, что означает, что все по-прежнему работает, но утилита сообщает о «большом количестве исправленных ошибок кэша» и «система работает, но может вскоре привести к неисправленным ошибкам» (см.Исходный код). Это происходит несколько раз в день, и не понятно, что можно сделать с кешем, поскольку его нельзя изменить, так как он встроен в процессор, возможно, это просто проблема с процессором, который мы используем. Если у кого-то работает ODROID-H2, может быть полезно проверить журнал ядра с помощью dmesg, чтобы увидеть, есть ли у вас такие же ошибки. Если да, укажите также, у вас плата из первой партии (ноябрь 2018 г.) или одна из новых плат ODROID-H2 Rev B.

Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.

Комментарии:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.