26.03.2020 Новости#IMAGE_234522# Невидимые инциденты в необслуживаемых узлах В распределённых компаниях серверные шкафы часто располагаются в подсобных комнатах филиалов, складов или небольших коммуникационных узлах. В таких местах нет дежурного персонала, специализированного охлаждения, а основное средство диагностики — звонок пользователей «у нас ничего не работает». Практика показывает, что большинство инцидентов в серверных помещениях связано с внешними факторами: аномальной температурой, влажностью и нарушениями электропитания. В необслуживаемых узлах время их обнаружения кратно превышает показатели полноценного ЦОДа, поэтому бизнес платит не за поломку, а за собственную слепоту. Высокоплотные стойки и AI‑нагрузки Отдельный класс рисков связан с ростом вычислительных мощностей и задач машинного обучения. Высокая плотность вычислений и дорогостоящее оборудование в AI‑стойках делают систему чувствительной к перегреву и скачкам напряжения. Тепловая инерция таких кластеров минимальна: перегрев развивается быстро, а стоимость выхода из строя GPU или специализированного ускорителя из‑за теплового удара несоизмерима со стоимостью превентивного мониторинга. Поэтому даже хорошо оборудованные ЦОДы усиливают контроль температуры и питания, внедряя автономные сценарии реагирования для таких нагрузок. Концепция edge monitoring Классический мониторинг предполагает пассивное наблюдение: датчик отправляет данные на сервер, сервер формирует уведомление, а оператор принимает решение. Такая схема полностью ...
читать далее.