Каждый день мы слышим о важности цифровизации, но что происходит, когда эта самая цифра дает сбой? По мнению Павла Гуральника, генерального директора российской компании ISPsystem, специализирующейся на разработке платформ для управления ИТ-инфраструктурой, ответ прост: это может обернуться катастрофой для бизнеса. ‘В нашу эпоху даже минутный простой систем способен вылиться в миллионные убытки и потерю доверия клиентов’, — утверждает эксперт. И действительно, в мире, где каждый клик на сайте может означать новую сделку, а каждый сбой — упущенную возможность, отказоустойчивость ИТ-систем становится не просто модным словом, а вопросом выживания для компаний всех масштабов.

По данным исследования, проведенного несколько лет назад компанией Ponemon Institute, средняя стоимость простоя крупного предприятия составляет около 9000 долларов в минуту. А значит, часовой простой такого бизнеса может обойтись более чем в 500 тысяч долларов.

Даже если не брать в расчет то, что спустя несколько лет эта цифра значительно выросла, она все равно может показаться невероятной. К сожалению, масштаб издержек подтверждается реальными примерами из разных отраслей. Например, по подсчетам аналитиков из Fortune, сбой в работе соцсетей Facebook, Instagram и мессенджера WhatsApp, случившийся 4 октября 2021 года, обошелся компании Facebook Inc. (ныне — Meta) в $100 млн. А произошедший в прошлом году сбой в ИТ-инфраструктуре Volkswagen вынудил компанию остановить 14 заводов в нескольких странах.

На российском рынке эта сумма немногим меньше. По данным исследования Veeam, проведенного в 2019 году, потеря данных из-за простоев критически важных приложений обходится российским компаниям приблизительно в $80,4 тыс. в час. Согласитесь, не всякий бизнес может позволить себе такие расходы. И компании тоже это понимают — поэтому предпринимают меры по обеспечении непрерывной работы ИТ-инфраструктуры

Виртуализация — плюс к отказоустойчивости

Очевидно, что сегодня абсолютное большинство компаний заинтересованы в том, чтобы свести количество простоев к нулю. Однако наш опыт показывает, что это не просто праздный интерес, а реальная потребность, на которую бизнес готов тратить немало средств. Мы видим, как внимательно к вопросам обеспечения отказоустойчивости относятся заказчики на этапе выбора платформы виртуализации, как часто приходят запросы на развитие таких механизмов от действующих клиентов.

Также российские компании продолжают отказываться от использования физической инфраструктуры в пользу виртуальной, при этом все чаще выбирая отечественные решения. И это обусловлено не только потенциальной экономией на оборудовании или возможностью более эффективно использовать доступные вычислительные ресурсы. При грамотном подходе внедрение виртуализации уже повышает отказоустойчивость ИТ-инфраструктуре.

На базовом уровне — запущенные на одном физическом сервере виртуальные машины изолированы как от оборудования, так и друг от друга. Если одна ВМ выйдет из строя, другие продолжат работать. Кроме того, современные платформы управления виртуализацией обеспечивают возможность мониторинга состояния виртуальных машин. Если какие-либо параметры их работы приблизятся к критичным, администратор практически мгновенно получит уведомление и сможет устранить проблему до того, как она встанет в полный рост.

Зрелые платформы виртуализации предлагают и продвинутые технологии обеспечения отказоустойчивости.

В частности, кластер высокой доступности или HA-кластер. Фактически он представляет собой группу серверов, объединенных для обеспечения высокой доступности приложений и данных. Если на одном физическом сервере кластера случится произойдет неполадка, платформа виртуализации запустит процесс восстановление виртуальной инфраструктуры и автоматически перенесет все работавшие на нем ВМ на другой узел автоматически.

Сегодня возможность создания такого кластера доступна пользователям многих платформ виртуализации, и отечественных в том числе. VMmanager от ISPsystem — не исключение. Наша реализация отказоустойчивого кластера позволяет автоматически перенести виртуальные машины с проблемного узла на рабочий всего за несколько секунд.

Когда счет идет на минуты

Построение отказоустойчивого кластера позволяет бизнесу защититься от проблем с отдельными единицами оборудования, но не спасает от более серьезных инцидентов, например, когда сбой затрагивает целую ИТ-площадку. Компании, которые хотят предусмотреть и такие риски, как правило, задумываются об организации репликации или даже создании метрокластера.

Метрокластер — это кластер, разнесенный на несколько удаленных друг от друга площадок. При этом расстояние между ними может достигать нескольких десятков километров — именно поэтому его также называют растянутым кластером. В отличие от обычной репликации метрокластер предполагает автоматическое переключение на другую реплику, а значит, минимальное RTO — время восстановления доступности инфраструктуры после сбоя. Кроме того, эта топология подразумевает использование исключительно синхронной репликации, поскольку этот метод гарантирует идентичность данных.

Построение метрокластера позволяет обеспечить катаустройчивость ИТ-инфраструктуры — ИТ-сервисы продолжат работать даже в том случае, если в одном из дата-центров произошла серьезная авария, например, пожар или затопление. При этом работа метрокластера автоматизирована — и репликация данных, и переключение на другую площадку происходят без ручного вмешательства администратора.

Чем выше уровень отказоустойчивости системы, тем больше ресурсов требуется для её обеспечения, что неизбежно ведет к увеличению затрат для компании. Например, внедрение метрокластера требует значительных инвестиций в оборудование, каналы связи, программное обеспечение и инфраструктуру. Заказчику придется реализовать все требования синхронной репликации, а это как минимум затраты на быстрые каналы связи, и требования метрокластера — наличие нескольких площадок и правильной коммутации между ними.

Иными словами, метрокластер нужен исключительно тем компаниям, которые планируют обеспечить RTO в несколько минут или даже секунд. Если такого требования нет, можно обойтись более экономичной репликацией — синхронной или асинхронной — в зависимости от задач бизнеса.

На первый взгляд может показаться, что уход западных вендоров значительно усложнил задачу построения отказоустойчивой ИТ-инфраструктуры. К счастью, это не так. Сегодня и отказоустойчивое, и катасторофоустойчивое решение можно построить на базе отечественных продуктов, но его планирование, развертывание и эксплуатация требует определенного уровня компетенции исполнителя.

Также важно понимать, что погоня за минимальным RTO не всегда целесообразна. Для определения оптимального уровня отказоустойчивости компании необходимо здраво оценить свои потребности и риски, которые несет остановка в работе ИТ-инфраструктуры. В частности, для критически важных систем может потребоваться максимальная отказоустойчивость, тогда как для менее значимых сервисов можно выбрать более экономичные решения. Такой подход позволяет эффективно управлять ресурсами и минимизировать расходы, обеспечивая при этом необходимый уровень надежности и безопасности.

Об авторе
Недавние публикации

Digital Report

Digital-Report.ru — информационно-аналитический портал, который отслеживает изменения цифровой экономики. Мы описываем все технологические тренды, делаем обзоры устройств и технологических событий, которые влияют на жизнь людей.

Digital Report недавно публиковал (посмотреть все)