Основной причиной инцидента стала ошибка в системе управления DNS для базы данных DynamoDB в регионе US-EAST-1 (Северная Вирджиния).
Иллюстрация: Sora Две автоматические программы, отвечающие за обновление DNS-записей, одновременно изменили адреса серверов, но не синхронизировали свои действия. В результате одна система перезаписала уже обновлённые записи старыми, вторая — удалила эти «старые» записи, что привело к обнулению адресов серверов. Из-за этого многие сервисы AWS потеряли возможность корректно отвечать на запросы.
Инженерам AWS пришлось вручную восстанавливать систему, что заняло около 15 часов. Компания подчеркнула, что уже 21 октября основные сервисы были полностью восстановлены, но отдельные процессы продолжали испытывать нагрузку при обработке отложенных запросов.
Подобные «каскадные» сбои редки, но практически неизбежны в масштабных облачных инфраструктурах из-за высокой сложности и взаимозависимостей. Инцидент вновь привлёк внимание к важности распределения нагрузки и децентрализации сервисов для повышения отказоустойчивости.