7.12.14 в период с 1:20 до 8:20 на центральном узле нашей сети произошла авария. Все сервисы были недоступны. К устранению аварии приступили уже в 2:00 ночи. К сожалению, из-за того, что системы мониторинга были недоступны, на диагностику и выявление причины аварии ушло много времени. Первые абоненты смогли воспользоваться сервисом в 6 утра, но после этого наблюдалось еще несколько перерывов. Полное восстановление произведено в 8:20.
Причина аварии - образовался loop после сбоя протокола spanning-tree на одном из кольцевых коммутаторов в городе. Он распространился и на ядро сети. Кольцо в данный момент разомкнуто, на 8.12.14 планируется замена коммутатора.
Так же по результатам исследования причин аварии мы дополняем наши инструкции, запланирован пересмотр текущей архитектуры ядра сети и изменения в схеме работы системы мониторинга.
Приносим глубочайшие извинения за все те возможные неудобства, которые принесла Вам эта авария.
Мы будем стараться, чтобы подобных аварий в будущем было как можно меньше.