Обобщение: Сривът в AWS започна с DNS проблеми, но накрая разкри скритата зависимост на Европа от US-EAST-1. Какво могат да извлекат софтуерните екипи отвъд стандартния призив за облачнo дублиране? Фокусираме се върху е2е тестване, CI/CD pipelines и ролите в екипа, които поддържат стабилност и ускоряват възстановяването.
Само преди седмица обсъдихме риска свързан с избора на платформа, а сега AWS регистрира глобално прекъсване на услугите, което засегна големи потребителски и корпоративни приложения. Associated Press съобщи за DNS проблеми, като първите сигнали се появиха в 00:11. Дори когато DNS бе възстановен около 2:24, каскада от откази се появиха в EC2 към 3:35. Трети сериозни проблеми се проявиха около 8:00. Макар Amazon да върна всички услуги в рамките на допустимото, много сайтове и услуги не бяха недостъпни за повече от 12–15 часа.
Реакцията в Европа беше незабавна и неочаквано публична. „Моят роботът-прахосмукачка спря. Някой може ли да обясни защо робот в Париж зависи от сървъри в САЩ?“ написа Улрике Франке, старши изследовател в ECFR. Публикацията набра популярност, защото улови абсурда и зависимост в два реда.
Европейски политици не закъсняха да се включат в хора! Politico представи срива като предупреждение за европейската автономия: „Такива инциденти показват как концентрацията на изчислителен капацитет прави интернет по-уязвим и превръща техническите грешки в икономически риск.“
Вие не ползвате AWS директно. Вашият доставчик също не ползва AWS директно. Но доставчикът на вашия доставчик го използва.

Тази взаимосвързаност се разкри в момента, в който US-EAST-1 „падна“ и роботите в Париж спряха работа. Невидимата нишка, която свързва Париж със Северна Вирджиния беше прекъсната.
Пост в Reddit по софтуерно инженерство обобщи шеговито: „Младши ИИ програмист написа кода, старши ИИ програмист го прегледа, ИИ тестъри я тестваха, и накрая ИИ админа я качи на сървъра.“
ИИ кодърите вече покриват целия SDLC цикъл. Те пишат код с Claude и Codex CLI, даже генерират и тестовете. По думите на Сундар Пичай от Google, ИИ произвежда над една четвърт от новия код. Сатя Надела посочи още по-висок дял за Microsoft. Анди Джаси не коментира детайли за кода на Amazon, но шефът на AWS бе замесен в спор около ИИ-генериран код.
Amazon, Google, Microsoft и напоследък Meta държат да наемат софтуерни „звезди“. Таланти на световно ниво, както и иновативни процеси са основата на престижа на тези компании и те не се колебаят да платят най-високата цена. В Google или Amazon старши инженери достигат $520,000, а staff и principal често надхвърлят $700,000. Допълнителната цена отразява комплексността на системите, но и поставя работата на всеки инженер под лупа.
Стратегията да се създават отбори от „звезди“ работи прекрасно, както за най-богатите футболни клубове, така и за мега-компаниите в ИТ/ИИ. Но повечето „нормални“ фирми, които разработват софтуер, било то продукти или услуги, постигат отлични резултати чрез мулти-функционални екипи. Комбинацията на системни архитекти, front-end и back-end, QA automation и DevOps инженери разрешава проблемите на клиентите без това да изисква „звезден“ бюджет.
Другата страна на фокусът върху „звезди“, води до намаляването на QA позициите в големите облачните компании през последното десетилетие. Растящите разходи по H-1B визите, особено за QA инженери от Индия, ускоряват изчезването на този вече застрашен вид. Тестването се превърна във отговорност на „звездите“, които по презумпция не допускат бъгове (Меси не си вкарва автогол!). Много продуктови екипи вече се гордеят, че нямат отделни QA. Ролята на професионалния скептик изчезва. Тестването на софтуер на ръка направо се отхвърлят като анахронизъм, дори когато автоматизацията не може да ги замени.
CI/CD се проваля, когато се получи каскада от откази. Много каскади започват от малка промяна в кода. През юли 2024 CrowdStrike достави дефектен файл, който стигна до милиони Windows машини и предизвика „син екран“. Различни среди, различни процеси, но в края на краищата резултата е идентичен: милиони системи остават офлайн.
Ние в TINQIN работим в застраховане и други регулирани индустрии. Много от процесите имат своята юридическа тежест. Сривовете не са нещо абстрактно. Подходът ни отразява тази реалност и поставя DevOps в центъра, като QA е интегриран в доставката, а не отделна бариера.
В застраховането CI/CD са реалната система за контрол на продукция. Изграждаме CI/CD, които остават прозрачни и управляеми под напрежение. Всеки етап, от build до release, е описан, има собственик и план за възстановяване. Проектираме пътеки за промоция, които работят и при отказ на регион, поддържаме защитено съхранение на креденшъли и одитни следи. Резултатът е ясен: вашите и нашите екипи виждат какво тече, поправят бързо и се възстановяват.
Tестовете от-край-до-край (end-to-end) имат стойност, когато имитират реални условия. Целта е да потвърдят, че ключови потребителски потоци издържат при забавяния, остарели данни или прекъсвания.
Създаваме рамки за тестове, които симулират тези стрес сценарии, за да пазят критичните пътеки при проблеми с зависимости. Проектираме телеметрия, независима от тествания регион, за да запазим видимост при откази и да показваме какво виждат потребителите, не само какво отчита платформата.
Сривът показа как една регионална система влияе на глобални услуги. Насърчаваме клиентите да мислят за „дублиране“ (multi-region/multi-cloud) в ранната фаза на консултиране и архитектура. Отбелязваме всички зависимости и предлагаме стратегии, които водят до системи, които са високо производителни и стабилни. Резултатът е реална оперативна ефективност, а не просто красива схема на всички системи.
След CrowdStrike всички гледаха „файла, който счупи Windows“. След AWS срива, фокусът е върху зависимостта от US-EAST-1. Първото изглежда като QA пропуск. Второто поставя трудни въпроси за сложността на системите, на които всички други системи разчитат.
Мега-компаниите максимизираха скоростта на разработка, разчитайки на „звезди“ програмисти. Печалбите им са рекордни, така че е трудно да се оспори подхода. В същото време, „звездите“ са ограничени на брой и останалите компании трябва да разчитат на специалисти с много опит и знания, които обаче никога няма да спечелят Нобелова награда като Демис Хасабис.
Ако прогреса на ИИ технологиите запази траекторията си, рутинната ИТ работа ще премине при ИИ. Ако има предупреждения за бъдещето в този срив, то е за ефекта от подобен срив след пет години, когато повечето системи за пишат и поддържат от ИИ. Работата в повечето компании ще спре. Може би всички ние ще имаме Nvidia DGX Spark, който вече поддържа модели до 200 милиарда параметъра, идеални за специализирани задачи като програмиране.
Целта ни не е да поучаваме мега-компаниите в ИТ/ИИ. Целта ни е да учим от грешките и да прилагаме уроците. Прегледахме нашите принципи за разработка на софтуер, и тези са винаги валидни:
Резюме: Сривът повдигна въпроси за разходите по EC2 облака и компромисите, който много компании правят при изграждането на софтуерни решения. Дори и най-добре обмислените инфраструктури имат лоши моменти. Тъй като нашите екипи оперират във всички водещи облаци, ние успешно проектираме multi-cloud и cloud-agnostic системи, които балансират производителност, стабилност и разходи.