Onhan se tietty mukavaa elää reunalla ja sitä rataa (panna ja juhlia), mutta jos on kovin yleistä, että yhden ihmisen tekemä virhe voi aiheuttaa välittömästi satojen tuhansien menetykset, niin silloin ei kyllä kokonaisuus ole suunniteltu kovin hyvin. Ihmiset tekee virheitä. Se on ihmisille luontaista. Systeemit täytyy pyrkiä suunnittelemaan niin, että mitä suurempi vahinko, sitä vaikeampaa sellaisen aikaansaaminen on.
Toki ymmärrän että joskus kalliitakin virheitä tapahtuu. Esim. Metan taannoinen moka, jossa tiputtivat itsensä netistä, varmaan maksoi ihan kivasti. Sitten taas sen firman kokoluokassa tuo summa on kuitenkin kohtuullinen.
En tiedä minkälaisissa ympäristöissä sä olet työskennellyt, mutta jokanen työpaikka jossa mä olen ollut viimeisen 20-vuoden aikana on ollut ainakin joltain osin epätäydellinen.
Jos sulla esim. on rootit tuotantokoneisiin tai tietokantoihin niin saathan sä tehtyä isoja mokia. Jos on moderni ympäristö jossa koneet on luotu koodilla niin kyllä sieltä AWS’n konsolista saa vahingossa tehtyä vaikka mitä.
Toki en ole urani aikana törmännyt hirveän moneen tapaukseen jossa niin on käynyt, mutta poikkeuksetta joillakin on voimaa rikkoa asiat.
Useimmiten myös yrityksiltä puuttuu prosesseja, tai varmuuskopioita ei ole testattu. Joskus myös varmistukset feilaavat joka lisää riskiä kunnes ne sitten onnistuvat.
Muutamia oman uran varrelta nähtyjä skenaarioita:
- Startup kasvanut nopeasti ja yhtäkkiä ollaankin yritys jolla satojen miljoonien liikevaihto ja ”serverit” osittain edelleen vanhoja työkoneita siivouskomerossa. Kaikki dokumentoinatonta ja adhocia ja kovat paineet samalla tukea vertikaalista kasvua ja saada jotain järkeä meininkiin.
- Yritys vaihtanut strategiaa ja panostaa nyt ihan eri tuotteisiin. Vanhempiin tuotteisiin jätetty minimi määrä devaajia hoitamaan. Kuitenkin tuotteiden kysyntä ja kasvu jatkuu, ja paine on tehdä featureita eikä niitä tylsiä arkkitehtuurillisia juttuja (kun miehitys ei riitä molempiin). Jatkuvasti kasvavat suorituskyky ongelmat ratkaistaan kasvattamalla rautaa kunnes tietokannassa on 5x enemmän muistia kuin dataa ja järjestelmät kaatuu päivittäin. Asiakkaat ovat vihaisia ja ratkaisut vähintäänkin mielenkiintoisia.
- Palvelut ovat muodikkaasti mikroserviceja eri tiimien ylläpidossa ja näennäisesti kaikki kunnossa. Kuitenkin kaikilla ihan omat prosessit ja käytännöt esim. varmistusten suhteen. Vaikka palvelujen toimivuus vaatisi palautusten synkronointia on retentiot ja schedulet mitä sattuu.
Rajattu määrä esimerkkejä, kaikki eri firmoilta. Suodatin makeimmat pois ettei mahdolliset työkaverit tunnista. Mun kokemuksen perusteella kaikilla on kannen alla paljon matoja, eroja on siinä miten ne tunnistetaan. Useimmiten toki riskit eivät edes realisoidu.