Driftsproblemer 22. januar

22. januar mellom kl 08.00 og ca 10.00 opplevde vi store ytelsesutfordringer i Transponder Meldingsbok og Transponder Tilstede. For sluttbrukere opplevdes dette som at systemet var nede. Årsaken til problemene var en kombinasjon av planlagt vedlikehold og ekstremt økt trafikk grunnet værutfordringer over store deler av landet.

Vi har funnet løsninger som gjør at vi kan takle slike flaskehalser bedre i fremtiden og jobber med en mer permanent løsning.

Hendelsesforløp

Ca kl 08.00 ble vi gjort oppmerksomme på problemene som var knyttet til ytelse. Når det tar mer enn 30 sekunder å få svar fra serveren timer den ut og for brukeren opplever det som at systemet er “nede”.

Ca kl 08.30 hadde vi iverksatt tiltak. Det innebar å skalere opp løsningen med ytterligere en server for å ta noe av lasten fra løsningens øvrige servere. Det å sette en ny server ut i produksjon er imidlertid mer avansert enn å bare skru den på. Data må kopieres fra ett sted til et annet og grunner svært mye trafikk i går tok det rett og slett unormalt lang tid å få den nye serveren ajour. EN jobb som normalt tar ca 15 minutter strakk seg over mer enn en time.

Ca kl 09.45 bestemte vi oss derfor for å “kutte” all innkommende trafikk slik at den nye serveren ble ajour og ca kl 10.00 var systemet oppe som normalt igjen med bedre kapasitet enn før.

Hva kan vi gjøre for at slikt ikke skjer igjen?

Transponder er designet for å kunne håndtere store mengder trafikk. År med covid og stadig et økt antall brukere har lært oss å finne flaskehalser og rette på disse fortløpende. I motsetning til mange andre meldingssystem er Transponder skrudd sammen på en måte som gjør at meldinger er dynamiske også etter at de er sendt. For eksempel det at brukere kan reagere med en lesebekreftelse på en melding langt tilbake i tid og det at man kan trekke tilbake en allerede sendt melding gjør at meldinger må hentes opp fra databasenn og ikke bare kan lagres for eksempel i minnet på telefonen.

På kort sikt er løsningen å sette på flere ressurser, altså mer datakraft slik vi gjorde i går. Dette vil sørge for at vi neppe opplevere slike flaskehalser igjen med det første. På lang sikt er løsningen mer grundig. Vi jobber med en endring som gjør at meldinger langt tilbake i tid, blir tilgjengelig for foresatte og ansatte på en litt annen og mer sofistikert måte enn ved å hente de opp fra databasen. Dette vil gjøre at løsningen vil respondere langt raskere og at søkefunksjoner blir bedre. Dette er imidlertid en relativt stor jobb som nødvendigvis vil ta noe tid, men frem til dette er på plass har vi altså skalert opp datakraftren som gjør at vi er bedre rustet neste gang ekstremvær eller annet øker trafikken vår voldsomt på kort tid.

Har du spørsmål rundt dette er det bare å ta kontakt.