Innan ett företag kan använda data för att fatta strategiska beslut, göra marknadsanalyser eller träna sina egna algoritmer, måste datan vara ren. "Datatvättning" (data cleansing) – processen att leta efter dubbletter, korrigera felaktiga e-postadresser, fylla i saknad information och standardisera format – har under det senaste decenniet varit en enorm industri. Tusentals juniora analytiker, IT-assistenter och kontorsarbetare har haft som heltidsjobb att sitta i Excel eller databassystem och städa upp i röriga register. Det har varit ett tråkigt men absolut nödvändigt arbete. Nu håller AI på att automatisera bort även detta osynliga fotarbete.
Maskiner som förstår sina egna fel
Det ironiska med AI-revolutionen är att den teknik som kräver ren data också har blivit bäst på att städa data. Moderna maskininlärningsmodeller kan skanna igenom miljontals rader av data på några sekunder, identifiera anomalier, förutse vad som är felaktigt och automatiskt korrigera det baserat på sannolikhetskalkyler och externa referenspunkter. Om ett namn är felstavat eller ett telefonnummer saknar landskod, fixar AI:n det utan att blinka. Den mänskliga datatvättaren, som tidigare använde komplexa Excel-formler och manuell sökning, kan helt enkelt inte konkurrera med den hastighet och skala som en algoritm arbetar med.
Konsekvenser för de tekniska instegsjobben
Detta är ett hårt slag mot de personer som använt enklare IT- och dataregistreringsjobb som en väg in i teknikbranschen. Många studenter eller personer utan formell programmeringsutbildning har kunnat försörja sig på att göra denna typ av datavalidering på frilansbasis eller som visstidsanställda. När dessa uppgifter integreras direkt i molntjänster och databassystem som en automatisk standardfunktion, försvinner en hel kategori av flexibla extrajobb. Detta ökar tröskeln för att få praktisk erfarenhet av att arbeta med stora datamängder.
Hur man ställer om till dataanalytiker och AI-arkitekt
För att inte rationaliseras bort i datatvättens spår måste man röra sig från att vara den som rensar datan till att vara den som tolkar eller strukturerar den på en högre nivå. Man bör skaffa sig grundläggande kunskaper inom data engineering och data governance. Det handlar om att förstå hur datamodeller byggs, hur olika system pratar med varandra och hur man säkerställer att den data som samlas in är etiskt försvarbar och håller hög kvalitet redan vid källan. Genom att bli arkitekten bakom dataflödena blir man oumbärlig, medan själva städarbetet helt lämnas till maskinerna.
