Onduidelijke datastructuur

Een antwoord op een soms zelfs een eenvoudige vraag is niet altijd even makkelijk te krijgen. Juist op die momenten dat haast geboden is om een bepaald overzicht of een concreet antwoord te krijgen. Dit geldt ook, of misschien wel juist, voor grote (publieke) organisaties die van buitenaf bezien over meer dan voldoende middelen beschikken om de boel intern op orde te hebben. Hoe kan dat? Vaak ligt onduidelijke datastructuur hieraan ten grondslag.

Uiteindelijk lukt het wel om een antwoord te formuleren, als je er maar voldoende tijd en geld in investeert. Soms zelfs met de hulp van externe partijen. Om processen dusdanig in te richten dat je zelf adequaat dergelijke vragen kunt beantwoorden, lopen veel organisaties aan tegen gelijksoortige problemen: inconsistente datastructuur, meerdere waarheden, een onhandig opgezette basis, of lastig te ontsluiten applicaties.

Gestructureerde processen

Door de waan van de dag komt men niet toe aan het herstructureren van processen. Medewerkers zijn zo druk met het zoeken naar de antwoorden op -theoretisch- redelijk eenvoudige vragen, waardoor het grotere geheel uit het oog verloren wordt. Gevolg: een vicieuze cirkel van dure inefficiënte processen met de bijbehorende frustratie. Terwijl de oplossing vrij simpel is: zorg ervoor dat de beschikbare data genormaliseerd en leesbaar opgeslagen is. En train de medewerkers om ermee te kunnen werken. Ik ben ervan overtuigd dat iedereen een SQL-query kan schrijven waarmee je bijvoorbeeld kunt zien welke producten het goed verkopen, welke klantgroepen het meest aantrekkelijk zijn of hoeveel omzet er in een jaar is behaald. Dan moet die data wel beschikbaar en bruikbaar zijn natuurlijk.

Meerdere waarheden

Als die data in een applicatie verstopt is en die niet (correct) ontsloten wordt, doet zich vaak het volgende scenario voor: Een collega maakt een export van data. Vervolgens wordt de data verwerkt, zoals transformaties of filters, om een specifieke vraag te beantwoorden. De export wordt daarna vaak op een eigen laptop opgeslagen. Vervolgens komt er een andere medewerker met een iets andere vraag en gaat met dezelfde dataset weer aan de slag vanuit de applicatie, maar niet de dataset die zijn of haar collega op de eigen laptop heeft staan. Het resultaat zijn twee verschillende waarheden die elkaar zelfs kunnen tegenspreken.

Nu is dit voorbeeld niet zo lastig te herstellen. De twee collega’s gaan met elkaar in gesprek en komen er samen achter wat de ander heeft gedaan en hoe dit heeft geleid tot de verschillende waarheden. Mooi, opgelost. Maar stel nou dat deze twee medewerkers dit allebei al jaren doen zonder dat ze dat van elkaar weten? Omdat het gaat om Excels of CSV’s is er natuurlijk geen back-log en over de jaren weet niemand precies meer wanneer ze wat hebben gedaan. Allebei de medewerkers blijven vervolgens op hun eigen manier doorwerken en het blijft een mysterie welke van de twee collega’s gelijk heeft.

Dit klinkt misschien als een onwaarschijnlijke situatie, maar het gebeurt wel regelmatig. Nog een stap verder, wat gebeurt er als één van de twee met pensioen gaat? Wie beheert het document vervolgens? Hoe borgen we alle kennis die hierin staat? Niemand begrijpt het document meer of weet hoe bepaalde transformaties of berekeningen gedaan zijn. Oftewel: het liedje begint weer van voor af aan.

De oplossing

Zelfs in de korte tijd dat ik bij Datalab werk, heb ik dergelijke voorbeelden meerdere malen voorbij zien komen. Naarmate de tijd vordert en men op de ‘oude vertrouwde manier’ blijft werken, wordt het steeds lastiger om nog tot een oplossing te komen. Terwijl de oplossing relatief eenvoudig is, te weten een goed ingericht datawarehouse. Het klinkt misschien als een verkooppraatje, dat is niet mijn bedoeling. Maar het zou mij niets verbazen als dit soort processen al in jouw organisatie plaatsvinden. En het met de dag lastiger wordt om op te lossen.