Wat is een datawarehouse?

Aangezien de hoeveelheid data en het aantal bronsystemen binnen bedrijven steeds verder toenemen, wordt het gebruik van een datawarehouse steeds meer van belang. Datagerichte inzichten zijn namelijk onmisbaar binnen de moderne bedrijfsvoering. Om die reden is het hebben van een doelgerichte en effectieve informatie-architectuur noodzakelijk. Maar een datawarehouse biedt meer dan alleen inzicht in uw data. Het is dé bron voor analyses en Business Intelligence (BI) dashboards. In een datawarehouse wordt namelijk ruwe informatie van zowel interne als externe bronsystemen verzameld, gecombineerd, gevalideerd en gestructureerd. Op deze manier wordt de kwaliteit van al uw data continu verbeterd, wat uiteindelijk tot het juiste inzicht leidt. Hoogstwaarschijnlijk is het aan de hand van deze informatie voor u nog niet geheel duidelijk wat een datawarehouse inhoudt en waarom het zo verstandig is om dit ook in uw organisatie te implementeren. Lees daarom vooral verder.

De evolutie van datawarehouse

De eerste stappen richting datawarehousing zijn in de jaren 60 gezet. Destijds werden databases met name georganiseerd in meerdere masterfiles. In principe zijn dit collecties van query’s omtrent een bepaald onderwerp. De masterfiles werden toentertijd opgeslagen op een zogeheten magneetband. Dit is een kunststof band waarop een dunne laag magnetiseerbaar materiaal is aangebracht. Op deze band kan middels magnetisme informatie worden opgeslagen en op een later moment worden teruggelezen. De opgeslagen gegevens werden vervolgens verwerkt met behulp van simpele applicaties, welke werden bijgehouden op ponskaarten.

Halverwege de jaren 60 werden er echter zodanig veel masterfiles opgeslagen dat het systeem efficiëntieproblemen begon te vertonen. Op het moment dat men namelijk informatie terug wilde lezen op een magneetband, moest eerst alle eerder opgeslagen data worden doorlopen. Het verwerken van grote hoeveelheden data liep daardoor dus veel te traag.

Tijdens het jaar 1970 werd het Direct Access Storage Device (DASD) ontwikkeld, wat ook wel beter bekend staat als disk storage. Dankzij deze nieuwe techniek was het niet meer noodzakelijk om eerst alle eerder opgeslagen data te doorlopen om een bepaald deel van de data te kunnen lezen. Tijdens deze periode is ook het databasemanagementsysteem (DBMS) ontwikkeld. Met behulp van het DBMS kon data georganiseerd en geïndexeerd worden op een DASD. Zodoende ontstond beetje bij beetje de database.

Halverwege de jaren 70 begon het langzaam noodzakelijk te worden dat de databases ook online beschikbaar kwamen. Hiervoor werd een nieuwe techniek gebruikt, namelijk: high-performance online transaction processing. Mede hierdoor werden onder andere reserveringssystemen en online bankdiensten mogelijk gemaakt.

De laatste stap voorafgaande aan de datawarehouses kwam in de vorm van extract programming. Het extractprogramma doorloopt een database of file aan de hand van bepaalde selectiecriteria. De data dat aan deze criteria voldoet wordt vervolgens overgezet naar een andere database of file. Dit extractprogramma kende een zeer snelle verspreiding in de jaren 90 en vormde het fundament voor datawarehousing.

De basisprincipes van een datawarehouse

Zodra u een datawarehouse gaat opzetten dient u op voorhand na te denken over een aantal fundamentele uitganspunten. Deze worden ook wel de basisprincipes van datawarehousing genoemd, waarvan de belangrijkste principes zijn:

  • Symmetrie: de architectuur van de datawarehouse vormt als het ware een spiegel van de bedrijfsvoering en bedrijfsprocessen. Hierdoor krijgt u een overkoepelend beeld en slechts één versie van de waarheid. Dit zorgt ervoor dat datawarehouse BI naadloos aansluit op uitdagingen en bijbehorende informatiebehoefte van de verschillende afdelingen.

  • Noodzakelijk gebruik en verplichte aanlevering: een datawarehouse is een generiek toepasbare, unieke en onafhankelijke bedrijfsfunctie, waardoor het gebruik ervan bijna noodzakelijk is. Het aanleveren van data aan deze bedrijfsfunctie is daarom ook van groot belang, ongeacht of een team of afdeling gebruik maakt van het datawarehouse.

  • Grof korreligheid: alle data wordt zo gedetailleerd mogelijk aangeleverd en vertonen precies dezelfde grof korreligheid als uit de bron. Hierdoor wordt de testbaarheid en controleerbaarheid van de aangeleverde date vergroot. Ook zijn gedetailleerdere rapporten en analyses hierdoor mogelijk, omdat onderweg geen data zoek raakt.

  • Datakwaliteit: een datawarehouse bewaakt en monitort de kwaliteit van de data, maar de verantwoordelijkheid voor datakwaliteit dient bij proceseigenaren gelegd te worden.

  • Privacy by design: het is van groot belang dat persoonsdata op geen enkel moment oneigenlijk of zonder goed uitgangspunt opgeslagen, gebruikt kan worden of herkenbaar in beeld kan komen.

  • Synchronisatie: het verversen van de data in het datawarehouse sluit exact aan op de regelmaat en frequentie van gebeurtenissen in de betreffende bedrijfsprocessen. Zodoende is het voor de gebruiker onmogelijk om belangrijke gebeurtenissen te missen.

  • Verschillende smaken: een datawarehouse heeft niet één specifieke functie. Het moet de gebruiker helpen bij zowel het maken van rapporten, data discovery, downloads, selfservice BI, ad hoc analyses en interactieve dashboards, als het ontwikkelen van algoritmes en performance management.

  • Niet-volatiel datawarehouse BI: data dat opgenomen is in het datawarehouse mag op geen enkel moment meer worden gewijzigd, ongeacht of het foutieve data betreft. Echter is het wel mogelijk om nieuwe data toe te voegen, dat de foutieve data corrigeert.

  • Streaming first: als dit principe wordt gehanteerd, kan op ieder moment en waar dan ook het datawarehouse realtime worden bijgewerkt.

  • Complexiteit onder de motorkap: het is voor gebruikers direct mogelijk om indicatoren en dimensies te selecteren, welke gebruikt kunnen worden in dashboards, rapporten en interactieve analyses. Dit voorkomt dat iedere gebruiker zijn eigen indicatoren en dimensies kan of moet samenstellen.

  • Onderhoudbaar en uitbreidbaarheid: de berekeningen, logica en intelligentie in de meetwaarden, dimensies en indicatoren worden zoveel mogelijk op één plek vastgelegd. Om zodoende de uitbreidbaarheid te verbeteren en te zorgen dat het datawarehouse onderhoudbaar blijft.

  • Onafhankelijkheid van specifieke BI instrumenten: de architectuur van het datawarehouse dient dermate los te staan van de te gebruiken of nog aan te schaffen software.

  • Flexibiliteit en volledigheid: bij het vullen van het datawarehouse wordt zoveel mogelijk zinvolle bijbehorende data meegenomen uit de geselecteerde databronnen. Op deze manier is het voor de gebruikers mogelijk om eenvoudig nieuwe en zinvolle combinaties te maken van dimensies en indicatoren.

  • Cloud-first: tenzij er zwaarwegende redenen zijn om het niet te doen, worden alle componenten van het datawarehouse opgeslagen in de cloud.

  • Eén datawarehouse database: er wordt slechts één datawarehouse gebruikt.

In de beginfase van het opzetten van een datawarehouse zal het nodig zijn om bij bepaalde principes water bij de wijn te doen. Anders kan het opzetten veel te duur worden en haken gebruikers voortijdig af omdat het te lang duurt. Echter raden we u wel aan om bij de volgende vijf principes geen concessies te doen: cloud-first, niet-volatiel, privacy by design, verplichte aanlevering van data én symmetrie.

De architectuur van een datawarehouse

De specifieke behoeften van een organisatie bepalen in grote mate de architectuur van het datawarehouse. De meest voorkomende vormen van datawarehouses zijn:

  • Eenvoudig: iedere datawarehouse deelt een basisontwerp waarin onbewerkte data, samenvattingsdata en metagegevens worden opgeslagen in de centrale opslagplaats van het warehouse. Deze opslagplaats wordt enerzijds gevoed met behulp van databronnen en anderzijds gebruikt door eindgebruikers voor het maken van analyses, rapportages en datamining.

  • Eenvoudig met een verzamelplaats: doorgaans dient operationele data eerst te worden opgeschoond en verwerkt, voordat deze in het datawarehouse opgeslagen kan worden. Alhoewel het mogelijk is om dit programmatisch te doen, bieden de meeste datawarehouses een verzamelplek voor data aan. Hier kan data worden opgeslagen voordat deze het ware house binnengaat, waardoor datavoorbereiding wordt vereenvoudigt.

  • Hub-and-spoke: Door de toevoeging van datamarts tussen de centrale opslagplaats en de eindgebruikers is het voor de organisatie mogelijk, om het datawarehouse aan te passen en zodoende verschillende afdelingen te bedienen. Op het moment dat data klaar is voor gebruik wordt deze overgeplaatst naar de bijbehorende datamart.

  • Sandboxes: sandboxes kunnen vergeleken worden met afgezonderde en veilige gebieden. Organisaties kunnen vervolgens snel en informeel nieuwe datasets en nieuwe manieren om data te analyseren verkennen. Zonder dat zij zich moeten houden of voldoen aan de formele regels en protocollen van het datawarehouse.

Alhoewel er dus verschillende eindontwerpen voor datawarehouses mogelijk zijn, dient iedere datawarehouse opgebouwd te zijn uit een aantal fundamentele architecturale lagen. De eerste laag betreft het proces van Extract Transform and Load (ETL), welke in feite de gebieden van bronsysteemtoegang, gegevensverrijking en gegevensarchitectuur omvat. De belangrijkste aandachtspunten hierbij zijn gegevenstoegangsmethodologieën, verversingsvereisten en gegevens die vereist zijn van het bronsysteem. De volgende architecturale laag omvat het staging-gebiedsproces. Dit is de landingsplek van brongegevens, welke moeten worden gevalideerd en opgeschoond voordat deze worden toegevoegd aan het datawarehouse. De daaropvolgende laag betreft de gegevensarchitectuur laag. Binnen deze laag wordt het ware ontwerp van het datawarehouse afgerond. Gegevensopslag is namelijk niet een combinatie van alle data binnen de organisatie, maar in plaats daarvan een nieuw gedefinieerde database als overzicht van alle processen en afdelingen binnen de organisatie. De volgende laag draait om de vereisten rondom business intelligence en rapporten. Om die reden kan deze laag ook worden gezien als de gebruikersgerichte vereisten omtrent datawarehousing. Deze laag bevat veelal ad-hoc rapportages, standaardrapporten en bedrijfsmeldingen of -dashboards. De business intelligence-laag krijgt doorgaans de meeste aandacht, omdat dit het enige extern gerichte component binnen een datawarehouse is. De laatste laag waar over nagedacht moet worden, draait om de algemene vereisten rondom gegevensopslag en onderhoud. Gedurende de tijd dat een datawarehouse blijft groeien, dient de gebruikersdatabase nauwkeurig te worden beheerd en onderhouden. Daarnaast is het ook van belang dat het ontwerp realistische schattingen maakt van wat nodig is op het gebied van opslagcapaciteit en datatoegangscapaciteit.

Waarom een datawarehouse opzetten?

Hopelijk heeft u aan de hand van onze informatie een duidelijker beeld gekregen van datawarehouses. Mocht u nog twijfelen over het opzetten van een datawarehouse, dan zullen wij u aan de hand van de volgende vijf redenen ongetwijfeld overhalen.

  1. Consistentie en kwaliteit van data bespaart tijd en voorkomt fouten

    Door gebruik van een datawarehouse wordt het ophalen en structureren van gegevens uit iedere bron gestandaardiseerd. In een datawarehouse wordt niet alleen data opgeslagen, het structureert de data ook op een wijze waardoor het al is geoptimaliseerd voor het maken van analyses. Het optimaliseren kost weliswaar tijd en vereist gedegen inzicht in de ruwe data. Maar door dit eenmalig te doen, kan er een stabiele basis worden gevormd in uw datawarehouse. Dit bespaart vervolgens een hoop tijd en foutieve aannames.

  2. Mogelijkheid tot een combinatie van meerdere bronnen

    Met behulp van een datawarehouse is het mogelijk om verschillende gegevens uit meerdere bronnen te verzamelen. Er kunnen vervolgens interessante inzichten ontstaan, door deze gegevens met elkaar in relatie te brengen. Daarnaast komt het ook geregeld voor dat data uit verschillende bronnen, vaak in andere formats wordt opgeslagen. Dit bemoeilijkt het proces om deze data in uw analyses te gebruiken. Een datawarehouse zorgt er uiteindelijk voor dat alle data in eenzelfde format beschikbaar wordt gesteld.

  3. Een centrale en uniforme plek voor alle organisatiedata

    Bij vele organisaties is in de praktijk te zien dat verscheidene bestanden rondzwerven, gevuld met momentopnames van bepaalde data. Hierdoor komt het geregeld voor dat collega’s verschillende cijfers meebrengen in een vergadering, wat vervolgens zorgt voor onnodige discussie. Het datawarehouse vormt echter de centrale plek voor alle bruikbare en nodige informatie. Dit resulteert in een zogeheten single source of truth en zorgt ervoor dat iedere medewerker met dezelfde gegevens aan het werk gaat. Zodoende is het veel makkelijker om grip te houden op welke data er gebruikt wordt en kan discussie worden voorkomen.

  4. Verbeteren van performance maakt data sneller beschikbaar

    Met een datawarehouse wordt het opvragen van de juiste gegevens aanzienlijk versneld. Uiteindelijk maakt dit dus ook de dashboards en rapportages een stuk sneller. Wordt er zelfs gebruik gemaakt van gegevens uit verschillende bronnen, dan gaat ook dit veel sneller. Dit komt doordat deze gegevens al in het datawarehouse zijn samengebracht.

  5. Data wordt beter beveiligd

    Dankzij een datawarehouse wordt alle data ook veel beter afgeschermd. Gebruikers kunnen namelijk alleen toegang krijgen tot de specifieke data, waar zij ook toegang tot mogen hebben. Aangezien er slechts één centrale opslagplek van data is, hoeft de toegang tot deze plek ook slechts beheerd te worden op één plek.

Kortom, een datawarehouse is dus een essentiële Business Intelligence tool waarmee uw organisatie de competitie een stap voor blijft. Bij Data Analytics hebben wij uitstekende architecten werken, die uw datawarehouse kunnen vormgeven en onderhouden. Heeft u nog vragen? Neem dan gerust contact met ons op. Wij zullen ervoor zorgen dat uw datawarehouse aan al uw wensen en behoeften voldoet.

Heeft u vragen?

Heeft u vragen of wilt u vrijblijvend met ons praten over uw data en dashboard wensen? Aarzel niet en neem vrijblijvend contact met ans op. Of stuur ons een berichtje, wij lichten alles graag toe.

Bel ons voor een gesprek

(010) 727-1196

Stuur ons een bericht

info@dataanalytics.nl

Kom op bezoek

Van Nelleweg 1,
3044 BC Rotterdam

Stuur ons een bericht

  • Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.