Datalab Platform-as-a-Service:
Alle techniek om datagedreven te werken bij elkaar
Alles in huis voor een vliegende start met datagedreven werken:
met ons Platform-as-a-Service realiseert u uw ambities.
Snel maar grondig aan de slag!
Het Datalab Platform-as-a-Service is een volledige omgeving waarmee elke organisatie snel en betrouwbaar op een veilige manier aan de slag kan met data. Of het nu gaat om het ontsluiten van data, opslag of analyse, alles is in één omgeving van applicaties, tools en standaarden geregeld. We hebben het platform zo ingericht dat het te beheren is door uw eigen IT-medewerkers. Tegelijkertijd is het helemaal op maat, u heeft dus geen last van vendor lock-in, ofwel: ‘helaas, dit kan niet met het platform’. Datalab PaaS verrijkt uw organisatie: al uw bedrijfsmatige beslissingen onderbouwt u met data uit uw eigen platform. Dat is de belofte die Datalab u doet, ongeacht of u net begint of al ver gevorderd bent met data.
Voor alle onderdelen die wij voor uw dataplatform realiseren, hebben we uitgekiende training- en scholingsprogramma’s ontwikkeld. Zo leveren we niet alleen de technieken, maar ook de skills om er de maximale waarde uit te halen. Natuurlijk kunnen we onze experts ook detacheren of nieuw talent voor u aantrekken via werving & selectie.
Techniek achter Datalab PaaS
Het Datalab Platform-as-a-Service is volledig volgens open standaarden ontwikkeld en modulair van opbouw. Zo voorkomen we vendor lock-in, zijn we onafhankelijk van cloudleveranciers en kunnen we snel inspelen op ontwikkelingen. Moderne technieken zoals (Docker) containers, virtualisatie van netwerken en het gebruik van cloud-services ondersteunen hierin. We gebruiken als het even kan open source-softwaretechnieken maar ondersteunen ook commerciële software.
Tooling die we gebruiken zijn bijvoorbeeld PostgreSQL, Apache Airflow, Kafka, NiFi, R en RStudio, Python en JupyterHub, Git en vele andere tools en oplossingen.
Datalab PaaS omvat alles wat nodig is om uw organisatie datagedreven te laten werken:
- Een datawarehouse en datalake waarin alle gegevens veilig opgeslagen staan
- ETL-tooling om al uw databronnen te ontsluiten en datastromen in te regelen
- State-of-the-art / best-in-class analysesoftware (R, Python, PowerBI, Query Tool, SQL)
- Versiebeheersoftware voor professionele data science
- Platform draait op alle grote cloudplatforms (Azure, AWS, Google Cloud), on-premises of in 100% Nederlandse of Belgische cloudplatformen draaien
- Wij regelen -indien gewenst samen met uw engineers- alle datastromen in. Wij kunnen ook het ontwikkelen van (een deel van) de databronnen faciliteren.
Liever volledig zelfstandig datagedreven werken? Middels recruitment, werving/selectie én een uitgekiend opleidingsprogramma zorgen wij ervoor dat uw medewerkers zelf aan de slag kunnen. Optioneel begeleiden wij uw organisatie naar data mature werkstijl.
Opbouw PaaS: de kernsystemen
Datalab PaaS werkt met kernsystemen, toepassingen en analysetooling. Door de modulaire opbouw is ons systeem altijd geschikt te maken voor uw organisatie. De kernsystemen omvatten:
- Een datawarehouse is een opslagplek voor gestructureerde data. Alle informatie is dus opgeschoond en gevalideerd. Ook is het mogelijk de data uit het ene bronsysteem te koppelen aan het andere en kun je bijvoorbeeld informatie uit de boekhouding, het voorraadbeheersysteem en de inkoopstromen eenvoudig bij elkaar brengen.
- Een datawarehouse regelt ook de toegangsbeveiliging tot de data. Sommige medewerkers mogen wellicht bij alle data, terwijl anderen slechts bij een beperkt deel van de data kunnen. Een datawarehouse is in staat deze toegangsrechten zeer precies af te dwingen én biedt audit logs zodat altijd duidelijk is wie wanneer toegang heeft en had tot welke data.
- Technisch gezien zijn er verschillende soorten: van meer traditionele relationele databases, zoals het zeer krachtige PostgreSQL, tot moderne opties zoals Snowflake en alles daar tussen in. Hoewel modern vaak beter klinkt, hoeft dit voor uw organisatie niet het geval te zijn. Zo zijn traditionele systemen vaak robuuster en beter getest. Moderne systemen zijn vaak weer iets makkelijker in het verwerken van (zeer) grote hoeveelheden data.
- Datawarehouses zijn nuttig als opslag-element in een breder platform en pas waardevol indien gevuld met kwalitatief hoogwaardige data én als deze data goed ontsloten kan worden in analytische of dashboard-applicaties.
- Een datalake is een vrijwel onbegrensde ‘harde schijf’ waar alle (ongestructureerde) informatie kan worden opgeslagen maar wel met een uitstekende indexfunctie zodat alles terug te vinden is.
- Voorbeelden van soorten data zijn foto’s, scans van documenten of nog te verwerken (historische) data uit bronsystemen.
- De ongestructureerde data kan op een later moment alsnog worden ontsloten in een datawarehouse.
- We onderscheiden twee soorten datalakes: in eigen beheer en van de (bekende) cloud-lakes. De laatste categorie worden het meest gebruikt vanwege het gemak en de praktisch onuitputtelijke hoeveelheid data die er in opgeslagen kan worden.
- Soms is het onwenselijk om een cloud-aanbieder te gebruiken door het kostenniveau (zeker wanneer verkeerd geconfigureerd) of issues rondom dataveiligheid en privacy.
- Voorbeelden van cloud -data-lakes zijn Azure Data Lake en Azure Blob Storage, Amazon AWS S3 en Google Cloud Storage. Er zijn ook 100% Nederlandse aanbieders, zoals TransIP Stack. Voor een datalake in eigen beheer wordt vaak gebruik gemaakt van Apache HDFS.
- Met ETL-software bent u in staat om al uw databronnen te ontsluiten in een datawarehouse. Datastromen náár en ván uw datawarehouse en datalake verloopt via ETL-software dat ervoor zorgt dat die data gestructureerd en verenigbaar is.
- Vrijwel geen enkel bronsysteem is in staat om data zo te exporteren dat het direct bruikbaar is in een datawarehouse voor analytische doeleinden. ETL-software, een afkorting voor Extract, Transform en Load, zorgt dat data uit bronsystemen op de juiste manier in datawarehouse en datalake belandt: de data wordt geëxtraheerd, getransformeerd en in het datawarehouse of lake geladen: vandaar de afkorting ETL.
- De eisen die u stelt aan de betrouwbaarheid, robuustheid en gebruiksgemak bepalen in grote mate welke software het meest geschikt is. De grootste mate van flexibiliteit bereiken we met ETL-software die handmatig wordt geprogrammeerd zoals Apache Airflow. Dit is meteen ook het nadeel: er komt programmeerwerk bij kijken.
- Systemen als NiFi, of in de cloud: Azure Data Factory, Amazon Glue en dergelijke, zijn eenvoudiger doordat ze met point-and-click-oplossingen werken: u sleept de bron van het ene systeem naar het andere. Dit gebruiksgemak gaat vaak dan wel weer ten koste van de mogelijkheden om de data precies zo te krijgen dat u de meeste waarde er uit haalt.
- Laptops vallen uit, opgeslagen bestanden zijn per ongeluk gewist, leveranciers besluiten hun systemen af te sluiten en uw data daarmee voor u te verbergen. Herkenbaar?
- De oplossing is een back-up-strategie. Dat is vaak lastig want analisten werken het liefst in de omgeving die voor hen het makkelijkst is, niet in de omgeving die de beste back-up-strategie kent. Daarom heeft Datalab een back-up-faciliteit voor het dataplatform ontwikkeld waar alle data, zowel in het datawarehouse, het datalake, als ook die in de analyseomgeving, veilig en voor langere tijd opgeslagen staat.
- Ook als een medewerker uitvalt door ziekte of vanwege een baan elders kunnen collega’s het werk eenvoudig overnemen.
- Naast continuïteitsvoordelen helpt een goede back-up-strategie ook als audit trail. Wilt u weten wie wanneer bij welke data is geweest, of welke analyses uitgevoerd zijn met gevoelige data? Het back-up-platform voorziet ook in audit en access logs. Wel zo veilig, zeker voor gevoelige klant- of medische data.
Opbouw PaaS: de toepassingen
Datalab PaaS werkt met kernsystemen, toepassingen en analysetooling. Door de modulaire opbouw is ons systeem altijd geschikt te maken voor uw organisatie. De toepassingen omvatten:
- Data ophalen uit een datawarehouse is soms lastig, zeker voor minder technisch onderlegde medewerkers. De door Datalab ontwikkelde Query Tool maakt het eenvoudig voor iedereen in uw organisatie. Een Query tool is een technische oplossing, een webapplicatie, om data op te halen en te exporteren voor verdere analyse in bijvoorbeeld Excel.
- De tool stelt uw medewerkers ook in staat om goed samen te werken. Zo kunnen de technisch minder ervaren medewerkers profiteren van de kennis van de medewerkers die meer gevorderd zijn.
- Naast het exporteren van data kunt u Query Tool ook goed gebruiken om data voor uw dashboards voor te bereiden. Alles wat u in Query Tool analyseert en maakt kunt u direct gebruiken in uw dashboards. Nooit meer losse, gescheiden omgevingen.
- Onderschat de kracht van e-mail niet. Met Scheduled Reporting, een tool ontwikkeld door Datalab, kunt u op vaste momenten e-mails sturen aan uw medewerkers en klanten met daarin de laatste cijfers, analyses en signalen op basis van uw data.
- Veel organisaties starten met dashboards. Nuttig, maar met één euvel: in de praktijk worden dashboards onvoldoende benut. Daardoor verliest het dashboard zijn impact. Om die reden hebben we Scheduled Reporting ontwikkeld: op het juiste moment bij de juiste medewerkers (en relaties) een overzicht van de belangrijkste kerncijfers. Bijvoorbeeld recente verkoopresultaten, maar ook het geautomatiseerd uitvoeren van fundamentelere analyses. Maak het zo complex of simpel als u zelf wil: uw medewerkers en klanten worden via de gewenste kanalen geattendeerd op de belangrijkste zaken. Een e-mail, een bericht op Slack of een nieuwsbericht in Sharepoint, alles is mogelijk.
- U kunt eenvoudig zelf analyses inplannen en beheert zelf wie de analyses ontvangt. Scheduled Reporting integreert met praktische iedere programmeertaal waarmee uw data-analisten graag werken: R, Python, SQL, Javascript.
- Dashboards zijn niet meer weg te denken, het is dé plek waar u grip houdt op processen binnen uw organisatie en waar u nieuwe inzichten opdoet.
- Een dashboard ontwikkelen is zowel eenvoudig als lastig tegelijk. Eenvoudig want met wat klikwerk en zonder veel technische kennis met hulp van tools als Power BI, Tableau, Qlik en Cognos maakt u mooie visualisaties. Lastig, zodra de analyses aan complexiteit winnen als bijvoorbeeld verschillende databronnen gecombineerd moeten worden.
- Veel organisaties lopen tegen beperkingen van de dashboardtools aan. De ontwikkeling van dashboards zelf worden trage processen die daardoor frustratie opleveren in plaats van inzicht bieden.
- Met een datawarehouse is veruit de lastigste taak van het maken van een dashboard al afgerond: het bij elkaar brengen van gestructureerde, geschoonde en gekoppelde data. U sleept eenvoudigweg de data van uw datawarehouse naar bijvoorbeeld Power BI of Tableau. Dit werkt via een eenvoudige integratie, ook wel connector, genoemd. In de meeste gevallen is deze connector al geïnstalleerd in uw dashboard-tool.
- Datasets die u gemaakt heeft in Query Tool verschijnen automatisch in uw dashboard-software.
- Wij leveren Power BI en Tableau-omgevingen op die zowel op de computers van u en uw medewerkers functioneren, als volledig in de cloud geplaatst zijn. Dit laatste heeft als groot voordeel dat u nooit meer met de handen in het haar zit als een laptop gestolen of in de trein vergeten wordt. Er staat geen enkele byte aan gevoelige data op die laptop: alles staat veilig, achter verschillende beveiligingslagen, in de cloud opgeslagen.
Opbouw PaaS: analysetooling
Datalab PaaS werkt met kernsystemen, toepassingen en analysetooling. Door de modulaire opbouw is ons systeem altijd geschikt te maken voor uw organisatie. De toepassingen omvatten:
- Is uw organisatie het niveau van dashboards ontgroeid en toe aan complexe analyses? Dan is een veilige, betrouwbare en krachtige analyseomgeving een must. RStudio Server en JupyterHub zijn twee van de meest geliefde omgevingen voor dergelijke analyses.
- RStudio is één van de krachtigste stukken gereedschap vanwege de veelzijdigheid: analisten kunnen vrijwel alle bekende (statistische) programmeertalen gebruiken, zoals R, Python en Julia. Maar het ontsluiten van databases, zeer geavanceerde dashboards bouwen en samenwerken middels versiebeheersoftware behoren tot de mogelijkheden.
- Ook JupyterHub is een zeer geliefde tool om in hoog tempo analyses uit te voeren en prototypes voor machine learning en artificial intelligence te testen.
- Zowel RStudio als JupyterHub zijn open source software. Naast het enorme kostenvoordeel (geen licentiekosten), kunnen uw analisten meeliften op kennis van andere gebruikers.
- Datalab PaaS integreert RStudio en JupyterHub volledig in het dataplatform. Dit betekent dat uw analyses op dezelfde plek uitgevoerd worden als waar uw data opgeslagen staat. Daardoor nooit meer wachten op overdracht van grote hoeveelheden data via internet. Bovendien voorkomt deze werkwijze risico’s op van een datalek.
- Heeft uw organisatie data science-talenten die het liefst ruwe programmatuur werken? Daarvoor leveren we veilige virtuele Linux- en Windows-machines waarmee zij in staat zijn zelf te kiezen voor de software waarmee zij willen werken. Dit alles zonder dat uw IT-afdeling de wanhoop van een beheerchaos nabij is.
- Hoewel we veel standaard analysetools meeleveren met het platform, zijn er altijd situaties denkbaar waarbij specifieke software nodig of wenselijk is. Omdat de analist meer ervaring heeft met die tools of omdat de analysevraagstukken nu eenmaal alleen met bepaalde tools op te lossen zijn. Of juist omdat de analist wil experimenteren met nieuwe software die lastig past binnen uw bestaande IT-landschap. Voor deze gevallen leveren wij virtuele machines op met Linux of Windows, in een afgezonderd deel van uw dataplatform. Uw analisten kunnen bij de data zonder dat uw productiesystemen hinder ondervinden of uw beveiliging gecompromitteerd wordt. Maximale vrijheid voor de analist én (data)veiligheid voor de organisatie.
- Zeer complexe datavraagstukken? Geen probleem voor de SQL-beheersoftware die wij op uw platform meeleveren. De meest complexe datavraagstukken kan het zelfs aan.
- Standaard kunt u vrijwel alle datavraagstukken oplossen met Query Tool. In een aantal gevallen is de complexiteit van uw datavraagstuk wellicht zo groot, dat deze tool niet voldoet. Voor die gevallen krijgt u toegang tot de data in de meest ruwe vorm via de SQL-beheersoftware die we meeleveren met het dataplatform. U extraheert alle data die opgeslagen staat in uw datawarehouse, u maakt views aan en verbetert de performance van uw dashboards door indices en materialized views. Moeilijk? Niet met de tools die wij meeleveren.
- Welke beheersoftware we voor u leveren hangt van van de keuzes die we samen maken ten aanzien van uw datawarehouse-omgeving.
Harmen van der Veer
Senior Data Scientist Datalab
Datalab helpt uw organisatie graag bij het realiseren van al uw data-ambities. Groot én klein.
Ambities stranden in de ruwe werkelijkheid. Zonde, want data biedt zo ontzettend veel kansen. Datalab helpt u daarom met al uw technische vragen zodat uw organisatie in no-time echt datagedreven aan de slag is. Vragen? Sparren?