Laten we eerst vooropstellen dat je met enige zelfverzekerdheid bij een sollicitatiegesprek mag zitten voor de vacature data scientist. Ten eerste, wordt data scientist gezien als de meest sexy baan van de 21ste eeuw volgens het Harvard Business Review: “Zij die schatten uit chaotische, ongestructureerde data kunnen halen”. Big data, algoritmes, business intelligence, het zijn woorden die hoog scoren tijdens vergaderingen. Elk bedrijf wil mee gaan in deze trend, daarom kunnen we als ten tweede stellen dat er een behoorlijke vraag aan data analisten en scientists is op de arbeidsmarkt. Uiteraard, is het alsnog erg verstandig om aan een goede voorbereiding te doen en die zelfverzekerdheid nog een extra boost te geven.
Voorbereiding op het sollicitatiegesprek
Een data science sollicitatiegesprek vereist heel wat voorbereiding of je nu net uit de schoolbanken komt of op zoek bent naar een nieuwe uitdaging bij een ander bedrijf. Het is daarom belangrijk te begrijpen naar waar ze precies op zoek naar zijn in een data scientist en welke werkzaamheden hij/zij gaan uitvoeren.
Wat wordt er gevraagd?
En nog belangrijker, hoe zorg je ervoor dat je de recruiters of mogelijke afdelingsmanagers ervan kan overtuigen dat jij hieraan voldoet? Over het algemeen kan dit opgedeeld worden in tools, vaardigheden en werkzaamheden. Met welke tools heb je ervaring en wat heb je hier tot zover mee gedaan? Hoe kan je bewijzen dat je over de benoemde vaardigheden beschikt en zorg voor een extra overtuiging door een situatie te benoemen waar dit in voorkwam. En welke werkzaamheden heb je tot zover uitgevoerd en waar was je verantwoordelijk voor? Ofwel, over welke kennis beschik je?
Bekijk ook welke talen en programma’s er geëist worden, mocht je hier helemaal niets van af weten is het goed om op internet hier filmpjes van op te zoeken of overeenkomsten te vinden met talen die je bekend zijn.
Wees ze een stapje voor
Door andere vacatures door te spitten met vergelijkbare werkzaamheden. Wat wordt hier gevraagd aan kennis en vaardigheden? En zorg dat expliciet in je verhaal benoemd. Denk bijvoorbeeld aan kritisch denken, zodat je altijd erop let dat je modellen betrouwbaar zijn. Een ander voorbeeld kan communicatief vaardig. Je kan er gerust van uit gaan dat voor veel mensen data-analyses nog vrij onbekend is daarom is het extra belangrijk voor jouw collega’s dat je duidelijk kan communiceren over waar je mee bezig bent en hoe de resultaten kunnen bijdragen aan meer sales en/of daardoor een betere inkoop optimalisatie. Benadruk hier dus dan ook je sterke soft skills. Andere vaardigheden die je kunt noemen zijn doorzettingsvermogen (het blijft een trial- en error proces), flexibele mindset, teamplayer, gedetailleerd te werk gaan enz.
Het sollicitatiegesprek
Na je uitvoerige voorbereiding ben je nu in staat om alle vragen te beantwoorden. Naast de welbekende vragen als wat trekt je aan in dit bedrijf, vertel iets over jezelf en hoe omschrijf jezelf, kun je ook vragen verwachten gericht op jouw werkzaamheden.
Hoe zou je een goede data scientist omschrijven?
Dit geeft aan waar je belangen, behoeften en waardes liggen binnen jouw baan. Een echte scientist zet het oplossen van een probleem boven aan in plaats van het gebruiken van nieuwe tools. Als dit aansluit bij jouw kijk, dan is dit een hele goede insteek. Er komt namelijk veel opschoning van data, coding en betrouwbaarheid bij kijken. Hier kun je ook specificeren welke en liever nog de industrie waar het bedrijf actief is jouw voorkeur heeft: finance, medicijnen of bijvoorbeeld effectenbeurs. Laat dus duidelijk zien dat jouw voorkeuren voor een goede data scientist grote overeenkomsten hebben met wat het bedrijf kan bieden.
Hoe zou je een aanbevelingsmodel uitleggen aan iemand van de marketingafdeling?
Als eerder benoemd is communicatie van groot belang voor goede samenwerking tussen afdelingen en data scientists. Bewijs dat jij vaardigheden als uitleggen, omzetten en presenteren van data wel beschikt. Zo kan je het best beginnen met een uitleg van de simpele termen en daarna langzaam opbouwen zonder al te veel details. Visuele representatie is daarbij van belang. Benadruk ook hoe je de vaardigheden van marketing met je eigen vaardigheden wil combineren om zo nog beter data te kunnen verzamelen en doelgericht te kunnen werken.
Wat is het verschil tussen “supervised” en “unsupervised learning”?
Antwoord: supervised learning gebruikt bekend en gelabelde data waarbij er feedback mechanismes ingebouwd zijn waardoor er een check- up kan ontstaan. Bij unsupervised learning is het model geheel zelflerend. Er bestaan geen momenten van feedback, meer gefocust op analysis en gebruikt ongelabelde data. Algoritmes bestaan dan ook uit hiërarchisch clusteren, k-means clusteren, associatie regels en autoencoders.
Hoe voorkom je selectiebias?
Je kunt hierbij vanuit gaan dat men hier doelt op hoe je selectiebias kan definiëren, hoe het te voorkomen en een voorbeeld te noemen hoe je hier eerder mee om bent gegaan.
Het grootste probleem met selectiebias is dat een conclusie getrokken is die van een niet-willekeurige steekproef is genomen. De makkelijkste oplossing is om van een duidelijk gedefinieerde populatie een willekeurige steekproef te kiezen. Leg daar dan ook bij uit waarom dit niet altijd even makkelijk is.
Voor een selectiebias kan bewust gekozen worden om bepaalde data niet mee te nemen in de selectie om opzettelijk een (onjuiste) stelling te bewijzen. Verwacht dan ook vragen over ethiek en integriteit op werk.
Hoe kunnen uitbijterwaarden worden behandeld?
Dit is een goede vraag om te zien hoe jij omgaat met de data die je ontvangen hebt, welke methodes je gebruikt om de data te verwerken en hoeveel tijd je erin steekt om de data te beoordelen.
Begin bij het begin, en vertel wat een uitbijter is, zoals getallen die ver buiten het gegevenscluster in de grafiek bestand (2-3 standaarddeviaties van het gemiddelde). Vervolgens, beoordeel je hoe de uitbijters zijn ontstaan en of dit is toegeschreven aan menselijke en machinale fouten of door bijvoorbeeld een succesvolle marketingtactiek. Dan ga je over op advies, waarin je vertelt hoe je om kunt gaan met de groot aantal uitbijters. Probeer een praktijkvoorbeeld te gebruiken uit je eigen ervaring.
Waarom is data cleaning belangrijk?
Data verzameling en cleaning is een groot deel van je baan, het kan zo 80% van jouw tijd nemen. Ga hier dus vooral ook breed op in en beschrijf wat je favoriete cleaning technieken en programma’s zijn. Benadruk ook hoe belangrijk clean data is om goede conclusies te trekken. Data zou hierom ook volledig, accuraat, geschikt en uniform moeten zijn. Dit zal namelijk leiden tot betere beslissingen ten behoeve van bedrijfsdoelen. Zorgt voor een betere klantwerving van zowel nieuwe als oude klanten. Ook zal het bijdragen aan tijd en materiaal besparing vanwege de accuraatheid van de data en daardoor ook de productiviteit verbeteren.
Wat is het doel van A/B testen?
Essentieel is hier verschil tussen twee variabelen. Zo kan er vastgesteld worden op betrokkenheid, conversies of interest gedaald of gestegen is. Een mogelijke aanpak is om te vertellen waar fouten gemaakt kunnen worden in deze testen.
- Een beperkte verzameling van de data, onvoldoende data of periode lengte.
- Te veel variabelen testen in één keer
- Het negeren van details wat gedurende het project opbouwt
- Het niet meenemen van externe factoren die het proces beïnvloeden
48 uur om een “Coding Challenge” op te lossen.
Bij een aantal bedrijven, met name gespecialiseerde data analytics bureaus worden er testen afgenomen om te evalueren wat de aanpak gaat zijn van potentiele kandidaten. De duur kan variëren van 30 minuten tot twee uur. Sommige bedrijven kiezen soms voor langer durende taak met een maximum van een week. Vaak worden er meerdere taal opties gegeven maar bereid je zeker voor op SQL of Python.
De evaluatie op je script is misschien nog wel belangrijker. Zo wordt er voornamelijk op in gegaan waarom je bepaalde stappen hebt genomen en welke aannames je daarbij hebt gemaakt.
Een sollicitatiegesprek is goed voor te bereiden en al de informatie is beschikbaar voor je via verschillende kanalen zowel on- als offline. Maak hier dan ook zeker gebruik van, maar onthoud dat je zeer waarschijnlijk met je data analytics achtergrond ook in staat moet zijn simpelere dingen uit te leggen!