Bijstandsfraude voorspellen met big data

13-11-2017

Nuijens, Judith

Wat zijn de mogelijkheden van big data bij het opsporen van fraudeurs in het sociaal domein? Steeds meer gemeenten verdiepen zich in dit vraagstuk. Zo wordt er momenteel in de regio Lekstroom en bij gemeenten in de regio Zeeland gewerkt met big data en Machine Learning om bijstandsfraudeurs beter in beeld te krijgen. Hoe gaat dat in zijn werk?

Een interview met Gerrit van Romunde (Stimulansz) en Jesse Luk (Totta Data Lab).

Bijstandsfraude

Wat zijn de voornaamste vormen van bijstandsfraude?

Gerrit van Romunde: Alle bijstandsfraude gaat erover dat mensen een uitkering krijgen, terwijl ze er geen recht op hebben. Er zijn drie grote soorten bijstandsfraude: vermogensfraude, woonfraude en inkomensfraude. De bijstand, het inkomensdeel van de Participatiewet, is echt een vangnetregeling en alleen bedoeld voor mensen die echt niet voor zichzelf kunnen zorgen.

Waar lopen gemeenten tegenaan bij de bestrijding van bijstandsfraude? Waar zit het grootste knelpunt?

Van Romunde: Het grootste knelpunt is de bewijslast. Een gemeente heeft een vermoeden, krijgt ergens een signaal en dan kost het heel veel werk om te kijken of er daadwerkelijk sprake van fraude is of niet. Bij een vermoeden van vermogensfraude moet je bijvoorbeeld gaan zoeken waar het geld zit. Bij een vermoeden van woonfraude ga je op huisbezoek om bijvoorbeeld tandenborstels te tellen. En stel je voor dat je dat bij honderd mensen moet doen en vervolgens stel je bij vijf mensen vast dat die ongeoorloofd samenwonen. Dan heb je 95 mensen voor niets lastig gevallen en dat is heel vervelend.

Jesse Luk: Er zit een aantal fasen in het onderzoeksproces. Je mag niet zomaar op huisbezoek gaan. Er zit een vooronderzoek aan vast en op het moment dat niets wordt gevonden in dat vooronderzoek mag je ook niet zomaar verder met onderzoeken en een huisbezoek.

Het is dus heel arbeidsintensief om de bewijslast rond te krijgen en het hele proces te doorlopen. Hoe kan big data daarbij helpen?

Van Romunde: Een handhaver of een klantmanager heeft vaak onbewust bepaalde ideeën over wanneer er extra kans op fraude is. Dat heet profiling en dat is discutabel, omdat het heel eendimensionaal is. Onlangs werd de rapper Typhoon aan de kant van de weg gezet, omdat hij als donker iemand in een hele grote auto reed. De politie heeft dan het profiel dat de kans dat dat crimineel is groter is. Met big data is het niet zo eendimensionaal. Daar ga je echt het gedrag in tijd van mensen op heel veel kenmerken in beeld brengen. En dan zal je zien dat iemand die in de amusementsindustrie werkt een veel grotere kans heeft om in een grotere auto te rijden.

Luk: Een menselijk brein kan maar een beperkt aantal waarnemingen aan. Je kijkt bijvoorbeeld alleen naar hoe iemand eruit ziet of wie een bepaalde auto heeft. Big data bevat alles wat bekend is over een persoon en gaat veel verder dan een onderbuikgevoel.

Van Romunde: Wij zijn ervan overtuigd dat data steeds belangrijker gaan worden in het werk dat we doen.

Met behulp van Machine Learning en big data voorspellen jullie wie frauderen met een bijstandsuitkering. Hoe gaat dat in zijn werk?

Luk: Machine learning betreft een wetenschap, waarbij de computer kan leren van patronen en steeds slimmer wordt. In het geval van fraude hebben we een set met data, waarvan bekend is wie er fraude hebben gepleegd. En vervolgens zoekt de computer aan de hand van een Machine learning techniek die wij vinden passen bij de desbetreffende data dan zelf in al die variabelen naar verbanden die daarin zitten die horen bij een fraudeur. Met Machine Learning ontwikkelen we een algoritme en dat algoritme kan voorspellen. Bij het voorspellen kijkt het algoritme naar de nieuwe cases en variabelen en beoordeelt in hoeverre de combinatie van variabelen van één specifieke case lijkt op die van andere fraudeurs. Op basis hiervan geven wij een kans op fraude mee. De kracht van Machine Learning is dat je correcte en foutieve voorspellingen ook weer terug kunt geven aan de computer en dat de computer leert van de achterliggende patronen die zitten in die nieuwe data. Naarmate de computer meer voorspellingen doet en meer data tegenkomt wordt het voorspellend model steeds sterker. Het algoritme leert immers van alle nieuwe patronen die horen bij de nieuwe cases, na meerdere iteraties kan de nauwkeurigheid flink oplopen.

Luk: Fraude voorspellen met Machine Learning is een van de moeilijkere dingen die er zijn. Dat heeft met een aantal dingen te maken. Als je voorspelt of iemand zijn contract opzegt, dan heb je vanuit het verleden een hele duidelijke database van mensen die weg zijn gegaan in een bepaalde periode en mensen die klant zijn gebleven. Bij fraude is dat net even anders. Je hebt onderzoeken gedaan waarbij je fraude hebt geconstateerd, maar je hebt ook onderzoeken waarbij je geen fraude hebt geconstateerd, maar dan weet je eigenlijk nog steeds niet helemaal zeker of er niet gefraudeerd is. En je hebt een bak waar nooit onderzoek naar gedaan is en dan weet je niet of er wel of geen fraude is geweest. Wel of niet frauderen kun je dus niet zo hard tegen elkaar afzetten. Daar komt bij dat het percentage fraudeurs ten opzichte van het geheel vaak heel klein is. Je hebt dus maar een kleine set met geannoteerde data waar je je algoritme op kan baseren. Bij contractopzeggingen heb je er vaak tienduizenden.

Van Romunde: Met Machine Learning proberen wij ervoor te zorgen dat het effect van inzet groter wordt, dus dat de afdeling fraudepreventie of de sociale recherche alleen bij die gevallen komt waar de grootste kans op fraude is. Als je door heel goed te voorspellen in plaats van bij honderd mensen maar bij twintig aan hoeft te kloppen en tandenborstels te checken voordat je die vijf fraudeurs te pakken hebt, dan betekent het dat je nog maar vijftien mensen onterecht hebt lastig gevallen en tachtig mensen die niets kwaads in de zin hadden met rust hebt gelaten. Daar zit de winst van deze methode.

Hoe kijken gemeenten aan tegen het gebruik van deze methode?

Luk: Dat is heel wisselend. De ene gemeente vindt het heel praktisch en handig. De andere gemeente is er een beetje angstig voor. Ze zijn bijvoorbeeld angstig voor zaken zoals profiling. Neem het voorbeeld van Typhoon dat Gerrit noemde. Veel gemeenten zijn er angstig voor dat dat gebeurt bij het gebruik van big data. Terwijl Machine Learning juist het tegenovergestelde doet. Er wordt gekeken naar alle variabelen die beschikbaar zijn en de computer berekent op basis van al die variabelen een schatting op fraude. Dat is juist helemaal geen profiling en niet eendimensionaal.

Van Romunde: Het heeft vaak ook met sentiment te maken. Het idee dat de computer door het hele uitkeringsbestand gaat en daar gaat lopen wijzen zonder dat iemand daar bij is, dat is heel eng. Dat onderbuikgevoel leeft bij veel mensen. Dat kan ik me ook wel voorstellen. In het sociaal domein heb je te maken met de meest kwetsbare mensen in de samenleving. Je probeert ze juist te helpen en dan is het wel heel eng om van de computer afhankelijk te zijn.

Luk: Er is angst voor het idee dat de computer aanwijst wie er fraudeert, maar het blijft altijd een samenspel tussen de praktijk en wat wij als voorspelling opleveren. Er mag geen uitkering stop worden gezet, enkel op basis van een kanspercentage dat wij meegeven. Het eindoordeel ligt altijd bij de mens, op basis van het uitgevoerde rechtmatigheidsonderzoek. De angst verschuift wel wat meer op het moment dat het over bijstandsfraude gaat, omdat dat een soort van laatste vangnet is. Heb je het over het voorspellen wie er uitvalt in een schuldhulpverleningstraject, zodat je die mensen extra kunt helpen, dan is die angst vaak al een stuk minder. De gevolgen zijn veel minder groot.

Lees het volledige interview in het gratis online magazine Fraude.

-----------------------------------------------------------------------------------------------------

Gerrit van Romunde is gespecialiseerd in arbeidsmarktbeleid. Hij heeft een lange staat van dienst in het verbinding leggen tussen werk en inkomen, onderwijs en het bedrijfsleven. Hij begeleidt gemeenten op dit terrein bij het proces van visie tot implementatie. Gerrit is momenteel werkzaam bij Stimulansz.

Jesse Luk is werkzaam bij Totta Data Lab, een data science bureau dat zich specialiseert in het voorspellen van menselijk gedrag vanuit data. Hij is binnen deze organisatie verantwoordelijk voor de vertaling van klantbehoefte naar machine learning oplossing. Daarnaast beweegt hij zich vaak tussen de econometrist/data scientist en de klant in. Door zijn brede kennis van statistiek, data mogelijkheden en commercie begrijpt hij beide kanten van de tafel, hetgeen helpt om veel mooie en innovatieve trajecten uit te voeren.

Stimulansz en Totta Data Lab voeren gezamenlijk het project Machine Learning uit bij verschillende gemeentes in Zeeland, Utrecht en Zuid-Holland.

Van onze partners

Privacy in het sociaal domein

→ Lees meer

Masterclass Privacy: the next step

→ Lees meer

Incompanymogelijkheden

Privacyweb biedt ook de mogelijkheid om de verschillende onderwerpen als incompanyworkshop/cursus te organiseren, in samenwerking met de deskundige docenten van de Berghauser Pont Academy.
Hierbij staat de kennisbehoefte van uw medewerkers centraal. U krijgt een uniek programma toegespitst op uw wensen.
Lees meer

Wilt u snel antwoord op uw vraag?
Hanna Rab (junior uitgever) informeert u graag over de mogelijkheden. Zij is te bereiken via tel. 020 - 8200 908 en e-mail hanna@berghauserpont.nl.

Nieuwsbrief

Blijf op de hoogte van het laatste nieuws over privacy, cybersecurity en data. Abonneer op onze gratis nieuwsbrief.

Abonneer