310 likes | 540 Views
Business Intelligence: DATA MINING. ‘Graven in Criminele Carrières’. Data ‘flood’. Steeds meer gegevens worden gegenereerd! (data). Bank, telecom, andere zakelijke transacties ... Wetenschappelijke data: astronomie, biologie Web, tekst, en E-commerce. Gevolgen en mogelijkheden.
E N D
Business Intelligence:DATA MINING ‘Graven in Criminele Carrières’ Tim Cocx, 2009
Data ‘flood’ • Steeds meer gegevens worden gegenereerd!(data) • Bank, telecom, andere zakelijke transacties ... • Wetenschappelijke data: astronomie, biologie • Web, tekst, en E-commerce. Tim Cocx, tcocx@liacs.nl
Gevolgen en mogelijkheden • Twee keer zoveel data werd gemaakt in 2002 als in 1999 (~30% gegroeid) • Gevolg: heel weinig van deze gegevens worden ook daadwerkelijk ooit door een mens bekeken!! • Alleen google heeft al 1/3 van de hele mensheid aan Word-documenten op geslagen! • Daarom: Automatische technieken nodig om nog wat nuttigs met de gegevens te doen. • Maar ook: Opdoen van kennis die ‘we’ nog niet eerder hadden. Tim Cocx, tcocx@liacs.nl
Enter: Business Intelligence BI 2.0 Die Hele Grote Database Data Warehouse Offline herinrichten Business Inelligence Querying ? Data Mining Alarmbellen Die Belangrijke Rapportage OLAP Tim Cocx, 2009
OLAP • Behoefte af te stappen van gedetailleerde vragen. • Geef mij alle koffie opbrengsten USA van 2006 • Geef mij alle koffie opbrengsten USA van 2007 • Geef mij….. • En nu van Europa • En nu van Nederland • En nu van Snacks • En nu van de 100% Halal kipfrikadel Tim Cocx, 2009
OLAP • Dit kan dus handiger • Software tools die mbv data warehouse de gegevens handig presenteren. • Selecteer ‘dimensies’ en ‘data’ • Dimensie: Regio & product-type • Data: verkoopcijfers • Presenteer in (2-dimensionaal) tabelletje Tim Cocx, 2009
OLAP • Dus: OLAP is heel handig om veel informatie snel overzichtelijk te krijgen. • Nadelen: • Iemand weten de juiste vragen te stellen. Kan heel lastig zijn. • Die iemand moet worden betaald. • Die iemand moet aan het werk zijn. • De rapportages moeten gelezen en geïnterpreteerd worden. Tim Cocx, 2009
Data Mining • Oplossing: Data mining • Computergestuurd proces. • Automatische vragen. • Automatische analyses • Automatische response • Nadeel • Nog steeds interpretatie nodig • Heel belangrijk Tim Cocx, 2009
Data mining • Data mining is 1 van de moderne speerpunten binnen Business Intelligence Tim Cocx, tcocx@liacs.nl
Data mining: definitie • Data mining is het automatische proces van het vinden van • Valide (= waar), • Nieuwe, • mogelijk bruikbare • En uiteindelijk begrijpelijke patronen in data. Tim Cocx, tcocx@liacs.nl
Data mining en andere wetenschappen Business Inelligence Machine Leren Visualisatie Data Mining Computer Statistiek Databases Tim Cocx, tcocx@liacs.nl
Classificatie • Voorspellen van klasse van dit dier • Zoogdier • Vis • Insect • Vogel, etc • Antwoord: Zeester Asteroidea Tim Cocx, tcocx@liacs.nl
Clustering Vogels Zoogdieren Pokemon Vissen • Grote tabel met alle dieren en hun eigenschappen: Tim Cocx, tcocx@liacs.nl
Associaties • Alle boodschappenmandjes Albert Heijn in december. • Uitvinden welke producten vaak samen verkocht worden (handige reclame!) Tim Cocx, tcocx@liacs.nl
Afwijking detectie • Omgekeerd van hiervoor: geen algemene waarheden vinden, maar afwijkingen daarvan • Alle banktransacties en hun kenmerken • Het automatisch vinden van zwart geld (anders dan standaard) • Het automatisch vinden van witwas praktijken Tim Cocx, tcocx@liacs.nl
‘Link’ analyse • Aan de hand van telefoontjes criminele netwerken vaststellen: Tim Cocx, tcocx@liacs.nl
Text mining • Welke emails gaan over hetzelfde onderwerp? • Wat zijn de belangrijke deelconcepten • Terrorisme • Reclame-matching • Search engine • Kan ik een betoog automatisch structureren uit een tekst? • Omgekeerde van Rationale • Welk document is door wie geschreven? Tim Cocx, 2009
Beroemde succesverhalen • Succes ligt vaak in combinatie van methodieken: • ENRON • Mega energieconcern USA • Door grootschalige fraude omgevallen • Bewijsvoering tegen directie mbv textmining en linkanalyse tot stand gekomen. Tim Cocx, 2009
Beroemde succesverhalen @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ Tim Cocx, 2009
Mijn onderzoek: DALE • Data Assistance for Law Enforcement • Project ingediend bij NWO • Organisatie van de staat om wetenschappelijk onderzoek te financieren. • Samenwerking met het KLPD (nationale politie) • Data mining toepassen op de data verzameld door alle Nederlandse korpsen. • Onder andere: relaties tussen misdaden, drugs-emails vergelijken en criminele carrières. Tim Cocx, tcocx@liacs.nl
Onderzoeksgebied Informatica Sociologie Criminele Carriere Onderzoek Psychologie Criminologie Rechten Tim Cocx, tcocx@liacs.nl
Criminele Carrieres: wat zijn het? Tim Cocx, tcocx@liacs.nl
Doel van analyse Analyse Tim Cocx, tcocx@liacs.nl
‘Afstanden’ tussen criminelen 1 / 2 1 0 • Hoe verder criminelen van elkaar staan: hoe minder hun carrières op elkaar lijken. • Afstand 0 precies dezelfde carrières • Afstand 1 maximaal verschillende carrières Tim Cocx, tcocx@liacs.nl
De vier factoren Aard Frequentie Zwaarte Duur Tim Cocx, tcocx@liacs.nl
Landelijke HKS • Database met de alle strafbladen van Nederland • Ongeveer 1.000.000 plegers. • Bevat alle overtredingen van personen die na 1995 een misdrijf begaan hebben. • Bevat naast de misdaden ook gegevens over leeftijden, woonplaats, afkomst ed. • geanonimiseerd! Tim Cocx, tcocx@liacs.nl
Voorspelling Jaar 6? Jaar 6? Jaar 6? Jaar 1 Jaar 2 Jaar 3 • Het zou fijn zijn als er van een beginnende crimineel een voorspelling gemaakt kon worden over zijn carriere. Tim Cocx, tcocx@liacs.nl
Verschillende Manieren • Verschillende methoden leiden tot verschillende uitkomsten • Welke is de beste? Tim Cocx, tcocx@liacs.nl
Uitkomsten • Methode 4 is de beste. • Bij 3 beschikbare jaren kunnen we een carrière met 89% nauwkeurigheid voorspellen! • Alarmbellen bij de politie • Andere aparte uitkomsten in relaties tussen misdaadkenmerken: • Drugssmokkel en drugsverslaving • Verkeersmisdrijven en buiten de randstad • Joyriden en overtreden arbeidswet Tim Cocx, tcocx@liacs.nl
Data mining: waarschuwing • Privacy • Mogen de gegevens wettelijk / ethisch wel voor dit doel gebruikt worden? • Interpretatie • Weet de ‘lezer’ wel hoe de gegevens tot stand zijn gekomen? • Begrijpt hij de teksten / plaatjes wel? • Statistische validiteit • De ‘waarheid’ wordt opgeleverd met zekere betrouwbaarheid • Mogen individuen op basis daarvan ‘gediscrimineerd’ worden? • Bij 90%? Bij 98%? Bij 99.99%? Tim Cocx, 2009
Ondervraging Tim Cocx, tcocx@liacs.nl