1 / 31

Business Intelligence: DATA MINING

Business Intelligence: DATA MINING. ‘Graven in Criminele Carrières’. Data ‘flood’. Steeds meer gegevens worden gegenereerd! (data). Bank, telecom, andere zakelijke transacties ... Wetenschappelijke data: astronomie, biologie Web, tekst, en E-commerce. Gevolgen en mogelijkheden.

taffy
Télécharger la présentation

Business Intelligence: DATA MINING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Business Intelligence:DATA MINING ‘Graven in Criminele Carrières’ Tim Cocx, 2009

  2. Data ‘flood’ • Steeds meer gegevens worden gegenereerd!(data) • Bank, telecom, andere zakelijke transacties ... • Wetenschappelijke data: astronomie, biologie • Web, tekst, en E-commerce. Tim Cocx, tcocx@liacs.nl

  3. Gevolgen en mogelijkheden • Twee keer zoveel data werd gemaakt in 2002 als in 1999 (~30% gegroeid) • Gevolg: heel weinig van deze gegevens worden ook daadwerkelijk ooit door een mens bekeken!! • Alleen google heeft al 1/3 van de hele mensheid aan Word-documenten op geslagen! • Daarom: Automatische technieken nodig om nog wat nuttigs met de gegevens te doen. • Maar ook: Opdoen van kennis die ‘we’ nog niet eerder hadden. Tim Cocx, tcocx@liacs.nl

  4. Enter: Business Intelligence BI 2.0 Die Hele Grote Database Data Warehouse Offline herinrichten Business Inelligence Querying ? Data Mining Alarmbellen Die Belangrijke Rapportage OLAP Tim Cocx, 2009

  5. OLAP • Behoefte af te stappen van gedetailleerde vragen. • Geef mij alle koffie opbrengsten USA van 2006 • Geef mij alle koffie opbrengsten USA van 2007 • Geef mij….. • En nu van Europa • En nu van Nederland • En nu van Snacks • En nu van de 100% Halal kipfrikadel Tim Cocx, 2009

  6. OLAP • Dit kan dus handiger • Software tools die mbv data warehouse de gegevens handig presenteren. • Selecteer ‘dimensies’ en ‘data’ • Dimensie: Regio & product-type • Data: verkoopcijfers • Presenteer in (2-dimensionaal) tabelletje Tim Cocx, 2009

  7. OLAP • Dus: OLAP is heel handig om veel informatie snel overzichtelijk te krijgen. • Nadelen: • Iemand weten de juiste vragen te stellen. Kan heel lastig zijn. • Die iemand moet worden betaald. • Die iemand moet aan het werk zijn. • De rapportages moeten gelezen en geïnterpreteerd worden. Tim Cocx, 2009

  8. Data Mining • Oplossing: Data mining • Computergestuurd proces. • Automatische vragen. • Automatische analyses • Automatische response • Nadeel • Nog steeds interpretatie nodig • Heel belangrijk Tim Cocx, 2009

  9. Data mining • Data mining is 1 van de moderne speerpunten binnen Business Intelligence Tim Cocx, tcocx@liacs.nl

  10. Data mining: definitie • Data mining is het automatische proces van het vinden van • Valide (= waar), • Nieuwe, • mogelijk bruikbare • En uiteindelijk begrijpelijke patronen in data. Tim Cocx, tcocx@liacs.nl

  11. Data mining en andere wetenschappen Business Inelligence Machine Leren Visualisatie Data Mining Computer Statistiek Databases Tim Cocx, tcocx@liacs.nl

  12. Classificatie • Voorspellen van klasse van dit dier • Zoogdier • Vis • Insect • Vogel, etc • Antwoord: Zeester  Asteroidea Tim Cocx, tcocx@liacs.nl

  13. Clustering Vogels Zoogdieren Pokemon Vissen • Grote tabel met alle dieren en hun eigenschappen: Tim Cocx, tcocx@liacs.nl

  14. Associaties • Alle boodschappenmandjes Albert Heijn in december. • Uitvinden welke producten vaak samen verkocht worden (handige reclame!) Tim Cocx, tcocx@liacs.nl

  15. Afwijking detectie • Omgekeerd van hiervoor: geen algemene waarheden vinden, maar afwijkingen daarvan • Alle banktransacties en hun kenmerken • Het automatisch vinden van zwart geld (anders dan standaard) • Het automatisch vinden van witwas praktijken Tim Cocx, tcocx@liacs.nl

  16. ‘Link’ analyse • Aan de hand van telefoontjes criminele netwerken vaststellen: Tim Cocx, tcocx@liacs.nl

  17. Text mining • Welke emails gaan over hetzelfde onderwerp? • Wat zijn de belangrijke deelconcepten • Terrorisme • Reclame-matching • Search engine • Kan ik een betoog automatisch structureren uit een tekst? • Omgekeerde van Rationale • Welk document is door wie geschreven? Tim Cocx, 2009

  18. Beroemde succesverhalen • Succes ligt vaak in combinatie van methodieken: • ENRON • Mega energieconcern USA • Door grootschalige fraude omgevallen • Bewijsvoering tegen directie mbv textmining en linkanalyse tot stand gekomen. Tim Cocx, 2009

  19. Beroemde succesverhalen @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ Tim Cocx, 2009

  20. Mijn onderzoek: DALE • Data Assistance for Law Enforcement • Project ingediend bij NWO • Organisatie van de staat om wetenschappelijk onderzoek te financieren. • Samenwerking met het KLPD (nationale politie) • Data mining toepassen op de data verzameld door alle Nederlandse korpsen. • Onder andere: relaties tussen misdaden, drugs-emails vergelijken en criminele carrières. Tim Cocx, tcocx@liacs.nl

  21. Onderzoeksgebied Informatica Sociologie Criminele Carriere Onderzoek Psychologie Criminologie Rechten Tim Cocx, tcocx@liacs.nl

  22. Criminele Carrieres: wat zijn het? Tim Cocx, tcocx@liacs.nl

  23. Doel van analyse Analyse Tim Cocx, tcocx@liacs.nl

  24. ‘Afstanden’ tussen criminelen 1 / 2 1 0 • Hoe verder criminelen van elkaar staan: hoe minder hun carrières op elkaar lijken. • Afstand 0  precies dezelfde carrières • Afstand 1  maximaal verschillende carrières Tim Cocx, tcocx@liacs.nl

  25. De vier factoren Aard Frequentie Zwaarte Duur Tim Cocx, tcocx@liacs.nl

  26. Landelijke HKS • Database met de alle strafbladen van Nederland • Ongeveer 1.000.000 plegers. • Bevat alle overtredingen van personen die na 1995 een misdrijf begaan hebben. • Bevat naast de misdaden ook gegevens over leeftijden, woonplaats, afkomst ed. • geanonimiseerd! Tim Cocx, tcocx@liacs.nl

  27. Voorspelling Jaar 6? Jaar 6? Jaar 6? Jaar 1 Jaar 2 Jaar 3 • Het zou fijn zijn als er van een beginnende crimineel een voorspelling gemaakt kon worden over zijn carriere. Tim Cocx, tcocx@liacs.nl

  28. Verschillende Manieren • Verschillende methoden leiden tot verschillende uitkomsten • Welke is de beste? Tim Cocx, tcocx@liacs.nl

  29. Uitkomsten • Methode 4 is de beste. • Bij 3 beschikbare jaren kunnen we een carrière met 89% nauwkeurigheid voorspellen! • Alarmbellen bij de politie • Andere aparte uitkomsten in relaties tussen misdaadkenmerken: • Drugssmokkel en drugsverslaving • Verkeersmisdrijven en buiten de randstad • Joyriden en overtreden arbeidswet Tim Cocx, tcocx@liacs.nl

  30. Data mining: waarschuwing • Privacy • Mogen de gegevens wettelijk / ethisch wel voor dit doel gebruikt worden? • Interpretatie • Weet de ‘lezer’ wel hoe de gegevens tot stand zijn gekomen? • Begrijpt hij de teksten / plaatjes wel? • Statistische validiteit • De ‘waarheid’ wordt opgeleverd met zekere betrouwbaarheid • Mogen individuen op basis daarvan ‘gediscrimineerd’ worden? • Bij 90%? Bij 98%? Bij 99.99%? Tim Cocx, 2009

  31. Ondervraging Tim Cocx, tcocx@liacs.nl

More Related