Big data
Big data | ||||
---|---|---|---|---|
Drie belangrijkste kenmerken: volume, snelheid en verscheidenheid
| ||||
Algemene informatie | ||||
Grondlegger(s) | Sociale media | |||
Periode van uitvinding | 2005 | |||
Hoofdfunctie | analyseren van bestaande data om nieuwe informatie te concluderen | |||
Basisprincipe(s) | Datawetenschap | |||
|
Big data of massadata is het verzamelen en opslaan van gestructureerde en ongestructureerde data met oog op het voorspellen van nieuwe informatie. Een dataset wordt eerst onbewerkt opgeslagen in een database, zoals NoSQL, en wordt later systematisch geanalyseerd tot kleine gegevenspatronen om gerichte toekomstige inzichten te realiseren. Het wordt ingezet bij individuen om gegevensprofielen op te stellen, maar ook bij zakelijke belangen om bedrijfsprocessen te verbeteren en meer winsten te boeken. Het wordt vaak uitgevoerd met machinelearning en datawetenschap.[1]
Kenmerken
[bewerken | brontekst bewerken]De belangrijkste kenmerken van big data zijn:[2][3]
- Volume: grote hoeveelheden ongestructureerde data met een lage dichtheid kunnen verwerken. Dit kan van onbekende waarde zijn waarbij sommige instanties zelf tientallen terabytes tot petabytes moeten verwerken.
- Snelheid (velocity): de hoge snelheid waarmee grote gegevens naar een schijf wordt weggeschreven. Sommige slimme producten kunnen dit bijna in realtime doen.
- Verscheidenheid (variety): dit verwijst naar de vele soorten technologieën die beschikbaar zijn. Voor ongestructureerde en semi-gestructureerde teksten, audio's en video's is er verwerking nodig om de betekenis ervan te zien en metadata te kunnen ondersteunen.
- Technologie: sommige verzameling gegevens zijn zo complex dat ze enkel met nieuwe technologie zoals kunstmatige intelligentie kunnen verwerkt worden.
- Autonoom: sommige data wordt gegenereerd door machines en worden verzameld via sensoren die verbonden zijn met het internet. Enkele voorbeelden zijn: slimme auto’s, GPS en weersatellieten.
Big data-analyse
[bewerken | brontekst bewerken]Om big data te analyseren is het belangrijk dat de gegevens eerst stapsgewijs worden geordend en georganiseerd. Het doel is om patronen en gedragingen in de gegevens te definiëren en te voorspellen. Het voorbereidingsproces gaat als volgt:[1]
- Verzamelen: data wordt verzameld via verschillende bronnen zoals het web, mobiele telefoons en de cloud. Dit kan gestructureerd, half-gestructureerd en ongestructureerd zijn.
- Verwerken: de opgeslagen gegevens worden geverifieerd, gesorteerd en gefilterd.
- Opschonen: alle conflicten en opmaakfouten in de gegevensverzameling worden gecorrigeerd en opgeschoond.
- Analyseren: de gegevensverzameling is klaar voor analyse met technologieën zoals data mining, machinelearning en statistische analyse.
Doel
[bewerken | brontekst bewerken]Er zijn twee hoofddoelen te onderscheiden voor verwerking van big data:
Gegevensprofielen
[bewerken | brontekst bewerken]Big data is te groot en te weinig gestructureerd om met een reguliere databasemanagementsysteem te worden onderhouden. De gegevens hebben vaak een direct of indirect verband met privégegevens van personen.[4] Big data speelt steeds een grotere rol. De hoeveelheid data die opgeslagen wordt, groeit exponentieel. Dit komt doordat sociale media in toenemende mate data van consumenten opslaan die geanalyseerd worden uit bestanden, foto's en films. De nieuwe privacyregels in Europa maakt het mogelijk dergelijke gegevens in te kijken en te wissen, maar het is algemeen zonder twijfel aangenomen dat bijvoorbeeld Facebook de gewiste data achter de schermen toch bewaart om ze later in te zetten of te verkopen.
Eveneens mensen die aan goede doelen schenken worden vaak in kaart gebracht om aan dataverrijking te doen, zoals het plaatsen van ongevraagde cookies, verkopen of doorgeven van persoonlijke gegevens aan andere goede doelen.[5]
Ook organisaties, overheden en bedrijven hebben steeds meer data over burgers doordat apparaten zelf data verzamelen, opslaan en uitwisselen, het internet of things genoemd. Hierdoor is er steeds meer sensordata beschikbaar. Niet alleen de opslag van deze hoeveelheden is een uitdaging, maar ook het analyseren ervan met speciale nieuwe technologie. Dit resulteert in informatie zoals optimalisatie, marketing, wetenschappelijk onderzoek en preventief onderhoud.[6]
Bedrijfsprocessen
[bewerken | brontekst bewerken]Kleine en grote bedrijven gaan hun interne big data onderwerpen aan een analyse om betere beslissing te nemen in de toekomst over hun productstrategie, bedrijfsvoering, verkoop, marketing en klantenservice. Enkele voorbeelden hoe organisaties met grote hoeveelheden gegevens zinvolle inzichten afleiden:[1]
- Productontwikkeling: de behoeftes van klanten in kaart brengen aan de hand van gerealiseerde bedrijfsanalytische gegevens.
- Persoonlijke instellingen: betrokkenheid van online gebeurtenissen analyseren om gepersonaliseerde ervaring te creëren voor aanbevelingen en gerichte advertenties.
- Zorg: verschillende ziektebeelden in kaart brengen en analyseren waarmee nieuwe en betere diagnoses en behandelingsopties mogelijk worden.
- Kostenbesparing: financiële gegevens in kaart brengen om de operationele kosten op te sporen en te verminderen.
- Fraudepreventie: het gebruik van datamining om risico's te beperken door patronen van frauduleuze activiteiten op te sporen.
- Het werven en behouden van klanten: bestelgeschiedenis, zoekgegevens en online beoordelingen analyseren om het gedrag van klanten te voorspellen.
Verschillende bronnen
[bewerken | brontekst bewerken]De gegevens in big data kunnen worden onderscheiden in primaire bronnen (waar daadwerkelijk gegevens worden gegenereerd) en secundaire bronnen (waarbij bestaande gegevens worden gekoppeld en hergebruikt).[7]
Primaire bronnen
[bewerken | brontekst bewerken]Conform de Wet van Moore verdubbelt ongeveer elke twee jaar de rekencapaciteit en het opslagvermogen van microchips. Door deze exponentiële groei en het inzakken van de kosten, raakt technologie steeds verder verspreid en ingebed in de samenleving. In toenemende mate is de technologie uitgerust met sensoren die data vastleggen en/of doorgeven. Grote hoeveelheden gegevens worden gegenereerd door onder meer sensoren (zoals camera's en microfoons), trackers (zoals RFID-tags en cookies op internet) en apparaten die we bij ons dragen of in huis hebben en op het internet of things zijn aangesloten (zoals mobiele telefoons, horloges, brillen, gehoorapparaten, pacemakers). Daarnaast leggen veel mensen gegevens over zichzelf vast op sociale media.
Secundaire bronnen
[bewerken | brontekst bewerken]Door het hergebruik van gegevens, bijvoorbeeld via het combineren van bestaande datasets, kunnen ook big data ontstaan. Het hergebruik van gegevens kan worden onderscheiden in hergebruik voor dezelfde doelen in dezelfde context (data recycling), voor andere doelen dan waarvoor de gegevens initieel zijn verzameld, maar wel in dezelfde context als het originele doel (data repurposing) of in een andere context (data recontextualisation).[8] Hergebruik van gegevens voor nieuwe doelen of in een andere context kan stuiten op de wettelijke kaders voor de bescherming van persoonsgegevens.
Business intelligentie
[bewerken | brontekst bewerken]Big data heeft geleid tot een opleving van het vakgebied datawetenschappen, waarbij een data concierge en data scientist verantwoordelijk zijn voor de business intelligentie om complexe datagegevens en KPI's van bedrijven te analyseren tot strategische beslissingen. Naargelang het beogend doel wordt dit volledig handmatig of met behulp van een technologie gedaan. De ICT-industrie richt zich vaker op nieuwe gegevensbronnen[9], waarvan de aandrijving van zo'n "business intelligentie" een samenwerking is met verscheidene experten zoals een data-scientis, data-concierge en data-analist.[10]
Data scientist
[bewerken | brontekst bewerken]In het algemeen moet een datascientist over de nodige kennis beschikken zoals metadata en dataconversie in combinatie met meer algemene kennis over de verwerking van gegevensbestanden, wiskunde en het programmeren.
Data concierge
[bewerken | brontekst bewerken]Een data concierge is iemand die big data verzamelt en consolideert tot bruikbare informatie. Deze persoon is vaak een tussenpersoon voor onderzoekers die toegang tot specifieke datasets willen voor specifieke onderzoeksvragen. De verzoeken wisselen van eenvoudige gegevens met minimale regelgevingsproblemen tot geanonimiseerde, beperkte of volledige PHI-gegevenssets.[11]
Toepassingen
[bewerken | brontekst bewerken]De grootste verzamelaars van persoonlijke big data zijn sociaal media voor gegevensprofielen en overheden met als belangrijkste doel fraudebestrijding, zoals in Nederland iCov en het Inlichtingenbureau. De Amerikaanse spionagedienst National Security Agency (NSA) verzamelt data uit communicatie via telefonie en internet met Google en Facebook.[12]
- De Large Hadron Collider heeft 150 miljoen sensoren, die samen zo'n 40 miljoen metingen per seconde doen. Het verwerken van dit grote aantal metingen en het trekken van conclusies daaruit vereist veel rekenkracht.
- Het Amerikaanse bedrijf Walmart verwerkt meer dan een miljoen transacties per uur, die op een slimme manier in databases opgeslagen moeten worden. Uit deze grote berg gegevens kunnen verbanden tussen verschillende producten gedestilleerd worden (bijvoorbeeld hamburgers en broodjes, maar in veel gevallen zijn de verbanden minder voor de hand liggend). Ook kunnen klanten op basis van hun aankoopgedrag ingedeeld worden naar diverse kenmerken. Door geavanceerde statistische analyses uit te voeren kan Walmart niet alleen vrij nauwkeurig inschatten wat het geslacht, inkomen, de sociale klasse en de gezinssituatie van een klant is, maar kunnen ook levensgebeurtenissen zoals huwelijk, geboorte, echtscheiding en overlijden met vrij grote precisie gedetecteerd worden aan de hand van veranderingen in aankoopgedrag.
- Big data: de Shell search is de titel van een Nederlandse tv-documentaire, een experiment in onderzoeksjournalistiek uit 2013, over hoe het doorzoeken van big data journalistiek nieuws kan opleveren over de handel en wandel van een multinational.[13]
- Toen in 2009 de Mexicaanse griep toesloeg, kon Google de verspreiding volgen door te zien in welke regio's naar griepgerelateerde klachten werd gezocht. Deze analyse werd wel vertroebeld doordat veel mensen die via het nieuws over de ziekte hadden gehoord, al gingen zoeken terwijl ze (nog) niet ziek waren.
Het wettelijk kader
[bewerken | brontekst bewerken]In een onderzoek van de Rijksoverheid in Nederland uit 2018 kwam aan het licht dat het internet of things en kunstmatige intelligentie met Big Data nadelige effecten kan hebben op de bescherming van grondrechten door innovatie van algoritme-gedreven technologieën. Deze vooruitgang levert nieuwe potentiële grondrechtelijke knelpunten op en vraagt ook nieuwe juridische ondersteuningen.[14][15]
Privacygegevens
[bewerken | brontekst bewerken]De Algemene verordening gegevensbescherming (AVG) regelt de omgang met persoonsgegevens, en definieert de rechten van individuen en de plichten voor partijen die persoonsgegevens verwerken. De werking van de AVG is breed: zij is van toepassing op alle tot een persoon herleidbare gegevens en vormt een belangrijk uitgangspunt voor de verantwoorde omgang met persoonsgegevens.
Onbekendheid met een onzekerheid over de toepassing en implicaties van wettelijke eisen spelen parten. Daarnaast worden sommige eisen door instanties als lastig en zelfs als onuitvoerbaar ervaren. Een verantwoorde verwerking van gegevens biedt alle partijen echter voordelen. Consumenten zullen eerder bereid zijn om gegevens te delen in het vertrouwen dat bedrijven zorgvuldig met hun gegevens omgaan en er mogelijkheden zijn tot controle en verantwoording. Bedrijven profiteren van het vertrouwen dat consumenten in hen stellen en kunnen daardoor datagedreven producten en diensten blijven ontwikkelen. Het maakt bovendien de bedrijfsvoering rond gegevens inzichtelijk en controleerbaar en ondervangt daarmee bepaalde risico’s zoals datalekken. De wetgeving, die soms wordt ervaren als een last, kan als een prikkel fungeren om op verantwoorde wijze met persoonsgegevens om te gaan en daarin nationaal en internationaal zelfs onderscheidend te zijn.[16]
Juridische tekortkomingen
[bewerken | brontekst bewerken]Big data kunnen volgens de Wetenschappelijke Raad voor het Regeringsbeleid uitsluitend vruchten afwerpen als de huidige wet- en regelgeving wordt versterkt om fundamentele rechten en vrijheden te waarborgen. Hiertoe moet de aandacht worden verlegd van het reguleren van het verzamelen van data, het zwaartepunt in de huidige juridische kaders, naar de regulering van en het toezicht op de fases van de analyse en het gebruik van big data. Voor de vrijheid en de veiligheid van de burgers doen zich in deze twee fasen van big-dataprocessen de grootste kansen én de grootste risico’s voor.
Veiligheidsorganisaties kunnen en mogen diep ingrijpen in de rechten en vrijheden van burgers. Het gebruik big-datatoepassingen - die sturend voor dat ingrijpen worden - moet daarom met extra waarborgen worden omkleed. Dat kan door:
- te zorgen voor een wettelijke verankering van de verantwoordelijkheid van de gegevensverwerkende partij voor de juistheid van de uitkomsten van big-dataprocessen.
- regels op te stellen over toelaatbare foutmarges bij profiling.
- te zorgen voor een strikte handhaving van het verbod op geautomatiseerde besluitvorming en semi-automatische besluitvorming te bestrijden.
- Vergroot de transparantie over het gebruik van big-data-analyses binnen het veiligheidsdomein, zowel bij individuele organisaties als bij samenwerkingsverbanden van organisaties.
- de mogelijkheden voor burgers en maatschappelijke organisaties te verbeteren om wetgeving en beleid omtrent big-datatoepassingen juridisch te (laten) toetsen.[17]
Kritische beoordelingen
[bewerken | brontekst bewerken]Het verzamelen en analyseren van big data wordt vaak als groeimogelijkheden gezien maar wordt ook sterk bekritiseerd wegens mogelijke schendingen van privacy en auteursrechten:[18]
Voordelen:
- Analyseren van big data wordt ingezet voor het bestrijden van de criminaliteit en fraude.
- Het reconstrueren van de aanslagen.
- In kaart brengen van criminele netwerken om daders gemakkelijker op te sporen.
- Het optimaliseren van bedrijfsprocessen om meer winstgevend te zijn.
- Tijdwinst en efficiëntie kan worden behaald bij evenementen via Crowd control.
Nadelen:
- Criminelen kunnen het eveneens als tool inzetten.
- De privacy en de vrije meningsuiting kan in gevaar komen.
- Burgers worden transparanter en geven gemakkelijk hun privégegevens, maar weten vaak niet waar het terecht komt.
- Big data-toepassingen kunnen leiden tot toename in sociale stratificatie waardoor er (grotere) ongelijke verhoudingen tussen maatschappelijke groepen ontstaan.
Schending van de rechten:
- Grootschalige inmenging in de persoonlijke levenssfeer door bedrijven en niet-criminele burgers.
- Big data-toepassingen leiden vaak tot andere doelen waarvoor het oorspronkelijk werd verzameld, de zogeheten function creep.
- Sommige teksten die worden verzameld zijn berust op auteursrechten.
Zie ook
[bewerken | brontekst bewerken]- Hopfield-netwerk
- Turingmachine
- Algoritme
- Kunstmatige intelligentie
- Datamining
- Datawarehouse
- OpenAI
- Microsoft 365 Copilot
- Gemini (chatbot)
- ↑ a b c Wat is Big Data-analyse? - Hoe big data-analyse werkt en waarom het belangrijk is. Azure Microsoft.
- ↑ What Is Big Data?. Oracle Corporation.
- ↑ Big data: definitie, kansen, knelpunten (infografieken). Europees Parlement.
- ↑ Etienne Vermeersch, onze bekendste Vlaamse denker, overleden, De Morgen, 24 januari 2019. Gearchiveerd op 3 april 2019.
- ↑ Dossier: Privacy donateurs - Verplicht persoonsgegevens delen tijdens het doneren aan goede doelen. Stichting Donateursbelangen.
- ↑ bv. Roept de jurisprudentie van het Hof van Justitie een halt toe aan de Big Brother praktijken van de Staat?. Gearchiveerd op 17 mei 2019.
- ↑ Custers B.H.M. (2017), Big data en big data technologie. In: Blok P.H. (red.) Big data en het recht. Monografieën recht en informatietechnologie nr. 10 Den Haag: SDU. 17-35.
- ↑ Custers B.H.M. & Ursic H. (2016), Big data and data reuse: a taxonomy of data reuse for balancing big data benefits and personal data protection, International Data Privacy Law 6(1): 4-15.
- ↑ (en) Lohr, Steve, "For Big-Data Scientists, 'Janitor Work' Is Key Hurdle to Insights", The New York Times, 18 augustus 2014.
- ↑ Data Concierge: Driving Business Intelligence Collaboration. Dataversity Digital LLC.
- ↑ (en) Viewpoint Data Concierge AAMC.org
- ↑ isbn 978-94-90186-30-2, Working Paper 21 - Big Data voor Fraudebestrijding (pdf), Wetenschappelijke Raad voor het Regeringsbeleid (WRR), Peter Olsthoorn, (zie pag. 11), Den Haag, 2016. Geraadpleegd 9 juli 2019.
- ↑ VPRO, research William de Bruijn, regie Shuchen Tan Tegenlicht | Big Data: de Shell search. Gearchiveerd op 2 mei 2023.
- ↑ Algoritmes en grondrechten op rijksoverheid.nl
- ↑ Janneke Gerards, Remco Nehmelman en Max Vetzo, Algoritmes en grondrechten. Ministerie van Binnenlandse Zaken en Koninkrijksrelaties.
- ↑ Verantwoord innoveren met big data op rijksoverheid.nl
- ↑ Factsheet-Aanbevelingen-WRR-rapport-95.pdf op wrr.nl
- ↑ Synopsis WRR-rapport 95 ‘Big Data in een vrije en veilige samenleving’ (pdf), WRR, Den Haag, 2016, pag. 8. Geraadpleegd 17 november 2020. Gearchiveerd op 23 september 2020.