Van Wikipedia, de vrije encyclopedie
Clusteranalyse is het classificeren of het groeperen in clusters of klassen van objecten op grond van hun kenmerken. Het doel van clusteranalyse is het vormen van deelverzamelingen die elk hun eigen gedeelde kenmerken bevatten. Om het resultaat te visualiseren kan een dendrogram worden gebruikt.
Veel grote classificatiesystemen zijn hiërarchisch gestructureerd. Het resultaat is de vorming van een dendrogram. Hoe hoger een groep in een hiërarchie is geplaatst, hoe algemener de beschrijving ervan zal zijn. Groepen zijn hierbij onderverdeeld in subgroepen die op hun beurt ook weer in groepen zijn onderverdeeld (divisief en hiërarchisch). Bij divisieve methoden wordt een gegevensverzameling in deelverzamelingen (subsets, clusters) opgedeeld. Naast divisieve methoden bestaan ook agglomeratieve methoden, waarbij de objecten in steeds grotere clusters worden samengevoegd.
Bij niet-hiërarchische methoden wordt de gegevensverzameling in een keer verdeeld in een van tevoren opgegeven aantal deelgroepen. Deze deelgroepen zijn niet-overlappend: elk object behoort slechts in een deelgroep.
Er zijn ook methoden die leiden tot overlappende groepen, of vage verzamelingen, waarvan de elementen graden van lidmaatschap kennen.
Er is een grote variatie aan clustermethoden. Deze kunnen worden onderverdeeld onder andere op grond van het aantal te gebruiken kenmerken, de eventuele voorbewerking van de basisgegevens, de keuze tussen samenvoegen of juist het splitsen van de groepen en de mate van overlap tussen de groepen.
Als de classificatie hiërarchisch is, is een dendrogram (een diagram met een boomstructuur) het resultaat van de clusteranalyse. Een goed voorbeeld is een stamboom of een fylogenetische stamboom.
Bij de clusteranalyse moeten enkele subjectieve beslissingen worden genomen. Het clusteren of classificeren verloopt in de volgende stappen:
Als deze beslissingen genomen zijn, verloopt het verdere proces automatisch. Het is ook mogelijk niet de objecten, maar de kenmerken te classificeren. Bij de directe methoden gebeurt dit automatisch.
Eigenschappen kunnen afhankelijk van elkaar zijn. Als kenmerken van structuren worden beschreven, kan de afmeting, de kleur en de vorm weer afhangen van de aan- of afwezigheid van die structuur. De volgende soorten van eigenschappen of kenmerken zijn meestal in classificaties terug te vinden:
In de biologie zijn er meerdere gebieden waar clusteranalyse wordt toegepast.
Seamless Wikipedia browsing. On steroids.