Videnskab
 science >> Videnskab >  >> Math

Sådan Find Centroid i en Clustering Analyse

Clusteranalyse er en metode til at organisere data i repræsentative grupper baseret på lignende egenskaber. Hvert medlem af klyngen har mere til fælles med andre medlemmer af samme klynge end med medlemmer af de andre grupper. Det mest repræsentative punkt i gruppen hedder centroid. Normalt er dette middelværdien af ​​dataene i klyngen.

Organiser dataene. Hvis dataene består af en enkelt variabel, kan et histogram være passende. Hvis der er involveret to variabler, graf dataene på et koordinatplan. Hvis du f.eks. Kigger på skolebørns højde og vægt i et klasseværelse, skal du plotte dataene for hvert barn på en graf, hvor vægten er den vandrette akse, og højden er den lodrette akse. Hvis der er mere end to variabler involveret, kan matricer være nødvendige for at vise dataene.

Grupper dataene i klynger. Hver klynge skal bestå af de data, der er tættest på den. I højde- og vægteksemplet grupperer du alle datapunkter, der ser ud til at være tæt sammen. Antallet af klynger, og om hvert punkt af data skal være i en klynge, kan afhænge af formålet med undersøgelsen.

Tilføj hver enkelt klynge værdierne for alle medlemmer. For eksempel, hvis en klynge af data bestod af punkterne (80, 56), (75, 53), (60, 50) og (68,54), ville summen af ​​værdierne være (283, 213).

Opdel alt efter antal medlemmer af klyngen. I eksemplet ovenfor er 283 divideret med fire 70,75 og 213 divideret med fire 53,25, så klyngens centroid er (70,75, 53,25).

Plot clustercentroiderne og afgøre, om punkterne er tættere til et centroid i en anden klynge, end de er til centroid i deres egen klynge. Hvis nogen punkter er tættere på et andet centroid, omfordeles dem til klyngen, der indeholder det tættere centroid.

Gentag trin 3, 4 og 5, indtil alle datapunkter er i klyngen, der indeholder den centroid, som de er tættest på .

Tip

Hvis centroid skal være et bestemt datapunkt i stedet for et midtpunkt mellem dataene, kan medianen bruges til at bestemme den i stedet for den gennemsnitlige. >