Et scatterplot er en graf, der viser forholdet mellem to sæt data. Nogle gange er det nyttigt at bruge dataene i et scatterplot til at opnå et matematisk forhold mellem to variabler. Ligningen af et scatteringsbillede kan opnås manuelt ved hjælp af en af to hovedveje: en grafisk teknik eller en teknik kaldet lineær regression.
Oprettelse af en scatterplot
Brug grafpapir til at skabe en scatter plot. Tegn x- og y-akserne, så de krydser og mærker oprindelsen. Sørg for, at x- og y-akserne også har korrekte titler. Derefter plotte hvert datapunkt i grafen. Eventuelle tendenser mellem de plottede datasæt skal nu være tydelige.
Best fit
Når en scatterplot er oprettet, forudsat at der er en lineær sammenhæng mellem to datasæt, kan vi bruge en grafisk metode til opnåelse af ligningen. Tag en linjal og træk en linje så tæt som muligt på alle punkterne. Prøv at sikre, at der er så mange point over linjen som der er under linjen. Når linjen er trukket, skal du bruge standardmetoder til at finde ligningen af den lige linje
Ligning af lige linje
Når en linje med den bedste pasform er placeret på en scatterdiagram, er det ligefrem for at finde ligningen. Den generelle ligning for en lige linje er:
y = mx + c
Hvor m er hældningen (gradient) af linjen og c er y-afsnit. For at opnå gradienten, find to punkter på linjen. Af hensyn til dette eksempel, lad os antage, at de to punkter er (1,3) og (0,1). Graden kan beregnes ved at tage forskellen i y-koordinaterne og dividere med forskellen i x-koordinaterne:
m = (3 - 1) /(1 - 0) = 2/1 = 2
Graden i dette tilfælde er lig med 2. Så langt er ligningens lige ligning
y = 2x + c
Værdien for c kan opnås ved at erstatte værdierne for et kendt punkt. Efter eksemplet er et af de kendte punkter (1,3). Plug dette ind i ligningen og omarrangere for c:
3 = (2 * 1) + c
c = 3 - 2 = 1
Den endelige ligning i dette tilfælde er:
y = 2x + 1
Lineær regression
Linjær regression er en matematisk metode, som kan bruges til at opnå lineær ligningen for et scatterplot. Start med at placere dine data i en tabel. For dette eksempel, lad os antage, at vi har følgende data:
(4.1, 2.2) (6.5, 4.5) (12.6, 10.4)
Beregn summen af x-værdierne:
x_sum = 4,1 + 6,5 + 12,6 = 23,2
Herefter beregnes summen af y-værdierne:
y_sum = 2,2 + 4,4 + 10,4 = 17
Indsæt nu produkterne for hvert datapunktsæt:
xy_sum = (4,1 * 2,2) + (6,5 * 4,4) + (12,6 * 10,4) = 168,66
Næste bereg summen af x-værdierne kvadreret og y-værdierne kvadreret:
x_square_sum = (4.1 ^ 2) + (6.5 ^ 2) + (12.6 ^ 2) = 217.82
y_square_sum = (2.2 ^ 2) + (4.5 ^ 2) + (10.4 ^ 2) = 133.25
Endelig tæl antallet af datapunkter, du har. I dette tilfælde har vi tre datapunkter (N = 3). Graden for den bedst egnede linje kan opnås fra:
m = (N * xy_sum) - (x_sum * y_sum) /(N * x_square_sum) - (x_sum * x_sum) = (3 * 168,66) - (23.2 * 17) /(3 * 217.82) - (23.2 * 23.2) = 0.968
Afsnit for den bedst egnede linje kan fås fra:
c = (x_square_sum * y_sum) - (x_sum * xy_sum) /(N * x_square_sum) - (x_sum * x_sum)
\\ = (217,82 17) - (23,2-1 168,66) /(3 * 217,82) - (23,2 * 23,2) \\ = -1,82 Den endelige ligning er derfor: y = 0,968x - 1,82
Sidste artikelSådan beregnes X-bar