Statistikere og forskere har ofte krav om at undersøge forholdet mellem to variabler, som ofte kaldes x og y. Formålet med at teste eventuelle to sådanne variabler er normalt at se om der er noget link mellem dem, kendt som en sammenhæng i videnskaben. For eksempel vil en videnskabsmand måske gerne vide, om timer med solens eksponering kan knyttes til hudcancer. For at matematisk beskrive styrken af en korrelation mellem to variabler, bruger sådanne efterforskere ofte R2.
Lineær regression
Statistikere bruger den lineære regressionsteknik til at finde den lige linje, der bedst passer til en serie af x og y datapar. De gør dette gennem en række beregninger, der danner ligningen af den bedste linje. Denne matematiske beskrivelse af linjen vil være en lineær ligning og have den generelle form for y = mx + b, hvor x og y er de to variabler i datapar, m er linjens hældning og b er dens y-afsnit.
Korrelationskoefficient
Beregningerne, der finder den bedste lige linje, vil producere en lineær ligning, der passer til et sæt data, selvom disse data ikke er faktisk meget lineære. For at få en indikation af, hvor godt dataene faktisk passer til en lige linje, beregner statistikere også et tal kendt som korrelationskoefficienten. Dette er givet symbolet r eller R og er et mål for, hvor tæt parret dataparene er til den bedste lige linje gennem dem.
Betydningen af R
R kan have nogen værdi mellem - 1 og 1. En negativ værdi af R betyder simpelthen, at den bedst egnede lige linje glider nedad, der bevæger sig fra venstre til højre, snarere end opad. Jo tættere R er til de to ekstremer, desto bedre passer datapunkterne til linjen, med enten -1 eller 1 er en perfekt pasform og en R-værdi på 0, hvilket betyder at der ikke er nogen pasform, og pointene er helt tilfældigt. Hvis datapunkterne er godt justeret til den lige linje, siges der at være nogen sammenhæng mellem dem, derfor navnet korrelationskoefficienten for R.
R2
Nogle statistikere foretrækker at arbejde sammen med værdien af R2, som simpelthen er korrelationskoefficienten kvadret eller multipliceret med sig selv, og er kendt som bestemmelseskoefficienten. R2 svarer meget til R og beskriver også sammenhængen mellem de to variabler, men det er også lidt anderledes. Det måler procentdelen af variationen i y-variablen, som kan tilskrives variation i x-variablen. En R2-værdi på 0,9 betyder for eksempel, at 90 procent af variationen i y-data skyldes variation i x-data. Dette betyder ikke nødvendigvis, at x virkelig påvirker y, men at det ser ud til at gøre det.