Regresie şi corelaţie

De la Capisci

Salt la: navigare, căutare

Cuprins

Introducere

În articolul de faţă veţi vedea cum se poate face ca, plecând de la nişte date măsurate privind evoluţia unui fenomen, să obţinem o formulă matematică pentru descrierea acelui fenomen.

Cunoştinţele necesare se limitează la nivelul liceal. Ceea ce depăşeşte acest nivel este explicat. Tot ce trebuie este să nu vă speriaţi de notaţii. Citiţi cu atenţie şi veţi vedea că totul este explicat cu grijă. Ar fi bine chiar să luaţi un creion şi o hârtie pentru a transcrie şi a exersa notaţiile care vă repugnă. Veţi ajunge să le indrăgiţi, atunci când veţi observa ce concise şi elegante sunt.

În schimb, în articol se presupune că aveţi oarecare uşurinţă în utilizarea unui prgram de calcul tabelar (de exemplu, Excel de la Microsoft).

Problema

Presupunem că am făcut o serie de experienţe prin care am urmărit variaţia unei mărimi în raport cu timpul. De exemplu, să zicem că am măsurat cum creşte un copac, notându-ne înălţimea h odată pe an (mai exact, la 1 ianuarie al fiecărui an) şi am obţinut următoarele rezultate:

Fişier:01 Regresie tabel.jpg

Reprezentând grafic punctele cu coordonatele din tabel, astfel încât în abscisă să avem anii calendaristici, iar în ordonată înălţimea h a copacului în metri, obţinem următoarea imagine:

Fişier:02 Regresie grafic.jpg

Se observă că a fost necesar să eliminăm o porţiune importantă din abscisă pentru a avea scări de reprezentare identice pe orizontală (abscisă) şi pe verticală (ordonată), astfel încât graficul să rămânână intuitiv.

Din cele spuse aici, ne vom reaminti, desigur, că abscisa este axa Ox şi aici reprezintă timpul în ani calendaristici obişnuiţi, iar ordonata este axa Oy şi aici reprezintă înălţimea copacului în metri.

Tema pe care ne-o propunem este de a găsi o funcţie y = f ( x ), unde x este anul calendaristic, iar y este înălţimea copacului în metri, care să exprime corelaţia dintre cele două mărimi.

Rezolvare

În primul rând, ne dăm seama că funcţia căutată este o funcţie de o singură variabilă.

În al doilea rând, simţim că funcţia va avea un domeniu limitat de valabilitate. Orice am face noi, copacul nu ar fi putut să existe înainte de anul 1900, să zicem, şi nici nu ar putea să mai fie în viaţă prin anul 3000 deşi, mai ştii? Dacă ne gândim mai bine, tot intuiţia ne face să nu ne hazardăm şi să extrapolăm prea mult limitele de valabilitate ale funcţiei, de exemplu nu mai mult de un an-doi, după anul 2009. În schimb, am putea să dorim ca funcţia să aibă consistenţă între anii 2000 şi 2009, adică să putem răspunde suficient de exact pe baza acestei funcţii la întrebarea: ce înălţime avea copacul la 1 iulie 2007 (adică la jumătatea anului 2007)?

Primul lucru la care trebuie să ne gândim într-o astfel de problemă este forma funcţiei. O funcţie poate fi liniară sau neliniară.

Regresie liniară

O funcţie liniară de o singură variabilă este unică şi anume, are forma y = a * x + b, unde a şi b sunt doi coeficienţi ale căror valori urmează să fie aflate prin înseşi aceste metode de deducţie regresională.

În terminologia curentă spunem că:

a = panta dreptei (adică tangenta trigonometrică a unghiului făcut de dreaptă cu direcţia pozitivă a axei Ox)

b = ordonata la origine (adică altitudinea punctului în care dreapta întâlneşte axa Oy)

Punând în axe unităţile noastre, vedeţi corespondentele grafice în figura de mai jos.

Fişier:025 Regresie grafic.jpg

În problema noastră, coeficienţii a şi b sunt necunoscutele, nu-i aşa?

Dacă ar fi să procedăm direct şi salutar, am trage o linie cât mai apropiată de toate punctele, cum ar fi linia groasă înclinată din imaginea de mai jos:

Fişier:03 Regresie grafic.jpg

Privind la această dreaptă, putem face câteva aproximaţii. Astfel, putem spune că unghiul făcut de ea cu direcţia pozitivă a axei Ox este mai mic de 45°. Tangenta trigonometrică a acestui unghi este mai mică decât 1, adică vreo 0,8. Ca urmare, vom zice că a = 0,8. Mai departe, închipuindu-ne cam cât de jos ar întâlni dreapta noastră axa Oy, cu luarea în considerare a tangentei trigonometrice de 0,8, apreciem că ar fi cam pe la -1600, nu-i aşa? Trebuie să refaceţi în minte pauza eliminată de pe abscisă. Aşadar, vom spune că b = - 1600.

De aici, putem să zicem că funcţia căutată ar fi:

y = 0,8*x-1600\,

Totuşi, asta nu e Matematică... Aici am tras la nimereală o dreaptă înclinată şi am făcut nişte aproximaţii rudimentare asupra valorilor coeficienţilor a şi b, aproximaţii care aduc mai mult cu nişte speculaţii, să nu ne amăgim... Matematică adevărată este atunci când, pas cu pas, deducem rezultate justificate şi repetabile. Dacă am proceda ca mai sus, cineva ar trage o linie mai sus, altcineva mai jos sau mai puţin înclinată şi fiecare ar avea dreptate! Nu putem accepta aşa ceva...

Pentru a proceda corect vom aplica un raţionament simplu. Fiţi atenţi!

Dreapta căutată ar înlocui "curba" trasată de noi în graficul iniţial. Pe fiecare verticală care trece prin câte un an (2000, 2001 etc.) există câte o intersecţie a "curbei" şi a dreptei. Să zicem că dreapta întâlneşte o verticală în punctul de altitudine notată cu Y, iar "curba" într-un punct cu altitudinea y(x) luată din tabel. Dorim ca diferenţa Y - y (x) să fie cât mai mică, nu-i aşa?

Nenorocirea este că nu ştim - şi nici nu putem şti vreodată - care punct este mai sus şi care mai jos, astfel încât nu putem face nici o previziune asupra semnului diferenţei Y - y (x). În schimb, avantajul este că nu ne interesează valoarea cu semn a diferenţei, ci dorim numai ca valoarea ei absolută să fie cât mai mică! După cum ştim, valoarea absolută a unui număr algebric (cu semn) este rădăcina pătrată luată cu plus din pătratul numărului - în felul acesta numărul îşi pierde semnul! Spunem "luată cu plus", fiindcă rădăcina pătrată dintr-un număr algebric (pozitiv) este reprezentată de o valoare duală, considerată cu semnul ±. De exemplu,

 \sqrt 4 = \pm\; 2 \

Întrebarea care urmează logic este: care dintre aceste diferenţe ne interesează, din moment ce pe fiecare verticală anuală avem câte una? Păi am vrea ca ansamblul lor să fie minim! Bravo, aşa este, dar cum exprimăm matematic treaba asta, pe care deocamdată doar o simţim?

Răspunsul este mai simplu decât credem: în loc să luăm una sau alta dintre diferenţe, luăm suma lor!

Ca să ne aducem aminte din liceu, să vedem cum notăm o sumă. Dacă vă uitaţi la primul tabel, vedeţi că acesta are 10 valori (de la 2000 la 2009). Astfel,

x_1 = 2000,\ x_2 = 2001,\ ... ,\ x_{10}= 2009\,

y(x_1) = 1,6,\ y(x_2) = 2,3,\ ...,\ y(x_{10}) = 9,4\,

Prima diferenţă ar fi (Y1 - y(x1)), a doua ar fi (Y2 - y(x2)) etc.

Suma diferenţelor ar fi (Y1 - y(x1)) + (Y2 - y(x2)) + ... + (Y10 - y(x10))

Ei bine, pentru simplificare, acest lucru se scrie aşa:

\sum_{i=1}^{10} (Y_i - y(x_i))

şi se citeşte: "sumă pentru i egal cu 1 la 10 din Yi minus y de xi", scuzaţi... Desfăşurarea sumei înseamnă înlocuirea lui i cu 1, 2, ... 10 în fiecare termen, cu aplicarea semnului + între termeni (fiindcă este o sumă), astfel încât se ajunge la exprimarea explicită anterioară. Odată ce vă obişnuiţi cu scrierea prescurtată, nici nu mai aveţi nevoie de cea desfăşurată, veţi vedea. O precizare necesară este aceea că valoarea limită "10" este utilă strict numai în cazul de faţă. În cazul general, această valoare este "n", urmând a primi valori după situaţia particulară discutată. Aşadar, în continuare vom scrie "n" în loc de "10".

OK, dar pe noi ne interesează suma diferenţelor absolute. Iată cum arată această sumă:

\sum_{i=1}^n \sqrt{(Y_i - y(x_i))^2}\

Mai mult de atât (de fapt, mai puţin de atât), din moment ce dorim să minimizăm această sumă, nici nu mai avem nevoie să extragem radical din ea, nu-i aşa? Ca urmare, ne concentrăm pe minimizarea sumei:

\sum_{i=1}^n {(Y_i - y(x_i))^2}

Reţineţi că Yi sunt valorile calculate ale funcţiei liniare y = a * x + b, în timp ce y(xi) sunt valorile din tabel ale înălţimii copacului. Să mai spunem, în treacăt, că problematica minimizării sumei pătratelor prezentată mai sus reprezintă, de fapt, ceea ce în Matematici poartă numele de "METODA CELOR MAI MICI PĂTRATE".

Înlocuind valorile lui Y obţinem:

\sum_{i=1}^n {(a * x_i + b - y(x_i))^2}

Dorim ca această sumă (notată cu S) să fie minimă, adică:

S \rightarrow Minim

Din liceu ştim că, atunci când auzim de minimizare ne gândim la derivată -- mai exact la anularea derivatei. Din ecuaţia de anulare aflăm care este valoarea lui x. Pentru acel x, valoarea funcţiei este minimă (sau maximă, după caz). Sub formă matematică scriem această ecuaţie astfel:

\frac {dS}{dx} = 0

Recunoaştem aici raportul diferenţialelor funcţiei S, pe de o parte, şi a variabilei x, pe de altă parte. Aşa este, numai că în cazul de faţă funcţia este suma S, iar necunoscutele sunt două, şi anume coeficienţii a şi b. Altfel spus:

S = S(a,b)

Aşa o funcţie nu mai poate fi optimizată cu cunoştinţele de liceu, dar nu e mare lucru să înţelegem cum trebuie făcut. Pe scurt, trebuie să derivăm această funcţie separat, în raport cu fiecare dintre cele două variabile. Astfel de derivate se numesc derivate parţiale. Din cauză că variabilele sunt diferite, diferenţialele se notează cu "d rond" în loc de "d drept", adică

\partial x

în loc de dx. Practic, cele două ecuaţii cu derivate parţiale arată aşa:

\frac {\partial S}{\partial a}=0; \frac {\partial S}{\partial b}=0

Să vedem acum ce înseamnă să derivăm "parţial". Înseamnă nici mai mult nici mai puţin că la derivare vom avea în vedere variabila de la numitorul fracţiei. Din liceu ştim că x\prime =1 şi că

(x^2)\prime=2*x

nu-i aşa? Aici am avut în vedere variabila x, dar mai departe vom avea în vedere variabilele a şi b. În aceste condiţii, ecuaţiile arată astfel:

\frac {\partial ({\sum_{i=1}^n {(a * x_i + b - y(x_i)))^2}}}{\partial a}=0

\frac {\partial ({\sum_{i=1}^n {(a * x_i + b - y(x_i)))^2}}}{\partial b}=0

Aplicând efectiv derivatele obţinem:

2*\sum_{i=1}^n {(a * x_i + b - y(x_i))*x_i}=0

2*\sum_{i=1}^n {(a * x_i + b - y(x_i))}=0

Nu uitaţi că am derivat în raport cu a şi b, nu în raport cu x. Mai departe, din moment ce egalăm cu zero fiecare ecuaţie, înseamnă că factorul 2 din faţă nu contează. Ca urmare, am rămas cu sistemul de ecuaţii:

\begin{cases}\sum_{i=1}^n {(a * x_i + b - y(x_i))*x_i}=0\\
\sum_{i=1}^n {(a * x_i + b - y(x_i))}=0\end{cases}

Aici avem sume de sume algebrice, deci putem desface liniştiţi parantezele:

\begin{cases}a*\sum_{i=1}^n {x_i^2} + b*\sum_{i=1}^n{x_i} - \sum_{i=1}^n{y(x_i)*x_i}=0\\
a*\sum_{i=1}^n { x_i} + n*b - \sum_{i=1}^n {y(x_i)}=0\end{cases}

Dacă vă întrebaţi cum de suma de la 1 la n din b face n*b, gândiţi-vă că, de fapt, adunaţi b de atâtea ori de câte ori vă spune variaţia indicelui i, adică de n ori, deci rezultatul este "de n ori b".

Mergem mai departe? Sistemul de ecuaţii mai poate fi scris şi aşa:

\begin{cases}a*\sum_{i=1}^n {x_i^2} + b*\sum_{i=1}^n{x_i} = \sum_{i=1}^n{y(x_i)*x_i}\\
a*\sum_{i=1}^n { x_i} + n*b = \sum_{i=1}^n {y(x_i)}\end{cases}

Trebuie să rezolvăm acest sistem de ecuaţii în care, aşa cum spuneam mai devreme, variabilele sunt a şi b. Pentru a fi mai simplu, haideţi să introducem patru notaţii:

S_x = \sum_{i=1}^n { x_i}\ \; S_y = \sum_{i=1}^n {y(x_i)}\ \; S_{x^2} = \sum_{i=1}^n {x_i^2}\ \; S_{xy} = \sum_{i=1}^n{y(x_i)*x_i}

Ca efect, sistemul va arăta aşa:

\begin{cases}a*S_{x^2} + b*S_x = S_{xy}\\ a*S_x + n*b = S_y\end{cases}

Trecem la rezolvarea sistemului. Mai întâi, extragem necunoscuta b din a doua ecuaţie:

b = \frac {S_y-a*S_x}n

apoi o înlocuim în prima, după care mai facem câteva socoteli (faceţi-le!) şi ajungem la soluţiile remarcabile:

a=\frac{n*S_{xy} - S_x*S_y}{n*S_{x^2}-{S_x}^2}

b=\frac{S_{x^2}*S_y - S_x*S_{xy}}{n*S_{x^2}-{S_x}^2}

O să ziceţi: bravo, foarte bine, şi ce facem acum cu aceste soluţii, fie ele şi remarcabile? Tot ce avem de făcut este să calculăm valorile efective ale coeficienţilor a şi b. Pentru asta dispunem de o unealtă nepreţuită: calculul tabelar! Fie că face parte din Microsoft Office (adică Excel), fie din Open Office (programul Calc), un astfel de program ne permite să calculăm "en gros" toate valorile deodată. Oricum, toate sunt derivate din venerabilul "Lotus 123", vă mai amintiţi? Vrem să credem că aveţi o minimă uşurinţă în utilizarea unui program de calcul tabelar. Aveţi aici tabelul iniţial, completat cu nişte coloane foarte interesante:

Fişier:04 Regresie tabel.jpg

Vedeţi aici atât valorile pătratelor lui x, cât şi produsele xy (în dreapta), iar jos sunt sumele fiecărei coloane, adică exact mărimile care ne interesează. Sumele sunt, în ordine:

S_x \ S_y \ S_{x^2} \ S_{xy}

Atunci putem calcula necunoscutele a şi b, folosind tot programul de calcul tabelar:

a=\frac{10*106511,80 - 20045*53}{10*40180285-20045^2} = 0,883030303

b=\frac{40180285*53 - 20045*106511,80}{10*40180285-20045^2} = -1764,724242

Înseamnă că, pentru cazul studiat, formula de calcul este:

y = 0,883030303*x-1764,724242\,

Puteţi compara singuri această funcţie cu cea găsită intuitiv:

y = 0,8*x-1600\,

Se apropie întrucâtva, e drept, dar abia acum avem certitudinea că este corect. Să punem valorile funcţiei corecte într-o coloană la tabel (y calc), iar alături să mai adăugăm una cu diferenţele faţă de valorile măsurate, atât în valoare absolută, cât şi procentuală:

Fişier:05 Regresie tabel.jpg

Oricine poate să vadă că ne-am atins scopul: diferenţele sunt minime, iar suma diferenţelor este nulă! Dacă eliminăm cea mai mare şi cea mai mică diferenţă (ca la gimnastică), rezultă că cea mai mare diferenţă are valoarea de 4,88%, ceea ce este rezonabil.

Regresie pseudo - neliniară

Trecem la regresia neliniară. În acest caz ne putem propune ca forma funcţiei să fie de trei feluri:

  • Exponenţială:
Y=b*e^{a*x}\,
  • Putere:
Y=b*x^a\,
  • Logaritmică:
Y=a*\ln x+b\,

Deşi sunt neliniare, primele două funcţii pot fi liniarizate prin logaritmare. Alegem să aplicăm logaritmul în baza e, adică ln (logaritm natural). În acest fel primele două ecuaţii devin:

  • Exponenţială:
\ln Y=a*x+\ln b\,
  • Putere:
\ln Y=a*\ln x + \ln b\,

Cea de-a treia funcţie este deja liniară, o să vedem imediat.

Acuma, un elev de liceu bine pregătit la matematici o să spună că o funcţie care conţine logaritmi nu este liniară. Un elev de liceu şi mai bine pregătit i-ar răspunde că, dacă s-ar uita mai bine, ar vedea că lnY sau lnx sunt simple notaţii. Pot fi luate ca atare, gata calculate. Altfel spus, nu are nici o importanţă dacă vorbim despre valoarea "2007" a lui x, sau vorbim despre valoarea "7.604396349", care este logaritm natural din 2007. Probabil că din acest motiv şi titlul este "pseudo-neliniare" în loc de "neliniare"! Aha! Păi atunci, haideţi să întroducem chiar noi următoarele notaţii:

  • Y_{ln}=\ln Y\,
  • x_{ln}=\ln x\,
  • b_{ln}=\ln b\,

Aplicând aceste notaţii, ajungem la următoarele ecuaţii:

  • Exponenţială:
Y_{ln}=a*x+b_{ln}\,
  • Putere:
Y_{ln}=a*x_{ln}+b_{ln}\,
  • Logaritmică:
Y=a*x_{ln}+b\,

Vai, dar fiecare dintre acestea seamănă izbitor cu funcţia liniară pe care am tratat-o ceva mai devreme! Din moment ce variabila este fie x fie xln, iar numele funcţiei este fie Y fie Yln, restul exprimă foarte clar o funcţie liniară de tipul cunoscut, nu-i aşa? Atunci să ne reamintim soluţiile (remarcabile) de mai devreme:

a=\frac{n*S_{xy} - S_x*S_y}{n*S_{x^2}-{S_x}^2}

b=\frac{S_{x^2}*S_y - S_x*S_{xy}}{n*S_{x^2}-{S_x}^2}

Aplicate pe cele trei cazuri, acestea devin:

  • Exponenţială:
a=\frac{n*S_{xyln} - S_x*S_{yln}}{n*S_{x^2}-{S_x}^2}
b_{ln}=\frac{S_{x^2}*S_{yln} - S_x*S_{xyln}}{n*S_{x^2}-{S_x}^2}
  • Putere:
a=\frac{n*S_{xlnyln} - S_{xln}*S_{yln}}{n*S_{xln^2}-{S_{xln}}^2}
b_{ln}=\frac{S_{xln^2}*S_{yln} - S_{xln}*S_{xlnyln}}{n*S_{xln^2}-{S_{xln}}^2}
  • Logaritmică:
a=\frac{n*S_{xlny} - S_{xln}*S_y}{n*S_{xln^2}-{S_{xln}}^2}
b=\frac{S_{xln^2}*S_y - S_{xln}*S_{xlny}}{n*S_{xln^2}-{S_{xln}}^2}

Păstrând exemplul cu copacul, să creăm tabelul cu datele necesare:

Fişier:06 Regresie tabel.jpg

Sperăm că, atât în formule cât şi în tabel, se înţelege cum este cu notaţiile: nu am pus indici la indici, aşa că acolo unde vedem xln, yln, bln, sau chiar xlnyln înţelegem că este vorba de, respectiv:

x_{ln}\,, y_{ln}\,, b_{ln}\,, x_{ln}y_{ln}\,

Cu aceste date, folosind tot sistemul de calcul tabelar, obţinem rezultatele următoare:

Fişier:07 Regresie tabel.jpg

Valorile a şi b au fost obţinute punând în celule formulele de mai sus. Tabelul înfăţişează valorile obţinute prin înlocuirea coeficienţilor a şi b în formule. Se înţelege că, în afara coloanelor n, x şi y, în celule sunt puse formulele care produc acele rezultate. Astfel, pentru funcţiile exponenţială şi putere, valoarea lui Y este dedusă din valoarea lui Yln (adică lnY) folosind formula:

Y=e^{\ln Y}\,

În final, să calculăm diferenţele procentuale care apar folosind cele trei variante de funcţii:

Fişier:08 Regresie tabel.jpg

Iată că, prin aceste frumoase metode, am ajuns să deţinem în proprietate nu mai puţin de PATRU funcţii, care dau valori apropiate de cele măsurate de noi:

  • Liniară:
Y = 0,883030303*x-1764,724242\, [i]
  • Exponenţială:
Y=e^{0.190422095*x-380.1696848}\, [ii]
  • Putere:
Y=e^{381.7435747*\ln x-2900.921837}\, [iii]
  • Logaritmică:
Y=1769.965898*\ln x-13452.00428\, [iv]

Nu-mi dau seama dacă înţelegeţi aceste cuvinte: în proprietate! Nimeni nu ne poate contesta că suntem autorii, adică "născătorii" acestor patru funcţii. Paternitatea lor ne aparţine! Înlocuiţi în fiecare dintre ele pe x cu anul dorit (între 2000 şi 2009) şi veţi obţine fie y (înălţimea copacului) fie lny. De exemplu, punând pentru x valoarea 2007,5 propusă la început, veţi obţine valorile:

  • Liniară:
Y = 7.959091273\, [v]
  • Exponenţială:
Y=8.18801019\, [vi]
  • Putere:
Y=8.18824683\, [vii]
  • Logaritmică:
Y=7.958825484\, [viii]

Mergem mai departe, sau v-aţi blocat, observând ce geniali sunteţi? Aţi creat nişte funcţii care descriu un fenomen! Puteţi spune simplu: iată, oameni buni, am aplicat nişte metode de Statistică Matematică (treaba-mea-de-unde-le-ştiu) şi aveţi aici funcţia care guvernează acest fenomen! EU SUNT AUTORUL EI!

Comparând valorile din tabel atât între ele, cât şi cu cele obţinute în cazul funcţiei liniare propriu-zise, ne putem întreba: oare nu există o măsură a fidelităţii, sau a adecvanţei uneia sau alteia dintre aceste funcţii în condiţiile particulare date? Ei bine, o astfel de măsură există şi se numeşte "Coeficient de corelaţie". Vom vorbi despre el imediat. Să vedem, mai întâi, cum s-ar pune problema în cazul regresiei neliniare adevărate.

Regresie neliniară

Regresia neliniară se bazează pe funcţii neliniare care nu pot fi liniarizate. Cele mai simple dintre ele sunt funcţiile polinomiale precum:

  • Gradul 2:
Y=a*x^2+b*x+c\,
  • Gradul 3:
Y=a*x^3+b*x^2+c*x+d\,

Pentru a determina valorile coeficienţilor a, b, c şi d ar trebui parcursă aceeaşi cale ca şi la regresia liniară, începând cu derivatele parţiale în raport cu fiecare dintre aceşti coeficienţi şi terminând cu rezolvarea sistemelor de ecuaţii care se formează. La gradul 2 sistemul va avea trei ecuaţii, iar la gradul 3 ar avea patru ecuaţii, nu-i aşa?

Ca elemente de certitudine, este limpede pentru oricine că graficul unei funcţii liniare este perfect definit prin două puncte, a uneia de gradul 2 prin 3 puncte, a uneia de gradul 3 prin 4 puncte ş.a.m.d. Daţi-mi patru puncte şi vă dau mintenaş funcţia:

Y=a*x^3+b*x^2+c*x+d\,

Cum procedez? Păi înlocuiesc x şi Y cu valorile (numerice ale) coordonatelor fiecărui punct, pe rând, şi obţin un sistem LINIAR de patru ecuaţii din care recuperez, ca soluţii, cele patru necunoscute: a, b, c, d. Nici măcar diplomă de bacalaureat nu trebuie să ai ca să rezolvi aşa un sistem simplu. Poţi să-l rezolvi şi cu un program de calcul tabelar.

Corelaţie

Coeficientul de corelaţie măsoară adecvanţa unei funcţii relativ la valorile reale studiate. Formula de calcul este:

r=\sqrt {1- \frac {\sum (y-Y)^2}{\sum (y - \bar y)^2}}\,

Se înţelege că aici y este y(x), adică ansamblul valorilor măsurate, iar Y sunt valorile calculate pentru fiecare x. Mai trebuie precizat că \bar y este media valorilor y(x) măsurate. Calculând acest coeficient (r) pentru fiecare dintre variantele de funcţii luate în considerare (adică cele date în relaţiile [i], [ii], [iii], [iv]) obţinem câte o valoare apropiată de 1. Funcţia cea mai adecvată este cea cu valoarea r cea mai apropiată de 1.

În buna noastră tradiţie, bazată pe calcul tabelar, haideţi să creăm fiecare dintre mărimile prezente în formulă.

Fişier:10 Regresie tabel.jpg

Se vede că au fost întocmite patru tabele, câte unul pentru fiecare variantă de funcţie de regresie [i], [ii], [iii], [iv]. Ultima coloană a fiecărui tabel conţine valoarea calculată a lui r. Urmare celor spuse mai sus, observaţi că funcţiile liniară şi logaritmică au valori ale lui lui r sensibile apropiate, dar mai aproape de 1 decât celelalte. Asta ne face să spunem că - strict pentru valorile luate iniţial în considerare - funcţiile liniară [i] şi logaritmică [iv] sunt cele mai adecvate!

Concluzii

Ca să încheiem apoteotic, haideţi să facem reprezentarea grafică a celor patru funcţii găsite, împreună cu datele iniţiale (adică valorile măsurate), şi să interpretăm rezultatele...

Fişier:12 Regresie grafic.jpg

Este evident faptul că funcţiile exponenţială şi putere sunt, pe de o parte, aproape suprapuse (comparaţi şi cu valorile din tabel), la fel ca şi funcţiile liniară şi logaritmică, pe de altă parte. De asemenea, se observă că aceste funcţii din urmă sunt - per total - mult mai apropiate de valorile măsurate (reprezentate cu negru) decât celelalte.