Derivata

De la Capisci

Salt la: navigare, căutare

Derivata unei funcţii este viteza cu care se modifică valoarea funcţiei. Mă rog, nu e o definiţie tocmai academică, însă pentru omul de rând cam asta înseamnă. Însă şi ce dacă? Şi cum reuşeşte derivata să facă asta? Hai să vedem.

Cuprins

Soluţia unei probleme simple

Derivata este răspunsul la o întrebare care poate fi formulată simplu: care este viteza de variaţie a unei funcţii? Derivata trebuie prin urmare să poată varia, la rândul ei, deci şi ea trebuie să fie tot o funcţie. Operaţiunea prin care se calculează derivata unei funcţii este derivarea. Această operaţiune este un algoritm, o metodologie; în această secţiune vom încerca să investigăm împreună problema, câteva soluţii posibile, iar la final soluţia corectă a procesului de derivare.

O problemă simplistă

Imaginaţi-vă că ştiţi în ce fel evoluează poziţia unui tren în timp ce acesta parcurge primii 100 km de la pornire. Folosind această informaţie, doriţi să aflaţi viteza trenului în fiecare punct. Să spunem că aveţi următoarele valori:

Poziţie (metri) Timp (secunde)
0 0
10 1
20 2
30 3
100.000 10.000

Minunat, viteza este constantă: 10 m/s, adică 36 km/h. Este o problemă simplă şi curată – dar nu are niciun fel de aplicabilitate în viaţa reală. Nici cea mai performantă maşină de curse nu poate să meargă cu viteză constantă de pe loc (atâta timp cât viteza nu este apropiată de zero). În realitate, viteza nu este practic niciodată constantă – sau, altfel spus, poziţia nu variază aproape niciodată liniar cu timpul.

O problemă mai realistă

Bun, dar dacă poziţia nu variază constant cu timpul, atunci cum anume variază? De fapt, nu prea mai contează: dacă nu variază liniar, suntem în belea, fiindcă nu mai este la fel de simplu să determinăm viteza pe baza poziţiei şi timpului. Hai să analizăm o funcţie relativ simplă, doar ca să ne facem o idee:[1]

p(t) = t2 + t + 1
unde p este poziţia (în cazul nostru, o funcţie care depinde de timp), iar t este timpul.

În limbaj matematic se foloseşte mai frecvent notaţia convenţională

f(x) = x2 + x + 1
unde f este funcţia pe care vrem să o analizăm, iar x este parametrul variabil.

Ei bine, care este „viteza” acestei funcţii? Hai să luăm câteva puncte de pe această funcţie ca să analizăm empiric situaţia:

Timp (x) Poziţie (f(x))
0 1 (0²+0+1)
1 3 (1²+1+1)
2 7 (2²+2+1)
3 13 (3²+3+1)
4 21 (4²+4+1)

În regulă, acum hai să vedem care a fost viteza medie între momentul 0 şi momentul 1:

v_{0,1}=\cfrac{f(x_1)-f(x_0)}{x_1-x_0}=\cfrac{3-1}{1-0}=\cfrac 2 1=2

Acum hai să ne uităm la secunda următoare:

v_{1,2}=\cfrac{f(x_2)-f(x_1)}{x_2-x_1}=\cfrac{7-3}{2-1}=\cfrac 4 1=4

Şi următoarea?

v_{2,3}=\cfrac{f(x_3)-f(x_2)}{x_3-x_2}=\cfrac{13-7}{3-2}=\cfrac 6 1=6

Şi mai departe?

v_{3,4}=\cfrac{f(x_4)-f(x_3)}{x_4-x_3}=\cfrac{21-13}{4-3}=\cfrac 8 1=8

Hmmm... interesant! Observăm câteva chestii interesante, mai ales prin comparaţie cu situaţia precedentă:

  • În situaţia precedentă, poziţia evolua liniar cu timpul, iar viteza era constantă;
  • Acum, poziţia evoluează pătratic cu timpul, iar viteza creşte liniar.

Evident, am ajuns la ambele concluzii de deasupra pe baza unor observaţii empirice – nu am demonstrat nimic, doar am constatat că lucrurile par să evolueze aşa pe baza unor observaţii. Avem câteva obstacole majore în calea unei demonstraţii matematice:

  1. Pentru cele două funcţii pe care le-am analizat, ne-am uitat la numai câteva puncte individuale – nu putem şti cu siguranţă ce se întâmplă cu restul funcţiei până la infinit (e.g. pentru x=300.000.000);
  2. Din acelaşi motiv, nu putem şti cu siguranţă ce se întâmplă cu funcţia între punctele pe care le-am analizat (e.g. pentru x=0,000001);
  3. În plus, nu avem niciun motiv să credem că alte funcţii similare se vor comporta la fel (e.g. f(x)=2x²+x+1, sau f(x)=x²+2x+1, sau f(x)=x²+x+2, sau orice altă funcţie de aceeaşi formă dar cu parametri diferiţi).

Prin urmare, singura afirmaţie certă pe care o putem face la acest moment este următoarea: „nu este imposibil ca viteza de variaţie a funcţiei f(x)=x²+x+1 să fie liniară”. Nu putem spune nimic despre cazul general al funcţiilor pătratice şi nici măcar în privinţa acestei funcţii în particular nu putem spune nimic sigur. Ba mai rău, am putea petrece o viaţă calculând valori individuale ale acestei funcţii anume şi tot n-am demonstra nimic în plus: doar atât, că nu este imposibil să varieze liniar.

În căutarea unei soluţii

Aşadar, pentru a avansa avem nevoie de o unealtă matematică în stare să satisfacă următoarele criterii:

  1. Trebuie să fie valabilă pentru orice punct (de la -∞ până la +∞);
  2. Trebuie să fie matematic exactă în orice punct (în aşa fel încât să nu depindem de distanţa dintre punctele măsurate);
  3. Trebuie să fie aplicabilă oricărei funcţii matematice (deci nu vorbim de soluţia unei probleme anume, ci despre o metodologie aplicabilă oricărei probleme de acest fel).

Această unealtă este derivata.

Pentru moment, nu stăm prea bine, dar nici foarte rău: nu ştim cum să rezolvăm problema, dar am reuşit măcar să o definim riguros; este un prim pas crucial. Hai să începem cu ceea ce ştim.

În primul rând, hai să convenim că vom nota funcţia care defineşte viteza de variaţie a funcţiei f(x) cu f'(x).[2] Ei bine, din experienţele noastre empirice am putea presupune că forma acestei funcţii derivate ar trebui să fie ceva de genul

f'(x)=\cfrac{f(x+b)-f(x+a)}{b-a}
unde a şi b sunt valori oarecare, iar b>a.

Totuşi e absurd să adăugăm valori arbitrare lui x în termenul din dreapta – vrem să aflăm viteza de variaţie a funcţiei chiar la poziţia x, nu la poziţia x+a sau x+b. Deci formula noastră este greşită pentru că termenul din dreapta este decalat faţă de x (în termenul din stânga) cu valoarea pe care am adăugat-o anapoda la x. Însă putem ajusta formula greşită de deasupra, folosind o singură constantă c şi comparând poziţia de la momentul x+c chiar cu poziţia de la momentul x:

f'(x)=\cfrac{f(x+c)-f(x)}c

Ei bine, nu stăm deloc rău: deja satisfacem punctele (1) şi (3) din criteriile de mai sus. Ne-a rămas doar criteriul (2). Pentru a-l satisface şi pe acesta, trebuie ca distanţa dintre cele două puncte la care facem măsurătoarea să fie foarte, foarte mică. Sau, în formula noastră, constanta c trebuie să fie foarte mică. În analizele noastre empirice de mai sus, am ales c=1 (fiindcă măsuram poziţia din secundă în secundă). Prin urmare obţineam valoarea medie a vitezei pentru fiecare secundă. Însă nouă ne trebuie o funcţie care să ne spună valoarea instantanee a vitezei la orice moment, nu valoarea medie dintre două momente de timp.

Prin urmare vrem să folosim o valoare c mai mică. Cât de mică? 0,1 e bine? Nu, pentru că vom obţine valoarea medie pe o perioadă de o zecime de secundă. 0,01? Tot nu e bine, obţinem valoarea medie pe câte o sutime de secundă. Orice valoare predeterminată am folosi, oricâte zerouri am scrie, tot vom obţine o medie pe acea mică perioadă de timp. În regulă atunci, dacă vrem să-l anulăm pe c de tot, hai să folosim zero curat:

f'(x)=\cfrac{f(x+0)-f(x)}0=\cfrac{f(x)-f(x)}0=\cfrac 0 0

Hmm, nu arată bine deloc. Am obţinut o aiureală care nu foloseşte la nimic. Nu numai că formula rezultată nu are sens, dar am pierdut toată informaţia despre funcţia noastă f(x) – cu formula pe care am inventat-o aici, ar părea că viteza poate avea orice valoare pentru orice fel de mişcare.

Constanta noastră trebuie deci să aibă o valoare care să satisfacă simultan două condiţii care se bat cap în cap:

  1. trebuie să fie cea mai mică valoare pozitivă posibilă;
  2. trebuie să nu fie zero.

Soluţia

Aici intervine geniul lui Leibnitz[3]: el a acceptat că valoarea „corectă” a lui c nu poate fi predeterminată; nici nu poate fi scrisă pe hârtie, nici calculată. Dar o putem nota cumva convenţional, fără să ne batem prea tare capul cu ea. Practic pasul uriaş al lui Leibnitz a fost pur şi simplu un salt peste problema valorii lui c. Pur şi simplu a decis să nu-şi bată capul cu valoarea lui c şi să meargă cu calculele mai departe, ca şi cum valoarea „corectă” a lui c ar fi deja cunoscută.

Leibnitz a spus ceva de genul următor: avem nevoie de o variaţie a lui x care să fie cea mai mică valoare pozitivă posibilă, dar care să nu fie zero? Foarte bine, vom nota această variaţie a lui x cu dx. Nu mă interesează să ştiu ce valoare exactă are dx – ştiu doar că aceasta este valoarea care satisface condiţiile pe care doresc să le satisfacă. În plus, dat fiind că dx nu este zero (prin definiţie), înseamnă că toate operaţiile matematice sunt posibile fără probleme: împărţiri, înmulţiri, ridicări la putere – pot să fac orice vreau cu dx şi nu are nimeni ce să-mi reproşeze.

Aşadar formula noastră finală şi corectă pentru derivata funcţiei f(x) devine:[4]

f'(x)=\cfrac{f(x+dx)-f(x)}{dx}

Hai să vedem ce se întămplă pentru funcţia pe care am analizat-o mai sus:

f(x) = x2 + x + 1

Pentru aceasta,


\begin{align}
f'(x) & =\cfrac{f(x+dx)-f(x)}{dx}=\\
& = \cfrac{((x+dx)^2+(x+dx)+1)-(x^2+x+1)}{dx}=\\
& = \cfrac{(x^2+2 \cdot x \cdot dx+dx^2+x+dx+1)-(x^2+x+1)}{dx}=\\
& = \cfrac{x^2+2 \cdot x \cdot dx+dx^2+x+dx+1-x^2-x-1}{dx}=\\
& = \cfrac{2 \cdot x \cdot dx+dx^2+dx}{dx}=\\
& = 2 \cdot x + dx + 1
\end{align}

Ei bine, abia acum, după ce am făcut toate calculele, putem în sfârşit să ne aducem aminte că valoarea lui dx a fost aleasă în mod deliberat atât de mică încât este de fapt neglijabilă. Prin urmare, o anulăm[5] fără nicio remuşcare în forma finală a funcţiei derivate:

f'(x) = 2x + 1

Dacă veţi avea acum curiozitatea să comparaţi valorile rezultate de aici cu cele pe care le-am determinat empiric mai sus, veţi avea o mică surpriză. Valorile pe care le-am determinat empiric erau numerele pare (2, 4, 6, 8), pe când derivata pe care am calculat-o aici este însăşi definiţia numerelor impare (2x+1). De ce oare?[6]

Utilizări

O funcţie polinomială de gradul patru f(x), funcţia derivată g(x) şi a doua funcţie derivată h(x).
Discurile sunt punctele în care diversele funcţii intersectează axa Ox (au valoare nulă);
Săgeţile indică punctele statice corespunzătoare;
Crucile roşii indică celelalte puncte critice (aici, puncte de inflexiune).

Am spus în secţiunile anterioare că derivata unei funcţii este viteza de variaţie a funcţiei. A fost o definiţie bună la nivel intuitiv, dar este inexactă. Viteză faţă de ce anume? Măsurată în ce? O definiţie mai riguroasă ar fi că derivata este rata de variaţie a valorii unei funcţii în raport cu argumentul funcţiei. Însă rata de variaţie pe verticală a unei curbe (adică a valorii unei funcţii) în raport cu rata de variaţie pe orizontală (adică a argumentului unei funcţii) este exact panta curbei în acel punct.

Panta variază în felul următor:

  • -∞: oricât de puţin ne-am mişca pe orizontală, avem o variaţie infinită în jos pe verticală; deci curba este îndreptată direct în jos;
  • valori negative: cu cât ne ducem mai la dreapta, cu atât curba coboară mai mult; curba este îndreptată oblic în jos;
  • 0: oricât ne-am mişca pe orizontală, curba nu-şi variază altitudinea; curba este orizontală;
  • valori pozitive: curba este îndreptată oblic în sus;
  • +∞: curba este îndreptată direct în sus.

Prin urmare, dacă putem calcula derivata unei funcţii, atunci putem afla foarte uşor punctele în care funcţia însăşi are un plafon (adică panta este zero, deci valoarea derivatei este nulă). Nu avem de făcut decât să rezolvăm ecuaţia

f'(x) = 0

Observaţi că, prin natura felului în care am construit derivata, argumentul este exact acelaşi atât pentru funcţia originală cât şi pentru derivata ei. Nu este nevoie să-l transformăm pe x în niciun fel atunci când îl folosim aici sau dincolo: e acelaşi x. Prin urmare, odată ce aflăm soluţiile ecuaţiei de deasupra, exact acele soluţii sunt în mod garantat valorile la care f(x) atinge un plafon sau altul. Aceste puncte sunt atât puncte staţionare cât şi puncte critice ale funcţiei[7] şi sunt interesante deoarece fiecare dintre ele este un minim sau un maxim local al funcţiei (lucru evident, de altfel – în imediata vecinătate a unui platou nu pot fi decât altitudini mai mici decât altitudinea platoului, iar în apropierea unei crevase nu pot fi decât altitudini mai mari).

Dar şi mai simpatic, nimic nu ne opreşte să derivăm însăşi derivata funcţiei! Obţinem astfel a doua derivată, notată f''(x). Dacă derivata era rata de variaţie a funcţiei, a doua derivată este rata de variaţie a variaţiei funcţiei. Adică, revenind la terminologia mai intuitivă din secţiunile anterioare, a doua derivată este viteza de variaţie a vitezei. Adică acceleraţia! Ei bine, dacă vă uitaţi pe graficul celei de-a doua derivate a unei funcţii suficient de interesante (precum cea din dreapta), veţi constata că semnul celei de-a doua derivate dă convexitatea funcţiei. Deci semnul celei de-a doua derivate se schimbă atunci când convexitatea funcţiei se schimbă. Prin urmare, punctele în care convexitatea se schimbă sunt în mod necesar puncte în care cea de-a doua derivată este nulă. Punctele în care se schimbă convexitatea unei funcţii sunt punctele de inflexiune ale funcţiei respective. Pare tentant să concluzionăm că punctele în care a doua derivată este nulă sunt punctele de inflexiune ale funcţiei – dar aceasta ar fi o generalizare greşită[8], aşa după cum demonstrează punctul de la x=0 al funcţiei f(x)=x4 (punct în care atât funcţia cât şi toate derivatele ei sunt nule, însă funcţia însăşi nu are niciun punct de inflexiune).

Mai mult decât atât, ştim că tangenta la o curbă într-un punct trebuie în mod necesar să aibă aceeaşi pantă ca şi curba (altfel „tangenta” respectivă ar fi şuie faţă de orientarea locală a curbei din acel punct). Pe de altă parte, am menţionat mai sus faptul că argumentul x al funcţiei este exact acelaşi argument x al derivatei. Prin urmare avem un punct (y=f(x)) şi o pantă (f'(x)) – deci avem un punct şi un unghi, tot ce ne trebuie ca să determinăm o dreaptă: tangenta funcţiei originale este perfect determinabilă dacă îi cunoaştem derivata.

Note

  1. Evident, funcţia pe care o folosim aici nu are nicio legătură cu viteza unui vehicul – funcţia de aici „accelerează” din ce în ce mai tare; un vehicul se comportă taman pe dos.
  2. În paranteză fie spus, dacă istoria ar fi arătat altfel, probabil că am fi notat derivata altfel. Această notaţie nu înseamnă absolut nimic altceva decât o convenţie.
  3. Metoda descrisă aici a fost dezvoltată în paralel, dar într-o formă mai greoaie, şi de către Newton. Totuşi, spre deosebire de Newton, Leibnitz a reuşit să rezolve problema de o manieră riguros corectă din punct de vedere matematic; metoda lui Newton funcţiona la fel de bine, însă avea baze teoretice mai şubrede. Din acest motiv, notaţia convenţională folosită în prezent este cea a lui Leibnitz
  4. Dacă vă creează disconfort ideea lui Leibnitz de a folosi acel dx magic doar pe baza unei definiţii de care aveam nevoie (ceea ce sună suspect de convenabil), putem experimenta cu o abordare încă şi mai riguroasă, numai ca să verificăm dacă nu cumva obţinem rezultate diferite. Dilema noastră dinainte de a afla soluţia lui Leibnitz era să determinăm o valoare suficient de mică pentru constanta c. Ce-ar fi să înlocuim constanta noastră c cu o variabilă – să zicem ε? Avantajul înlocuirii constantei cu o variabilă este că aceasta din urmă nu mai trebuie să aibă o valoare predeterminată – putem să ne jucăm cu acest ε după cum dorim. Aşadar, am avea formula practic identică
    \cfrac{f(x+\varepsilon)-f(x)}\varepsilon
    Diferenţa de notaţie este nesemnificativă, însă abordarea este radical diferită: acum pur şi simplu nu ne mai interesează ce valoare anume are ε. E mic, e mare, e „bine ales”, e „o valoare convenabilă” sau „suficient de mic”? Pur şi simplu nu mai contează: e variabila ε – nu-mi mai pasă dacă valoarea ei e 1 sau 1.000.000 sau 0,0000001. Pentru a obţine funcţia derivată trebuie numai să impun condiţiile cunoscute unei variabile cunoscute: ε trebuie să tindă către zero. Sau, în limbaj matematic:
    f'(x)=\lim_{\varepsilon\rightarrow 0}\cfrac{f(x+\varepsilon)-f(x)}\varepsilon
    Devine astfel evident că notaţia lui Leibnitz este diferită de notaţia riguros corectă din punct de vedere matematic numai prin... notaţie. Însă notaţia este, prin definiţie, numai o convenţie între oameni, deci cele două variante sunt în fapt echivalente: varianta lui Leibnitz chiar este riguros corectă. Prin urmare toată metodologia pe care am descris-o în articol folosind constanta „magică” dx este la fel de aplicabilă variabilei perfect rezonabile ε, fără nicio modificare: facem toate calculele folosind ε ca atare şi îi permitem lui ε să tindă către zero numai la final.
  5. Atenţie, o anulăm – adică o transformăm în zero – nu o eliminăm! Pentru puteri ale lui dx aflate la numărător nu e nicio diferenţă practică între anulare şi eliminare. Însă pentru cos(dx) de pildă, anularea lui dx produce cos(0), adică 1.
  6. Poate aţi scăpat din vedere faptul că toate calculele empirice au fost făcute pe intervale de o secundă: valorile pare pe care le-am obţinut erau valorile medii ale vitezei între secunda 0 şi secunda 1, între secunda 1 şi secunda 2 şi aşa mai departe. Prin urmare, ceea ce am determinat noi empiric erau valorile instantanee ale derivatei la momentele de la 0,5 secunde, 1,5 secunde, 2,5 secunde şi aşa mai departe. Pentru acele momente, obţinem aceleaşi valori şi cu funcţia derivată pe care am determinat-o ulterior.
  7. Punctele staţionare sunt punctele în care funcţia atinge un plafon, adică exact cele în care derivata este nulă. Punctele critice sunt punctele staţionare plus punctele de inflexiune (vezi continuarea articolului).
  8. Aceasta ar fi o eroare de logică de tipul dovezii prin exemplu; în cazul de faţă, am porni de la afirmaţia (corectă) toate punctele A sunt puncte B şi am generaliza (greşit) că toate punctele B sunt puncte A. Evident, în cazul nostru punctele A sunt punctele în care convexitatea se schimbă iar punctele B sunt cele în care a doua derivată este nulă.