Coeficiente de determinación
El coeficiente de determinación es la proporción de la varianza total de la variable explicada por la regresión. Es también denominado R cuadrado y sirve para reflejar la bondad del ajuste de un modelo a la variable que se pretende explicar.
El coeficiente de determinación puede adquirir resultados que oscilan entre 0 y 1. Así, cuando adquiere resultados más cercanos a 1, mayor resultará el ajuste del modelo a la variable que se pretende aplicar para el caso en concreto. Por el contrario, cuando adquiere resultados que se acercan al valor 0, menor será el ajuste del modelo a la variable que se pretende aplicar y, justo por eso, resultará dicho modelo menos fiable.
EL CÁLCULO Y LA FÓRMULA DEL COEFICIENTE DE DETERMINACIÓN
La fórmula del coeficiente de determinación es la siguiente:
Se trata de una fórmula de gran complejidad, por lo que lo mejor es ir por partes. En primer lugar, analizaremos el numerador, ya que la fórmula del coeficiente de determinación es una fracción. El numerador de esta fórmula es la expresión de la varianza, si bien existen dos diferencias de gran importancia. En primer lugar, la Y lleva un circunflejo, lo cual significa que la Y es la estimación de un modelo sobre lo que, de acuerdo con las variables aplicables al respecto, vale Y. Así, no se trata del valor real de Y, sino de una estimación del valor de Y. En segundo lugar, falta la división entre N (el número de observaciones en la fórmula a través de la cual se calcula la varianza).
Ahora analizaremos el denominador de la fracción que conforma la fórmula del coeficiente de determinación. En este caso, la única diferencia que existe respecto de la fórmula de la varianza es que no se aplica su denominador. Así, no hay una división entre N (número de observaciones).
INTERPRETACIÓN DE LOS RESULTADOS OBTENIDOS CON EL CÁLCULO DEL COEFICIENTE DE DETERMINACIÓN
Ya hemos dicho que el coeficiente de determinación adquiere unos valores que oscilan entre 0 y 1, pero ¿cómo se han de interpretar los resultados? ¿cómo se representarían en una gráfica? Vamos a ello.
Con un ejemplo estos términos se entienden mejor, por lo que vamos a poner uno. Supongamos que queremos analizar la cantidad de canasta que anota Pau Gasol según la cantidad de partidos de baloncesto en los que juega. Como resulta lógico, podemos suponer que cuántos más partidos juegue Pau Gasol, mayores será las canastas que anote. Si representáramos estos datos en una gráfica, su pendiente sería directa y ascendente, resultando, por tanto, una relación positiva. Así, cuántos más partidos Pau Gasol, más canastas anota. El ajuste, si tenemos en cuenta los datos se acercaría bastante al valor de 1, lo que quiere decir que se trata de un modelo cuyas estimaciones se ajustan de forma bastante correcta a la variable real. Así, si el resultado fuera de 0,8, podríamos decir -si bien no es técnicamente correcto utilizar esta expresión- que el modelo explica en un 80% la variable real.
EL PROBLEMA QUE PUEDE CONLLEVAR EL COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación puede dar ciertos problemas, y es justo por eso por lo que surge el coeficiente de determinación ajustado que veremos a continuación. En cualquier caso ¿dónde radican los problemas que presenta el coeficiente de determinación y que hace necesario al coeficiente de determinación ajustado? El coeficiente de determinación no penaliza la inclusión de variables explicativas no significativas. Veamos un ejemplo para entenderlo un poco mejor haciendo referencia al ejemplo anterior. Si al modelo se añaden cinco variables explicativas con poca relevancia o con poca relación con las canastas anotadas por Pau Gasol durante la temporada en cuestión, el coeficiente de determinación aumentará, desviándose el modelo de la variable real. Así, es por ello por lo que muchos expertos, estadísticos, matemáticos y económetras han creado, para ajustar el coeficiente de determinación y solventar este error, el coeficiente de determinación ajustado, que veremos en el epígrafe que sigue.
LA SOLUCIÓN AL PROBLEMA DEL COEFICIENTE DE DETERMINACIÓN: EL COEFICIENTE DE DETERMINACIÓN AJUSTADO
El coeficiente de determinación ajustado es la medida que soluciona los problemas que presenta el coeficiente de determinación. Este coeficiente es la medida que define el porcentaje explicado por la varianza de la regresión de acuerdo con la varianza experimentada por las variables aplicadas. En palabras más sencillas para entenderlo mejor: el coeficiente de determinación ajustado es exactamente igual que el coeficiente de determinación con una única diferencia: el coeficiente de determinación ajustado penaliza la inclusión de aquellas variables que no resultan trascendentales para la variable real.
Así, su fórmula quedaría de la siguiente manera:
Donde:
1.- N es el tamaño de la muestra.
2.- K es el número de variables explicativas.
En cuanto a sus resultados, cuanto mayores sean los valores que adquiera K, más alejado estará el coeficiente de determinación ajustado del normal.
Cierra el año DESCUENTO (Blog)
-30% durante 12 meses en todos nuestros productos
Contratando antes del 31 de diciembre
En TeamSystem | Software DELSOL llevamos ya más de 30 años creando todas las herramientas que necesitas para escalar tu negocio sin complicaciones.