Hoy me voy a estrenar con un artículo estadístico. La verdad es que las matemáticas nunca han sido mi asignatura favorita, pero cuando las comprendes y ves su aplicación, comienzan a tener sentido. Para este estreno voy a empezar hablando del análisis de regresión y la medida estadística R-cuadrado o coeficiente de determinación. Gracias al primero podremos obtener una función a través de la cual establecer cómo se relacionan variables y poder predecir valores futuros; la segunda nos permite conocer la calidad del modelo para decidir si realmente se puede predecir algo.
Vaya por delante que existen diferentes formas de predecir resultados, algunas bastantes complicadas, pero la de regresión es de las más sencillas y, con saber cómo utilizarla, tampoco necesitas ser un genio de la estadística y las matemáticas.
Lo primero que debemos tener en cuenta, es que esto de las predicciones son un juego entre variables, es decir, cómo se influyen unas sobre otras, por lo que entran al escenario esos conceptos, que seguro os suenan, de variables dependientes e independientes. Vamos a hacer un pequeño repaso para ver qué eran:
- Variables dependientes: son el objeto de nuestro análisis y variarán en función de las modificaciones sobre las variables independientes. Imagina que queremos analizar los rebotes de una url concreta o los ingresos de una tienda online.
- Variables independientes: son aquellas que afectan directamente sobre las variables dependientes. Siguiendo el ejemplo anterior, una variable independiente podría ser el número de páginas vistas de esa url o el número de transacciones.
Sabido esto, comienza lo divertido. Antes de empezar a explicar cómo realizar el análisis de regresión y entrar en la parte práctica del artículo, vamos con otro repaso de conceptos que creo necesarios.
¿Qué es el análisis o modelo de regresión?
El modelo de regresión es un proceso estadístico que nos ofrece información sobre la relación entre dos o más variables, siendo una de ellas dependiente del resto. De este modo, gracias al análisis de regresión conocemos cómo influyen las variables independientes sobre una dependiente de éstas.
Esa relación entre variables nos permite conocer valores futuros de la variable dependiente, por lo que podemos ejecutar predicciones sobre cómo afectarán los cambios de ciertas variables en aquella que estamos analizando. Esto hace que podamos tomar decisiones con antelación a que estas situaciones ocurran o asegurarnos de que el cambio de ciertas variables afectará como queremos a la dependiente. Algo tan simple como saber cuánto debemos ingresar en Google Ads para alcanzar un número de leads determinado puede ser objeto de análisis utilizando la regresión.
Existen diferentes modelos de regresión que dependen directamente del número de variables sobre el que trabajamos y su relación, así pues, diferenciamos entre tres. No voy a entrar en fórmulas matemáticas, ya que internet está lleno de ejemplos y no es el objetivo de este artículo, así que con saber en qué consiste cada una es suficiente:
- Modelo de regresión lineal simple: consiste en estudiar cómo afecta el comportamiento de una variable independiente sobre una variable dependiente de la primera. Es el más utilizado y fácil de realizar.
- Modelo de regresión lineal múltiple: consiste en estudiar cómo afecta el comportamiento de varias variables independientes sobre una variable dependiente de las primeras. Lo realizamos cuando creemos que existe más de un factor que influye sobre la variable a analizar.
- Modelo de regresión no lineal: consiste, al igual que la anterior, en estudiar influencias de variables, sin embargo, se utiliza cuando la variable dependiente tiene un desarrollo no lineal. Ejemplos pueden ser regresiones exponenciales, logarítmicas, potenciales o parabólicas.
De manera resumida, la regresión es una ecuación que establece la relación entre las variables, como ya he explicado. De esta manera, sustituyendo el valor de la variable independiente, podremos calcular sucesivos valores de la variable dependiente, estableciendo así predicciones de cómo influirá la primera sobre la segunda. La fiabilidad de esta predicción vendrá determinada por el valor de R-cuadrado, del que hablaré a continuación. Y es que podemos tener una correlación relevante entre variables, pero que los valores de una no tengan necesariamente que explicar los de la otra.
¿Qué es el factor R-cuadrado o coeficiente de determinación?
También conocido como coeficiente de determinación, el factor R-cuadrado nos indica cómo es de fuerte la relación de la variable dependiente con la(s) independiente(s). De este modo, cuanto más cerca esté del 1, mayor será la relación, mientras que si se acerca al 0, la relación será débil o prácticamente nula. De igual modo, este coeficiente también podrá ser negativo, lo que nos indicará una relación inversamente proporcional. Así pues, los valores de R-cuadrado estarán entre -1 y 1.
La fiabilidad de la función extraída del modelo de regresión depende de cual sea el valor de R-cuadrado. Se considera aceptable un valor a partir 0,8, aunque existen casos en los que podremos tomar como válidos valores inferiores, para los cuales deberemos tener presente dicha fiabilidad.
¿Cómo puedo usarlo en un análisis web?
El análisis de regresión puede ser realizado con diferentes herramientas. Tenemos a nuestra disposición infinidad de posibilidades, por lo que deberemos escoger aquella con la que nos sintamos más cómodos. Para este ejemplo voy a utilizar Microsoft Excel, pero si sois ávidos programadores, tenéis lenguajes como R y Python que también nos dan esta opción.
Lo primero que tendremos que tener presente, como siempre que trabajamos con datos, es el proceso ETL. Extraemos los datos, en este caso de Google Analytics, bien por exportación de informes bien a través de API; realizamos las transformaciones que consideremos necesarias y quedarán listas para comenzar a trabajar sobre ellas. Si vais a exportar informes de Google Analytics, lo más sencillo es realizarla desde un informe personalizado en el que hayamos incluido las métricas y dimensiones que necesitemos. Algo bastante útil, por ejemplo, sería añadir el Default Channel Grouping de Google Analytics y luego, a través de filtros de Excel, poder mostrar gráficos de dispersión, líneas de tendencia, funciones de correlación y factores R-cuadrado en función de las métricas escogidas por canal; o por dispositivo, o por sistema operativo, o por segmento de edad, etc.
Lo mejor es que trabajemos con datos con un periodo histórico amplio, de al menos dos años y con la mayor granularidad posible. Para este ejemplo voy a mostrar una correlación obvia, que es la de la métrica transacciones con la de ingresos por día. Luego iré añadiendo algunas más.
Regresión lineal simple con métricas de Google Analytics
Una vez tenemos los datos disponibles para trabajar con ellos, en una hoja de Microsoft Excel, como comentaba, crearemos un gráfico de dispersión. Las propias opciones de la herramienta te darán facilidad de ello con accesos rápidos desde el menú superior. Para estas cosas Microsoft suele ser muy buena:
Podemos crear el gráfico habiendo seleccionado previamente las columnas de datos que van a actuar como variable dependiente e independiente, o bien añadirlas posteriormente pulsando botón derecho sobre el gráfico y sobre la opción de «Seleccionar datos». Una vez en el cuadro de diálogo de «Seleccionar origen de datos», podemos pulsar en Agregar, colocando el rango de celdas de la variable dependiente en el eje Y y la variable independiente en el eje X.
Sobre el gráfico de dispersión generado, deberemos añadir una línea de tendencia y editar sus opciones para añadir la ecuación en el gráfico y presentar el valor R cuadrado en el mismo.
Y obtendremos algo así:
De este modo, la calidad del modelo de regresión viene determinada por el 0,75 del R-cuadrado. No es el mejor pero no está mal. Así pues, siendo x un valor de la variable independiente (transacciones), podremos averiguar el valor y siendo ésta la variable dependiente (ingresos), teniendo en cuenta el R-cuadrado antes mencionado y aplicando la ecuación de la regresión lineal.
Aquí otro ejemplo de una regresión lineal con un R-cuadrado de 1, que sería lo mejor. El conjunto de datos lo he cocinado, pero aplicando la ecuación, podríamos sacar predicciones exactas, algo que no suele suceder:
Regresión lineal múltiple con métricas web
¿Y qué sucede si queremos conocer cómo influyen diferentes variables independientes sobre una dependiente? Este método nos permite relacionar diferentes variables y luego aislar aquellas que nos puedan resultar relevantes. Para ello, necesitaremos instalar el complemento de Herramientas de análisis en Microsoft Excel desde Opciones > Complementos.
Una vez instalado, tendremos un nuevo acceso rápido en la pestaña de Datos llamado «Análisis de datos», que tendrá la opción «Regresión»:
Al Aceptar, se nos abrirá la ventana de configuración de la regresión, en la cual deberemos incluir en el Rango Y de entrada nuestra variable dependiente (por ejemplo Ingresos), y en el rango X de entrada, todas las variables independientes (Sesiones, Usuarios, Transacciones, Porcentaje de rebote, etc.) seleccionando múltiples columnas. Estableceremos un nivel de confianza del 95% (el estándar en este tipo de operaciones estadísticas) y seleccionaremos dónde queremos mostrar el resultado del análisis.
A continuación obtendremos el resultado de la regresión múltiple.
En este punto deberemos fijarnos en el Coeficiente de correlación múltiple, que nos indicará el grado de correlación entre las variables. Posteriormente, el Valor crítico de F nos indicará el grado de fiabilidad del modelo, que deberá ser inferior a 0,05 (según el valor del nivel de confianza del 95% antes establecido). Finalmente, la columna Probabilidad nos dirá si el coeficiente es significativo a nivel estadístico siempre que esté por debajo de 0,05. Por lo que en el ejemplo, la variable independiente con mayor significancia es la de Transacciones.
A partir de aquí, podemos trabajar de manera aislada con la variable Transacciones (como en el ejemplo de regresión lineal simple), y extraer la función que nos permita realizar predicciones asumiendo que existe cierto margen de error. Este método predictivo tiene una gran parte de exploración, probando diferentes variables hasta encontrar aquella que sepamos que tiene una relación directa con otra o confirmemos lo que sospechábamos. De cualquier modo, a no ser que obtengamos un R-cuadrado de 1 o -1, que es el caso perfecto, siempre vamos a trabajar con cierto grado de inexactitud que deberemos tener en cuenta.
Aunque es algo lioso y quizás no soy el mejor explicando conceptos matemáticos, espero que se haya entendido y os sirva para vuestros análisis. ¡Nos leemos!