En su día hablamos aquí sobre las medidas de tendencia central en estadística y también sobre cómo hacer una gráfica de dispersión en una hoja de cálculo de LibreOffice, pero nunca habíamos hablado de la dos principales medidas de dispersión: la varianza y la desviación estándar.

Si la media, mediana y moda (medidas de tendencia central) buscan resumir en un solo valor todo un conjunto, en el caso de las medidas de dispersión se pretende estudiar la dispersión de los datos con respecto a la media. Cuánto más homogéneos sean los datos con los que trabajamos, menor será la dispersión, a mayor dispersión mayor variabilidad.
En teoría de la probabilidad la varianza es definida formalmente como «la esperanza del cuadrado de la desviación de dicha variable respecto a su media«, representa la variabilidad de una serie de datos respecto a su media. La fórmula para calcularla consiste en sumar los residuos al cuadrado, divididos entre el total de observaciones, por eso mismo la unidad de medida de la varianza siempre será positiva y se expresará como la unidad de medida de los datos elevada al cuadrado, por ejemplo si calculamos euros hablaríamos de una varianza de X euros al cuadrado, si calculamos litros diríamos litros al cuadrado. La fórmula os la dejo en la siguiente imagen:
Siendo x la variable sobre la que se calculará la varianza, xi la observación número i de la variable x, n el número de observaciones y x̄ la media de x. Los residuos se elevan al cuadrado porque de no hacerlo el resultado siempre sería 0.
Usando la varianza sabremos que cuánto más grande sea más desviados están los datos, pero lo que no sabes es cuánto, para esto necesitaremos calcular la desviación estándar.
La desviación estándar, o desviación típica, es una medida que se utiliza para cuantificar la dispersión de un conjunto de datos. Para calcularla simplemente habría que hacer la raiz cuadrada de la varianza, de esa forma podremos comparar ese valor contra la media para verificar la dispersión de los datos. Un valor bajo en la desviación estándar indicará que la mayoría de los datos de la muestra están agrupados cerca de la media, mientras que un valor alto indicará que los datos se repearten en un rango de valores más amplio.