Conceptos básicos 2
Distribuciones de frecuencias:
Podemos tener varios casos cuando estemos estudiando una característica, pueden ser todos los valores diferentes o pueden repetirse valores.
Para el caso en el que se repitan los valores (o haya tantos valores diferentes que sea necesario agruparlos en intervalos) se organizan éstos datos según una distribución de frecuencias, que constará en poner los valores y sus conteos (frecuencias).
Veamos un ejemplo, si estamos estudiando el color de ojos en una clase, que tendrá los valores "marrón", "azul", "verde" y "negro", al preguntar vemos que está el primero 5 veces, el segundo 7 veces, el tercero 3 veces y el cuarto 5 veces.
Éstas frecuencias son las que ponemos en una tabla para ver la colección de los datos:
Vamos a ver los tipos de frecuencia que tenemos:
Frecuencia Absoluta (ni): Es el número de observaciones que tenemos en cada categoría.
Frecuencia Relativa o proporción (pi): Se obtiene dividiendo la frecuencia absoluta entre el número total de elementos que tenemos.
Porcentaje(Pi): Se obtiene multiplicando la frecuencia relativa por 100.
Veamoslo en el ejemplo que estábamos tratando:
Estas definiciones son válidas para todas las variables.
Para las variables cualitativas (escala nominal) sólo se utilizarán estas frecuencias, pero hay más, vamos a verlas por cada tipo de variables.
Variables cuasicuantitativa (escala ordinal):
En estas variables tenemos, además de las anteriores, las "acumuladas", ya que tenemos un sentido de orden, quedando entonces:
Frecuencia Absoluta (ni): Es el número de observaciones que tenemos en cada categoría.
Frecuencia Absoluta Acumulada(na): Se obtiene acumulando las frecuencias absolutas.
Frecuencia Relativa o proporción (pi): Se obtiene dividiendo la frecuencia absoluta entre el número total de elementos que tenemos.
Frecuencia Relativa o proporción Acumulada (pa): Se obtiene acumulando las frecuencias relativas.
Porcentaje(Pi): Se obtiene multiplicando la frecuencia relativa por 100.
Porcentaje Acumulado(Pa): Se obtiene acumulando los porcentajes.
Veamos un ejemplo (directamente en tabla, después explicaremos los resultados) estudiando el grupo social de un conjunto de personas, que será bajo, medio, alto y muy alto y relacionaremos números con los estatus (bajo - 0, medio - 1, alto - 2 y muy alto - 3):
En la primera columna tenemos los posibles valores de la variable, que son 0, 1, 2 ó 3 (el estatus social).
En la segunda columna tenemos la frecuencia absoluta, que es, en este caso, cuántas personas hay en cada estatus, en el caso de 0 (bajo) hay 5 personas, en el caso de 1 (medio) hay 3 personas...
Fijaros que el orden en la tabla se pone de abajo a arriba, por lo que al acumular se acumulará de abajo a arriba.
En la tercera columna están las frecuencias absolutas acumuladas, para el 0 tendremos 5 (en este caso al no haber valor anterior es la propia frecuencia absoluta), para el 1 tenemos 8 (las 5 del 0 más las 3 del 1), para el 2 tenemos 15 (las 8 que son la suma del 0 y el 1 más las 7 propias del 2) y para el 3 tenemos 20 (la suma de todos los anteriores, que en este caso al ser el último valor tiene que coincidir con la frecuencia total n). Es decir, vamos sumando la frecuencia absoluta acumulada anterior con la frecuencia absoluta actual para conseguir la frecuencia absoluta acumulada actual.
En la cuarta columna están las frecuencias relativas o proporciones, que recordamos consiste en dividir la frecuencia absoluta entre el total de observaciones n.
En la quinta columna están las frecuencias relativas acumuladas o proporciones acumuladas, que se calculan al igual que las frecuencias absolutas acumuladas pero con los valores de las frecuencias relativas, como ejemplo, para el valor 1 será 0,25 + 0,15 = 0,4, para el valor 2 será 0,4 + 0,35 = 0,75.
El valor final siempre tiene que ser 1.
También se pueden calcular tomando la frecuencia absoluta acumulada del valor y dividiéndola entre el total, como ejemplo, para el valor 2 será 15/20 = 0,75.
En la sexta columna están los porcentajes, que era multiplicar la frecuencia relativa por 100.
En la séptima columna están los porcentajes acumulados, que consiste en acumular igual que antes los valores de los porcentajes, como ejemplo para el valor 1 será 15 + 25 = 40, para el valor 2 será 40 + 35 = 75.
También se pueden calcular multiplicando la frecuencia relativa absoluta por 100. (valor 1, 0,4 * 100 = 40.
Variables Cuantitativas (escalas de intervalo o de razón):
En este caso vamos a hacer una subdivisión, si la variable es discreta y los posibles valores de la variable es pequeño, se tomarán todos los valores, pero si la variable es continua o si tenemos muchos valores agruparemos las variables en intervalos.
Para el primer caso la tabla de distribución de frecuencias es igual que en el caso de variables cuasicuantitativas (ordinales).
Como ejemplo se puede utilizar la tabla del estatus social pero utilizando la variable "número de veces que se ha presentado al carnet de conducir".
Si tenemos que agrupar en intervalos, las frecuencias serán las mismas pero hay que definir además otros conceptos:
Amplitud: Es la diferencia entre valor máximo y el valor mínimo (de todas las observaciones).
Límites virtuales: Valores máximo y mínimo del intervalo teniendo en cuenta el nivel de precisión.
Límites reales: Valores máximo y mínimo exacto del intervalo.
Punto medio del intervalo: Semisuma de los límites reales o virtuales del intervalo.
Amplitud del intervalo: Diferencia entre el valor máximo real y el valor mínimo real.
Intervalo abierto: El intervalo en cuestión no tiene límite exacto inferior o superior.
Para saber cuántos intervalos debemos utilizar según los datos que tengamos, se aplica la regla de "STURGES":
k = 1 + 3,3 · log(n)
donde k es el número de intervalos y n es el número total de elementos de la variable.
Ejemplo:
Si nos dan los datos de la altura (en metros) de 20 personas:
1.65, 1.68, 1.69, 1.72, 1.72, 1.74, 1.75, 1.77, 1.78, 1.80, 1.82, 1.84, 1.84, 1.85, 1.86, 1.88, 1.91, 1.93, 1.93 y 1.94.
Nota: si nos diesen los datos desordenados lo primero que haremos será ordenarlos para poder tratar con ellos.
Vamos a ver primero en cuántos intervalos deberíamos agruparlos, para ello aplicamos la regla de Sturges:
k = 1 + 3,3 · log(n) --> k = 1 + 3,3 · log (20) = 1 + 3,3 · 1,3 = 1 + 4,29 = 5,29 ~ 6.
Separaremos en 5 intervalos.
Tenemos una amplitud total de: 1.94 - 1.65 = 0,25.
Si esta amplitud de 0,25 la queremos dividir en 5 intervalos: 0,3/6 = 0,041 ~ 0,05 será la amplitud real de cada intervalo, por lo que podemos realizar la siguiente tabla:
Notas:
La amplitud del primer intervalo no es 1.69 - 1.65 = 0.04, ya que 1.65 y 1.69 son los límites virtuales, los límites reales son 1.645 y 1.695, cuya resta sí es 0.05, que es la amplitud del intervalo.
En la segunda columna está puesto el punto medio del intervalo (al que llamaremos también "marca de clase".
En este ejemplo no se ha dado el caso de intervalo abierto.
Como se ve, para el cálculo de las frecuencias no afecta que sean intervalos, ya que también se realiza igual que en las variables cuasicuantitativas (ordinales).