EST-680B SEMINARIO PLATAFORMAS EDUCATIVAS
José Luis García Cué
ESTADÍSTICOS DESCRIPTIVOS
MEDIDAS DE TENDENCIA CENTRAL
Media aritmética: Es la más común de las utilizadas para describir una población. LA media aritmética de n observaciones de la variable X se denotará por el símbolo , se define como la suma de ellas divididas por n. simbólicamente:
Ejemplo: La media aritmética de 5 números x1=2, x2=12, x3=9, x4=10 y x5=7 es:
Fig. 1. Diagrama de un conjunto de datos mostrando la media con el punto de equilibrio.
En una tabla de frecuencias la media aritmética se calcula suponiendo que todas las observaciones es una clase son iguales al valor medio (vi), por lo que la contribución de la clase i-ésima a la suma es fivi. Por lo tanto, la media se calcula por la ecuación:
Equivalente:
Donde:
fi=frecuencia de la clase i-ésima.
vi=valor medio de la clase i-ésima.
pi= frecuencia relativa de la clase i-ésima.
Ejemplo: En la tabla 1 se presentan los datos de edades del personal científico y técnico en las instituciones de investigación agropecuaria en México en el área de ciencias biológicas. Calcularemos la media aritmética para los datos agrupados y sin agrupar.
Tabla 1. Tabla de frecuencias para calcular las medidas de tendencia central
= 2714/83=32.6988
= 1/83(29 + 44 + 27 + ...+ 29 + 31) = 270/83= 32.61
Mediana: La mediana es un valor que divide los datos en mitades, una con todas las observaciones mayores o iguales a la mediana y otra con valores menores o iguales a ella. Para conjunto de datos asimétricos, histogramas con grandes colas, es mejor medida de tendencia central que la media. (Me) de un conjunto de n números, ordenados es menor a mayor, es el número central en el arreglo. Si n es un número par, hay dos valores centrales, y la mediana debe tomarse como la media aritmética de estos dos valores.
Ejemplo1: Calcularemos la mediana para los números 27, 3.4, 3.2, 3.3, 3.1
3.1, 3.2, 3.3, 3.4, 27
Como en este caso n = 5 (número non), hay un solo valor central, que es 3.3, y éste valor de la mediana. Es decir,
Me=3.3
Nótese que la mediana es un valor más típico del conjunto anterior que la media aritmética (x ̅ =8)
Ejemplo 2: Calcularemos la mediana para las siguientes estaturas. Los datos ordenados son:
151, 152, 153, 158, 162, 162,167, 167, 168, 173
Puesto que n=10 (es número par), hay dos valores centrales, que son 162 y 162. La mediana es la media aritmética de estos valores. Es decir,
Me=(162+162)/2=162
Calculo de la mediana en tablas de frecuencias
Puesto que tratamos de encontrar un número tal que la mitad de las observaciones sean mayores o iguales y la mitad menores o iguales que el, la mediana debe estar en una clase tal que la frecuencia relativa acumulada hasta la clase que la precede inmediatamente sea menor que 0.5 y la frecuencia relativa acumulada hasta la clase que buscamos sea mayor o igual a 0.5, a esta clase la llamaremos la clase de la mediana. El valor de la mediana se localiza, por una simple interpolación, como sigue:
Sean:
a: Limite inferior de la clase mediana
b: Limite superior de la clase mediana
c: Frecuencia relativa acumulada hasta la clase que precede a la clase de la mediana.
d: Frecuencia relativa de la clase de la mediana
Me= a + (b-a)(0.5-c)/d
Calcular la mediana de la tabla 1.
a = 25.5
b= 30.5
c= 0.03614
d= 0.50602
Sustituyendo:
Me = 25.5 + (30.5-25.5)(0.5-0.03614)/0.50602 = 30.0834
Moda: La moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor único decimos que la distribución de frecuencias es unimodal, si tiene dos o mas valores decimos que es bimodal o multimodal. Esta puede o no existir.
Ejemplo: Las calificaciones obtenidas por un estudiante en 8 exámenes del curso de genética Aplicada son:
10, 7, 8, 7, 9, 8, 7, 9.
La moda es 7, puesto que tiene una frecuencia de 3, mientras que los otros números: 10, 8 y 9 tienen frecuencias absolutas de 1, 2 y 2 respectivamente.
En una tabla de frecuencias la moda se define como el valor medio de la clase cuya frecuencia tiene el valor numérico mayor, la cual recibe el nombre de clase modal.
Mo =25.5+30.5/2=28
Para el conjunto de datos de la tabla de frecuencia de la tabla 1, encontramos que las medidas de tendencia central son diferentes:
=32.6988
Me=30.0834
Moda= 20
MEDIDAS DE DISPERSIÓN
Amplitud: La amplitud (A) de un conjunto de datos es la diferencia entre las observaciones de mayor y menor valor numérico en le mismo.
La amplitud de la parte superior de la figura 1. Es a = 12-2=10
La amplitud es una medida de dispersión cuya ventaja es la facilidad que se calcula. Tiene en cambio las siguientes desventajas.
a) En su cálculo solo intervienen dos elementos del conjunto.
b) Al Aumentar el número de observaciones, puede esperarse que aumente la variabilidad. Puesto que la amplitud no tiene en cuenta el tamaño del conjunto, no es una medida adecuada para comparar la variabilidad de dos grupos de observaciones, a menos que estos sean del mismo tamaño.
Desviación media: La desviación media (D.M.) de un grupo de observaciones se define como la suma de los valores absolutos de sus desviaciones con respecto a su media aritmética dividida por el número de ellas es decir:
Ejemplo: los valores absolutos de las desviaciones en el ejemplo son:
|3|=3,|-1|=1,|2|=2,|1|=1,|4|=4 ,|-4|=4,|-2|=2,|-3|=3
Por lo que
DM= 1/8 (3+1+⋯+3)=1/8 (20)=2.5
Varianza (S2): la varianza de un conjunto de datos se define, como la suma de los cuadrados de las desviaciones de las observaciones con respecto a su media, dividida por el número de observaciones menos una, su ecuación es:
=614/10=61.4
S2=896
s=
Un histograma: es una representación simbólica de datos continuos. Un histograma completo tiene un título y letreros que identifican los ejes horizontal y vertical. Las columnas rectangulares representan las frecuencias y los ejes horizontales denotan la serie de valores contados.
Ej. La segunda columna muestra que había 55 ciclistas entre
18 y 22 años. No había ningún ciclista entre 38 y 42 años.
Edad de ciclistas limpicos
Ojivas ó Polígono de frecuencias: Un polígono de frecuencia es una gráfica constrida con segmentos de líneas rectas que unen los puntos obtenidos al colocar en el eje horizontal a los valores medios de clases y en el vertical a las frecuencias acumuladas absolutas o relativas.
Ejemplo: hacer el polígono de frecuencia de la tabla1.
Figura 3. Poligono de frecuencias de edades del personal científico y técnico en las instituciones de investigación agropecuaria en México en el área de ciencias biológicas.
Barras: Una gráfica de columnas es una presentación de información que usa rectángulos vertical u horizontalmente. Una gráfica de columnas es una representación simbólica de datos discretos o contados. Una gráfica de columnas completa tiene un título y letreros que identifican los ejes vertical y horizontal, uno de los cuales es numérico. Los datos se representan mediante columnas rectangulares cuya altura (o longitud) corresponde a la frecuencia de la ocurrencia de la categoría o tema a contar. Las gráficas de columnas son útiles y apropiadas para mostrar información numérica sobre categorías o temas específicos.
Nº de variables | tipo | observaciones |
1 | barras simples verticales | los niveles de la variable categórica se pone en el eje de las abscisas |
barras simples horizontales | es útil cuando las categorías asumen nombres largos, entonces las categorías pasan al eje de ordenadas y la frecuencia al de abscisas | |
2 o más | barras combinadas verticales | una de las variables categóricas aparece en el eje de abscisas (por ejemplo como en el gráfico, edad ), la otra variable (sexo) está dada por los pares de barras pegados, cada barra identificada con un color para cada sexo |
barras combinadas horizontales | es una forma de diagrama útil, cuando tenemos 3 variables, por ejemplo: se quiere tener una idea de la distribución de lesiones graves y lesiones leves , según sexo y según edad | |
barras compuestas | Estas son útiles cuando cada categoría puede ser subdividida según una característicasecundaria. Se puede representar de dos maneras según como se contabilicen las proporciones de las subcategorías
|
Diagramas de tallo y hoja: Un diagrama de tallo y hoja es una presentación de información que clasifica cada dato en orden ascendente o descendente. Los valores se colocan generalmente en dos columnas en las que el tallo representa el número de decenas y las hojas representan las unidades. Cuando los datos se presentan en este formato, se simplifica el encontrar la mediana, la escala y el modo.
Es un procedimiento semigráfico para variables cuantitativas, es útil especialmente si el número de datos es pequeño.
Procedimiento 1.- Se redondean los datos a dos o tres cifras significativas, expresándolos en unidades convenientes
2.- Se disponen en una tabla con dos columnas separadas por una línea vertical:
3.- Cada tallo define una clase, y se escribe una sola vez . El número de hojas representa la frecuencia de dicha clase Ejemplo: El diagrama de tallo y hojas permite visualizar de una forma rápida , la forma (como se ve en el gráfico de arriba) de la distribución de frecuencias de la variable que se está estudiando |
Ejemplo: Datos recogidos | 11.357 | 12.542 | 11.384 | 12.431 | 14.212 | 15.213 | 13.300 | 11.300 |
17.202 | 12.710 | 13.455 | 16.143 | 12.162 | 12.721 | 13.420 | 14.698 | |
Datos redondeados | 11.4 | 12.5 | 11.4 | 12.4 | 14.2 | 15.2 | 13.3 | 11.3 |
17.2 | 12.7 | 13.5 | 16.1 | 12.2 | 12.7 | 13.4 | 14.7 |
El diagrama de tallo y hojas permite visualizar de una forma rápida , la forma (como se ve en el gráfico de arriba) de la distribución de frecuencias de la variable que se está estudiando.
Diagramas de caja: con un ejemplo de cada uno de ellos. Un diagrama de caja y bigote es una representación que usa cuartiles y la mediana para presentar datos. La caja representa la serie entre el primer y tercer cuartiles (25 y 75 percentiles). La línea vertical representa el segundo cuartil, mediana o 50 percentil. Ej. El miembro más joven de nuestra familia tiene 5 años y el mayor 50. La edad media es 20; cerca de un 25% de la familia es menor de 14 (primer cuartil), y cerca del 75% es menor de 37 (tercer cuartil).
Permanencia de hombres y mujeres en el hospital tratados con antibióticos
Ejemplo de SAS de diagrama de caja y bigote y de tallo y hoja
data ejercisio1;
input peso;
cards;
235
273
224
194
206
276
233
212
210
192
177
194
190
184
205
210
185
186
;
run;
proc univariate freq plot normal;
var peso;
run;
Medidas estadísticas básicas
Localización Variabilidad
NOTA: La moda mostrada es la menor de 2 modas con una cuenta 2.
Variable: peso
Correlación: Es una medida de la asociación entre dos variables que tienen las siguientes propiedades:
a) Es independiente de las unidades de medida utilizadas en las variables.
B) Valores positivos del coeficiente indican que las variables tienden a crecer (o decrecer) simultáneamente y valores negativos indican que una aumenta cuando l a otra disminuye.
c) toma valores exclusivamente entre 1 y -1.
a) Cuando los valores de x crecen con los de la variable y la covarianza es positiva.
b) Cuando los valores de x decrecen al aumentar los de la variable y la covarianza es negativa
c) Si comparamos la ecuación para Sxy (la covarianza entre x y y) y S2x (la varianza de x) Podemos observar que, si imaginamos una ecuación para la covarianza x consigo misma, obtenemos la ecuación de la varianza; es decir, que podemos pensar en la varianza como un caso especial de la covarianza.
En SAS
proc print;
Estadística descriptiva utilizando el procedimiento means
proc means;
Estadística descriptiva con means e indicando que se desea
proc means n min max range mean var std cv;
Estadística descriptiva con el procedimiento univariate de edad y peso
proc univariate;
var edad peso;
Para hacer estadística por grupos determinados hay que ordenar primero por la variable que se desea y después aplicar Estadística descriptiva. Primero se aplica el procedimiento sort y se le pone la suborden by con la variable de los datos a ordenar, en este caso por genero.
proc sort; by genero;
Se hace estadística descriptiva y se coloca by con la variable de los datos a realizar.
proc univariate; by genero;
El procedimiento corr se utiliza para calcular la correlación y para hacer pruebas sobre dicha correlación. También permite calcular la covarianza indicando la suborden cov.
proc corr cov; run;
Ejemplo:
data s;
input edad peso estatura ecivil Genero $;
cards;
Procedimiento MEANS
Procedimiento MEANS
Medidas estadísticas básicas
Procedimiento UNIVARIATE
Variable: edad
Cuantiles (Definición 5)
cerca del 25% de la población tiene 25 años, y el 50% de la población 28 años y cerca del 75% de la población tiene 31 años.
Procedimiento CORR
La covarianza de los datos de peso con la edad es negativa lo que indica que a medida que los individuos son más jóvenes tienen mayor peso, y una menor estatura con mayor edad y el numero de personas casadas se incrementan con la edad.
Estadísticos simples
Número de Desviación
Coeficientes de correlación Pearson, N = 17
Prob > |r| suponiendo H0: Rho=0
La correlación baja del 8% negativa entre la el peso y la edad, y es no significativa puesto que alfa es del .74 por lo que a medida de que la edad aumenta el peso disminuye, lo mismo ocurre entre la edad y la estatura la correlación es muy baja de solo el 29% negativa, lo que indica que a mayor edad menor estatura y es aun menor la correlación entre la edad y el estado civil, pero este indica que a mayor edad se casan más.
A la inspección, muchas veces los diagramas de dispersión dejan al descubierto una relación funcional de las variables. De esta forma se pueden ajustar modelos de regresión a los datos observados (si lo que se busca es predecir) o calcular correlaciones (si lo que interesa es solamente la asociación de las variables)
ejemplo.
Peso antes y después, de Individuos sometidos a un programa de dieta.
Subject Peso antes del tratamiento Peso despues del tratamiento
No hay comentarios:
Publicar un comentario