sábado, 13 de marzo de 2010

Estadisticos descriptivos


EST-680B SEMINARIO PLATAFORMAS EDUCATIVAS
José Luis García Cué
Maribel Reyes Osornio

ESTADÍSTICOS DESCRIPTIVOS


MEDIDAS DE TENDENCIA CENTRAL

Media aritmética: Es la más común de las utilizadas para describir una población. LA media aritmética de n observaciones de la variable X se denotará por el símbolo , se define como la suma de ellas divididas por n. simbólicamente:



Ejemplo: La media aritmética de 5 números x1=2, x2=12, x3=9, x4=10 y x5=7 es:



Fig. 1. Diagrama de un conjunto de datos mostrando la media con el punto de equilibrio.

En una tabla de frecuencias la media aritmética se calcula suponiendo que todas las observaciones es una clase son iguales al valor medio (vi), por lo que la contribución de la clase i-ésima a la suma es fivi. Por lo tanto, la media se calcula por la ecuación:
Equivalente:
Donde:
fi=frecuencia de la clase i-ésima.
vi=valor medio de la clase i-ésima.
pi= frecuencia relativa de la clase i-ésima.

Ejemplo: En la tabla 1 se presentan los datos de edades del personal científico y técnico en las instituciones de investigación agropecuaria en México en el área de ciencias biológicas. Calcularemos la media aritmética para los datos agrupados y sin agrupar.

Tabla 1. Tabla de frecuencias para calcular las medidas de tendencia central



= 2714/83=32.6988



= 1/83(29 + 44 + 27 + ...+ 29 + 31) = 270/83= 32.61


M
ediana: La mediana es un valor que divide los datos en mitades, una con todas las observaciones mayores o iguales a la mediana y otra con valores menores o iguales a ella. Para conjunto de datos asimétricos, histogramas con grandes colas, es mejor medida de tendencia central que la media. (Me) de un conjunto de n números, ordenados es menor a mayor, es el número central en el arreglo. Si n es un número par, hay dos valores centrales, y la mediana debe tomarse como la media aritmética de estos dos valores.

Ejemplo1: Calcularemos la mediana para los números 27, 3.4, 3.2, 3.3, 3.1

3.1, 3.2, 3.3, 3.4, 27

Como en este caso n = 5 (número non), hay un solo valor central, que es 3.3, y éste valor de la mediana. Es decir,

Me=3.3
Nótese que la mediana es un valor más típico del conjunto anterior que la media aritmética (x ̅ =8)

Ejemplo 2: Calcularemos la mediana para las siguientes estaturas. Los datos ordenados son:
151, 152, 153, 158, 162, 162,167, 167, 168, 173

Puesto que n=10 (es número par), hay dos valores centrales, que son 162 y 162. La mediana es la media aritmética de estos valores. Es decir,

Me=(162+162)/2=162

Calculo de la mediana en tablas de frecuencias

Puesto que tratamos de encontrar un número tal que la mitad de las observaciones sean mayores o iguales y la mitad menores o iguales que el, la mediana debe estar en una clase tal que la frecuencia relativa acumulada hasta la clase que la precede inmediatamente sea menor que 0.5 y la frecuencia relativa acumulada hasta la clase que buscamos sea mayor o igual a 0.5, a esta clase la llamaremos la clase de la mediana. El valor de la mediana se localiza, por una simple interpolación, como sigue:
Sean:
a: Limite inferior de la clase mediana
b: Limite superior de la clase mediana
c: Frecuencia relativa acumulada hasta la clase que precede a la clase de la mediana.
d: Frecuencia relativa de la clase de la mediana

Me= a + (b-a)(0.5-c)/d

Calcular la mediana de la tabla 1.
a = 25.5
b= 30.5
c= 0.03614
d= 0.50602
Sustituyendo:

Me = 25.5 + (30.5-25.5)(0.5-0.03614)/0.50602 = 30.0834

Moda: La moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor único decimos que la distribución de frecuencias es unimodal, si tiene dos o mas valores decimos que es bimodal o multimodal. Esta puede o no existir.

Ejemplo: Las calificaciones obtenidas por un estudiante en 8 exámenes del curso de genética Aplicada son:

10, 7, 8, 7, 9, 8, 7, 9.

La moda es 7, puesto que tiene una frecuencia de 3, mientras que los otros números: 10, 8 y 9 tienen frecuencias absolutas de 1, 2 y 2 respectivamente.
En una tabla de frecuencias la moda se define como el valor medio de la clase cuya frecuencia tiene el valor numérico mayor, la cual recibe el nombre de clase modal.

Mo =25.5+30.5/2=28

Para el conjunto de datos de la tabla de frecuencia de la tabla 1, encontramos que las medidas de tendencia central son diferentes:

=32.6988
Me=30.0834
Moda= 20

MEDIDAS DE DISPERSIÓN

Amplitud: La amplitud (A) de un conjunto de datos es la diferencia entre las observaciones de mayor y menor valor numérico en le mismo.

La amplitud de la parte superior de la figura 1. Es a = 12-2=10

La amplitud es una medida de dispersión cuya ventaja es la facilidad que se calcula. Tiene en cambio las siguientes desventajas.
a) En su cálculo solo intervienen dos elementos del conjunto.
b) Al Aumentar el número de observaciones, puede esperarse que aumente la variabilidad. Puesto que la amplitud no tiene en cuenta el tamaño del conjunto, no es una medida adecuada para comparar la variabilidad de dos grupos de observaciones, a menos que estos sean del mismo tamaño.

Desviación media: La desviación media (D.M.) de un grupo de observaciones se define como la suma de los valores absolutos de sus desviaciones con respecto a su media aritmética dividida por el número de ellas es decir:


Ejemplo: los valores absolutos de las desviaciones en el ejemplo son:
|3|=3,|-1|=1,|2|=2,|1|=1,|4|=4 ,|-4|=4,|-2|=2,|-3|=3

Por lo que
DM= 1/8 (3+1+⋯+3)=1/8 (20)=2.5
Varianza (S2): la varianza de un conjunto de datos se define, como la suma de los cuadrados de las desviaciones de las observaciones con respecto a su media, dividida por el número de observaciones menos una, su ecuación es:

=614/10=61.4
S2=896
s=
Un histograma: es una representación simbólica de datos continuos. Un histograma completo tiene un título y letreros que identifican los ejes horizontal y vertical. Las columnas rectangulares representan las frecuencias y los ejes horizontales denotan la serie de valores contados.
Ej. La segunda columna muestra que había 55 ciclistas entre
18 y 22 años. No había ningún ciclista entre 38 y 42 años.

Edad de ciclistas limpicos

Ojivas ó Polígono de frecuencias: Un polígono de frecuencia es una gráfica constrida con segmentos de líneas rectas que unen los puntos obtenidos al colocar en el eje horizontal a los valores medios de clases y en el vertical a las frecuencias acumuladas absolutas o relativas.
Ejemplo: hacer el polígono de frecuencia de la tabla1.


Figura 3. Poligono de frecuencias de edades del personal científico y técnico en las instituciones de investigación agropecuaria en México en el área de ciencias biológicas.

Barras: Una gráfica de columnas es una presentación de información que usa rectángulos vertical u horizontalmente. Una gráfica de columnas es una representación simbólica de datos discretos o contados. Una gráfica de columnas completa tiene un título y letreros que identifican los ejes vertical y horizontal, uno de los cuales es numérico. Los datos se representan mediante columnas rectangulares cuya altura (o longitud) corresponde a la frecuencia de la ocurrencia de la categoría o tema a contar. Las gráficas de columnas son útiles y apropiadas para mostrar información numérica sobre categorías o temas específicos.
Nº de variables tipo

observaciones

1 barras simples verticales los niveles de la variable categórica se pone en el eje de las abscisas
barras simples horizontales es útil cuando las categorías asumen nombres largos, entonces las categorías pasan al eje de ordenadas y la frecuencia al de abscisas
2 o más barras combinadas verticales una de las variables categóricas aparece en el eje de abscisas (por ejemplo como en el gráfico, edad ), la otra variable (sexo) está dada por los pares de barras pegados, cada barra identificada con un color para cada sexo
barras combinadas horizontales es una forma de diagrama útil, cuando tenemos 3 variables, por ejemplo: se quiere tener una idea de la distribución de lesiones graves y lesiones leves , según sexo y según edad
barras compuestas Estas son útiles cuando cada categoría puede ser subdividida según una característicasecundaria.

Se puede representar de dos maneras según como se contabilicen las proporciones de las subcategorías


Diagramas de tallo y hoja: Un diagrama de tallo y hoja es una presentación de información que clasifica cada dato en orden ascendente o descendente. Los valores se colocan generalmente en dos columnas en las que el tallo representa el número de decenas y las hojas representan las unidades. Cuando los datos se presentan en este formato, se simplifica el encontrar la mediana, la escala y el modo.
Es un procedimiento semigráfico para variables cuantitativas, es útil especialmente si el número de datos es pequeño.
Procedimiento 1.- Se redondean los datos a dos o tres cifras significativas, expresándolos en unidades convenientes

2.- Se disponen en una tabla con dos columnas separadas por una línea vertical:

  1. Para datos con 2 dígitos se escriben a la izquierda de una línea los dígitos de las decenas (que forman el tallo) y a la derecha las unidades, que serán las hojas: por ejemplo: 65 se escribirá 6 | 5
  2. Para datos de 3 dígitos el tallo estará formado por los dígitos de las centenas y de las decenas, que se escribirán a la izquierda, separados de las unidadaes. Por ejemplo: 265 se escribe 26 | 5

3.- Cada tallo define una clase, y se escribe una sola vez . El número de hojas representa la frecuencia de dicha clase

Ejemplo: El diagrama de tallo y hojas permite visualizar de una forma rápida , la forma (como se ve en el gráfico de arriba) de la distribución de frecuencias de la variable que se está estudiando

Ejemplo: Datos recogidos

11.357

12.542

11.384

12.431

14.212

15.213

13.300

11.300


17.202

12.710

13.455

16.143

12.162

12.721

13.420

14.698


Datos redondeados

11.4

12.5

11.4

12.4

14.2

15.2

13.3

11.3


17.2

12.7

13.5

16.1

12.2

12.7

13.4

14.7


El diagrama de tallo y hojas permite visualizar de una forma rápida , la forma (como se ve en el gráfico de arriba) de la distribución de frecuencias de la variable que se está estudiando.

Diagramas de caja: con un ejemplo de cada uno de ellos. Un diagrama de caja y bigote es una representación que usa cuartiles y la mediana para presentar datos. La caja representa la serie entre el primer y tercer cuartiles (25 y 75 percentiles). La línea vertical representa el segundo cuartil, mediana o 50 percentil. Ej. El miembro más joven de nuestra familia tiene 5 años y el mayor 50. La edad media es 20; cerca de un 25% de la familia es menor de 14 (primer cuartil), y cerca del 75% es menor de 37 (tercer cuartil).

Permanencia de hombres y mujeres en el hospital tratados con antibióticos
Ejemplo de SAS de diagrama de caja y bigote y de tallo y hoja
data ejercisio1;
input peso;
cards;
235
273
224
194
206
276
233
212
210
192
177
194
190
184
205
210
185
186
;
run;
proc univariate freq plot normal;
var peso;
run;


Medidas estadísticas básicas

Localización Variabilidad

NOTA: La moda mostrada es la menor de 2 modas con una cuenta 2.


Variable: peso
Enestas gráficas se muestra la media en peso de 20 y la mayoría de los datos se encuentra entre 18 y 22 kg, con un minimo de 16 kg y un máximo de 36 kg, por lo que ayuda a localizar éstos datos de una forma rápida y fácil.

Correlación: Es una medida de la asociación entre dos variables que tienen las siguientes propiedades:
a) Es independiente de las unidades de medida utilizadas en las variables.
B) Valores positivos del coeficiente indican que las variables tienden a crecer (o decrecer) simultáneamente y valores negativos indican que una aumenta cuando l a otra disminuye.
c) toma valores exclusivamente entre 1 y -1.
formas típicas de la correlación: A) positiva, B) negativa, c) sin correlación y d) Curva.
Covarianza: Es una medida de la asociación entre dos características llamadas X y Y tiene las siguientes propiedades,
a) Cuando los valores de x crecen con los de la variable y la covarianza es positiva.
b) Cuando los valores de x decrecen al aumentar los de la variable y la covarianza es negativa
c) Si comparamos la ecuación para Sxy (la covarianza entre x y y) y S2x (la varianza de x) Podemos observar que, si imaginamos una ecuación para la covarianza x consigo misma, obtenemos la ecuación de la varianza; es decir, que podemos pensar en la varianza como un caso especial de la covarianza.

En SAS
proc print;
Estadística descriptiva utilizando el procedimiento means
proc means;
Estadística descriptiva con means e indicando que se desea
proc means n min max range mean var std cv;
Estadística descriptiva con el procedimiento univariate de edad y peso
proc univariate;
var edad peso;
Para hacer estadística por grupos determinados hay que ordenar primero por la variable que se desea y después aplicar Estadística descriptiva. Primero se aplica el procedimiento sort y se le pone la suborden by con la variable de los datos a ordenar, en este caso por genero.
proc sort; by genero;
Se hace estadística descriptiva y se coloca by con la variable de los datos a realizar.
proc univariate; by genero;
El procedimiento corr se utiliza para calcular la correlación y para hacer pruebas sobre dicha correlación. También permite calcular la covarianza indicando la suborden cov.
proc corr cov; run;
Ejemplo:
data s;
input edad peso estatura ecivil Genero $;
cards;


proc print; proc means; proc means n min max range mean var std cv; proc univariate; var edad peso; proc sort; by genero; proc univariate; by genero; proc corr cov; run; proc univariate; var estatura peso; proc sort; by ecivil; proc univariate; by ecivil; proc corr cov; run;


Procedimiento MEANS


Procedimiento MEANS





Medidas estadísticas básicas
Procedimiento UNIVARIATE
Variable: edad


Cuantiles (Definición 5)

cerca del 25% de la población tiene 25 años, y el 50% de la población 28 años y cerca del 75% de la población tiene 31 años.

Procedimiento CORR


La covarianza de los datos de peso con la edad es negativa lo que indica que a medida que los individuos son más jóvenes tienen mayor peso, y una menor estatura con mayor edad y el numero de personas casadas se incrementan con la edad.

Estadísticos simples
Número de Desviación

Coeficientes de correlación Pearson, N = 17

Prob > |r| suponiendo H0: Rho=0



La correlación baja del 8% negativa entre la el peso y la edad, y es no significativa puesto que alfa es del .74 por lo que a medida de que la edad aumenta el peso disminuye, lo mismo ocurre entre la edad y la estatura la correlación es muy baja de solo el 29% negativa, lo que indica que a mayor edad menor estatura y es aun menor la correlación entre la edad y el estado civil, pero este indica que a mayor edad se casan más.
Los estudiantes de estadística tienen una edad media de 29 años, con un minimo de 23 y un maximo de 51, un peso promedio de 69.5 kg, con un minimo de 48 y un máximo de 88 y una estatura media de 1.65 m, con un minimo de 1.52 m y un maximo de 1.76 m.

Diagramas de puntos x-y: Sirven para presentar gráficamente tablas en la cuales se consideran únicamente una variable y una cantidad asociada a cada valor de la misma. Se construye colocando en el eje horizontal (x), los valores de la variable (los cuales en muchos casos son arbitrarios) y en el eje vertical (y) las cantidades asociadas a estos. Finalmente, para cada valor de la variable y cada cantidad asociada se dibujan puntos cuya altura corresponde a la magnitud de dicha cantidad.

A la inspección, muchas veces los diagramas de dispersión dejan al descubierto una relación funcional de las variables. De esta forma se pueden ajustar modelos de regresión a los datos observados (si lo que se busca es predecir) o calcular correlaciones (si lo que interesa es solamente la asociación de las variables)

A la inspección, muchas veces los diagramas de dispersión dejan al descubierto una relación funcional de las variables.

De esta forma se pueden ajustar modelos de regresión a los datos observados (si lo que se busca es predecir) o calcular correlaciones (si lo que interesa es solamente la asociación de las variables)

Como se ve en el diagrama de la derecha, se puede descubrir una relación lineal entre ambas variables. No siempre la relación tiene que ser de tipo lineal, pueden ser curvilíneas, esto se puede ver más detalladamente en distribuciones bivariadas, regresión y correlación

ejemplo.
Peso antes y después, de Individuos sometidos a un programa de dieta.
Subject Peso antes del tratamiento Peso despues del tratamiento





En la gráfica se muestra una ligera disminución en el peso en la mayoría de los individuos, después del tratamiento, lo que se puede corroborrar en la tabla. Si se quiere saber más, se puede recurrir a un análisis de correlación






No hay comentarios:

Seguidores

Datos personales

Mi foto
El conocimiento como una herramienta de vida, una vida como motivo de servir, un servicio con humildad y madurez, la madurez como responsabilidad, responsabilidad como madurez emocional, como resultado una vida plena.