lunes, 5 de abril de 2021

Técnicas y herramientas de la estadística.

 Hola compañeros, les comparto la información que investigué sobre las diferentes técnicas y herramientas que se utilizan en la estadística para organizar diferentes tipos de datos.

La estadística descriptiva es un conjunto de técnicas numéricas y gráficas para describir y analizar un grupo de datos, sin extraer conclusiones (inferencias) sobre la población a la que pertenecen. En este tema se introducirán algunas técnicas descriptivas básicas, como la construcción de tablas de frecuencias, la elaboración de gráficas y las principales medidas descriptivas de centralización, dispersión y forma que permitirán realizar la descripción de datos.


Técnicas: 

  • Medidas características: posición, dispersión y forma:

Estas medidas se utilizan para resumir la información atendiendo a tres aspectos principales: alrededor de qué valores se encuentran los datos, cuánto se dispersan y si se distribuyen de manera similar a una campana de Gauss, que será el modelo que se tome como referencia.

Las medidas de posición o localización nos indican el valor o valores alrededor de los cuales se sitúan los datos observados. Distinguiremos medidas de localización de tendencia central (media, mediana y moda) y de tendencia no central (cuartiles, deciles y percentiles).

Las medidas de dispersión absolutas dependen de las unidades en las que se miden las observaciones, siendo las más conocidas la varianza muestral y la desviación típica muestral, que no es más que la raíz cuadrada de la varianza muestral.

Las medidas de forma son aquellas que nos muestran si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.

  • Representación de medidas: el diagrama de caja:
Un diagrama de caja es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos, ​ pudiendo también representar los valores atípicos de estos.

  • Recta de regresión:

Existen muchas situaciones que requieren el análisis combinado de dos ó más variables, debido a las posibles relaciones entre ellas. Para variables cuantitativas (continuas), una forma de representar la dependencia entre ellas es a través de la recta de regresión. En esta sección introduciremos las medidas características usuales en este contexto (vector de medias y matriz de varianzas-covarianzas) y veremos cómo se construye una recta de regresión.

  •  Desviación estándar:
Este cálculo es útil para determinar rápidamente la dispersión de puntos de datos. Una desviación estándar alta significa que los datos se distribuyen más ampliamente desde la media, mientras que una baja indica que hay más datos que se alinean con la media

Herramientas:


El histograma:

  • Objetivo: informar intuitivamente sobre la “distribución” de los datos de una muestra numérica continua.
  • Cómo se fabrica:
    • Se averigua el rango de los datos (mínimo y máximo)
    • Se encaja la muestra en un intervalo…
  • El histograma enseña en qué subintervalos hay más y menos datos.
  • Ayuda a intuir el valor de la media de los datos: es el centro de gravedad de las barras.
  • También ayuda a intuir la dispersión de los datos (desviación típica), pero no su valor.
  • Los histogramas más habituales son simétricos y con forma de campana (distribución normal o de Gauss).
  • Pero también hay histogramas con asimetría: por ejemplo la distribución de salarios
  • Y también histogramas con “varias jorobas”, que pueden revelar que la muestra es una mezcla de grupos diferenciados respecto de la variable estudiada.

El diagrama de Pareto:

  • Objetivo: informar intuitivamente sobre los factores que más afectan a cierto proceso.
    • Sirve para resumir una variable categórica (¡no ordinal!).
    • Cada unidad muestreada viene asociada a un factor de una lista de posibles factores.
    • Interesa detectar los factores más influyentes, y cuánto influyen sobre el resultado.
El diagrama de Pareto destaca los factores más importantes de la muestra (los llamados “pocos vitales”), y los separa de los menos importantes (los llamados “muchos triviales”).
  • Ayuda a descubrir que porcentaje de la muestra corresponde a los primeros factores (“pocos vitales” frente a los “muchos triviales”).
  • Si hay muchos factores triviales, se pueden agrupar bajo el epígrafe “Otros”, y representar juntos, aunque salga una barra mayor: se entiende que es una mezcla de muchos factores.
  • Este diagrama NO SE DEBE HACER CON VARIABLES ORDINALES (se haría un diagrama de barras “normal”, que respete el orden de las categorías).

El diagrama de dispersión:

  • Objetivo: informar intuitivamente sobre la “distribución conjunta” de los datos de dos variables (muestras) numéricas continuas emparejadas.
  • Cómo se fabrica:
    • Se representa en un plano:
      • Eje X: de la variable que se puede interpretar como causa. Se traza una recta y se marcan los extremos (mínimo y máximo) de dicha variable.
      • Eje Y: de la variable que se puede interpretar como influenciada por la otra. Se traza una recta y se marcan los extremos (mínimo y máximo) de dicha variable.
      • Cada dato emparejado representa un individuo medido en dos variables, o una observación simultánea. Por tanto cada dato se representa por un punto en el plano, cuyas coordenadas son los valores de cada variable.
  • Observaciones importantes:
    • La nube de puntos formada adquiere una forma concreta:
      • completamente enmarañada (sin forma definida),
      • una banda ascendente o descendente,
      • un balón de rugby inclinado,
      • etc.
    • Una forma “bien definida” da indicios de una “posible” relación de causa-efecto.
    • Pero sólo indicios: para que haya relación de causa-efecto hace falta analizar racionalmente.
    • Si la nube de puntos se condensa en torno a una recta o curva imaginaria, se podrá predecir valores de una variable conociendo la otra:
      • Si los puntos se aproximan mucho a la curva imaginaria, entonces la predicción tendrá bastante precisión.
      • Si los puntos distan mucho de la curva imaginaria, entonces la predicción tendrá menos precisión.

Estratificación

Un muestreo muy adecuado para obtener una muestra muy representativa de la población de estudio es el muestreo aleatorio simple:

  • Se numeran los individuos de 1 a nn.
  • Se sortean completamente al azar todos los números.
  • Se busca a los individuos de los números premiados para obtener sus datos.

El gráfico de control

En procesos que realizan y se monitorean a lo largo del tiempo, estar bajo control es seguir unas criterios prefijados. En ocasiones esos criterios se incumplen, y hay que determinar si:

  • es algo puntual y casual que se va a reconducir por sí solo, o
  • es una tendencia que no se recupera y hay que parar la cadena.

Para ello se aprovecha las leyes de la probabilidad en 3 modelos conocidos:

  • El modelo binomial, que versa en torno al número de éxitos (fallos) en una racha de intentos consecutivos, cuando se conoce la probabilidad individual de que cada intento sea un éxito (fallo).
  • El modelo de Poisson, que versa en torno al número de éxitos (fallos) en un intervalo de tiempo o espacio, cuando se conoce el número medio de éxitos (fallos) por intervalo unidad.
  • El modelo normal o Gaussiano, que versa en torno al valor de una característica numérica cuando se conoce la media y varianza de la población.
Conclusión:

La estadística  es el estudio de los modos de recolectar y analizar datos con el fin de establecer conclusiones acerca del medio del cual se han obtenido los datos. a es la ciencia que trata sobre la toma, organización, recopilación, presentación y análisis  de datos para deducir conclusiones sobre ellos y para tomar decisiones que estén de acuerdo con los análisis efectuados.

Referencias bibliográficas:

Pedro Faraldo. (2013). Estadística descriptiva. 2021, de USC Sitio web: http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_G2021103104_EstadisticaTema1.pdf


Pablo Gregori. (2016). Herramientas estadísticas básicas. 2021, de UJI Sitio web: http://www3.uji.es/~gregori/docencia/mt1021-1516/tema5-herramientas-pablo.html


Modulo 12 Actividad Integradora

  DESCARGAR DOCUMENTO