Analizando los datos y Azure Machine Learning


En esta entrada se describen como conocer los datos en Azure Machine Learing; es una paso necesario para el punto 4.- Determinar los elementos clave a analizar descrito en la entrada Pasos para realizar un experimento de Aprendizaje Automático y Azure Machine Learning.

En la entrada se describen los diferentes aspectos por los que los datos pueden ser analizados.

Tendencia Central

  • Media: El valor promedio de tendencia central.
  • Mediana: El valor de la variable de posición central en un conjunto de datos ordenados.
  • Moda: El valor con una mayor frecuencia en una distribución de datos.

En Azure Machine Learing, disponemos del módulo Descriptive Statistics que nos ofrece un conjunto amplio de estadísticas sobre los datos. Al visualizar la información de este módulo; disponemos la lista de las columnas con los diferentes valores estadísticos de los mismos.

Visualización del Modulo Descriptive Statistics

Visualización del Modulo Descriptive Statistics

Distribución

La forma que presentan los datos: siguen una distribución normal, hay outliers o errores, distribución asimétrica…

  • Histograma en Azure Machine Learning

    Histograma en Azure Machine Learning

    Histograma: Gráfico de barras donde se muestra la frecuencia de los valores de la variable.
    En Azure Machine Learing sobre el menú contextual de los datos seleccionamos Visualize, posteriormente pulsamos una columna y en la derecha se nos muestra el histograma.
  • Rango: Diferencia entre el valor maximo y minimo de la variable.
  • Cuartiles: El valor de la variable al 25% (Q1), 50% (Q2) y 75% (Q3) en un conjunto de datos ordenados. Se suele presentar en un diagrama de caja.
  • Variancia: Media de la diferencia al cuadrado entre los valores y la media de la variable.
  • Desviacion Standard: raiz cuadrada de la variancia.
  • Distribución Asimétrica: Para analizar si la distribución esta más a la izquierda o la derecha de la media. Momento de Pearson o Kurtosis.

En el módulo Descriptive Statistics encontraremos esta información.

Representavidad de la Muestra

Determinan el error en función del numero de valores capturados de la variable.

  • Error Standard:Desviación estándar dividido por la raíz del numero de muestras.
  • Intervalos de Confianza: Intervalo de los datos para un nivel de confianza; suponiendo distribución normal.

Relación entre variables

Determinan la interacción entre los valores de las diferentes variables.

  • Diagrama de Dispersión en Azure Machine Learning

    Diagrama de Dispersión en Azure Machine Learning

    Diagramas de Dispersión:Muestran en un gráfico x/y la relación entre dos variables.
    En Azure Machine Learing sobre el menú contextual de los datos seleccionamos Visualize, posteriormente pulsamos la columna X. En la derecha se nos muestra el histograma. En la combo superior seleccionamos la columna Y.
  • Tablas de Contingencia: Muestran una tabla x/y con la distribución entre dos variables categóricas.
    En Azure Machine Learning se obtiene de la misma forma que el punto anterior.
  • Coeficiente de Correlación: Determina si hay una relación lineal (1), inversamente lineal (-1) o no la hay (0).
    Coeficiente de Correlación en Azure Machine Learning

    Linear Correlation en Azure Machine Learning


    En Azure Machine Learning, disponemos del módulo Linear Correlation que nos retorna un matriz con la coeficientes de correlación entre las diferentes columnas.
  • Tau de Kendal: Dos variables son concordantes si dos valores consecutivos de la primera variable tienen el mismo signo la diferencia de la segunda variable observada. Determina si hay una relación de concordancia (1), discordancia (-1) o no la hay (0).
  • T-Test: Determina si dos muestras son similares o desapareadas.
    En Azure Machine Learning, disponemos del módulo Hypothesis Testing T-Test.
  • Anova: Permite determinar si muestras que presentan una distribución normal y variancia parecida pertenecen al mismo grupo.
  • Chi-Square: Determina si entre dos muestras hay una relación de independencia o dependencia.
Anuncios
Esta entrada fue publicada en Azure Machine Learning, Cortana Analytics, Machine Learning y etiquetada . Guarda el enlace permanente.

Una respuesta a Analizando los datos y Azure Machine Learning

  1. Pingback: R, Azure Machine Learning y Análisis de Datos. | Pensando bajo la lluvia

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s