R, Azure Machine Learning y Análisis de Datos.


En la entrada anterior Analizando los datos y Azure Machine Learning describí las métricas usadas para el análisis de datos. Dado que hay métricas que no se pueden obtener directamente de Azure Machine Learning, en esta entrada vamos a describir como obtener estos datos mediante R.

Que es R?

RlogoR es un lenguaje de scripting utilizado por estadísticos y científicos de datos. Es muy usado en el entorno de minería de datos y machine learing. Podemos descargar R en el siguiente R Project Site. También disponemos de un interfaz más amigable con R Studio en R Studio Site. Azure Machine Learing permite la ejecución de scripts de R mediante el modulo Execute R Script.
Adjunto varias guías de referencia rápida de R:

Análisis de Datos

En la entrada Analizando los datos y Azure Machine Learning se describió cada una de las métricas; aquí vamos a ver para cada tipo de métrica como obtenerla en R.

  • Tendencia Central
    array <- c(1,2,3,3,4,4,4,5,6,8,9)
    ##Media
    mean(array)
    ##Mediana
    median(array)
    ##Moda
    sort(table(array))
    
  • Distribución
    array <- c(1,2,3,3,4,4,4,5,6,8,9)
    ##Histograma
    hist(array)
    ##Cuartiles
    quantile(array)
    boxplot(array)
    ##Rango
    min(array)
    max(array)
    ##Variancia
    var(array)
    ##Desviación Standard
    sd(array)
    ## Distribución Asimétrica
    ## install.packages("fBasics")
    library(fBasics)  
    kurtosis(array)
    #Distribución en variables categóricas
    a <- table(array)  
    a ##Frecuencia
    prop.table(a)  ##Frecuencia en porcentaje 
    
  • Representavidad de la Muestra
    array <- c(1,2,3,3,4,4,4,5,6,8,9)
    #Error Standard
    errorStandard <- sd(array)/sqrt(length(array))
    #Intervalos de Confianza
    errorMuestra <- qt(0.975,df=length(array)-1)*errorStandard
    left <- mean(array)-errorMuestra
    right <- mean(array)+errorMuestra
    paste("[",left,",",right,"]",sep="")
    
  • Relación entre variables
  • array <- c(1,2,3,3,4,4,4,5,6,8,9)
    array2 <- c(1,2,4,6,5,3,4,5,7,8,10)
    #Diagramas de Dispersión
    plot(x=array, y=array2)
    #Tablas de Contingencia
    #install.packages("gmodels")
    library("gmodels")
    CrossTable(x = array, y = array2)
    #Coeficiente de Correlación
    cor(array,array2)
    #Tau de Kendal
    cor.test(array , array2 , method="kendall")
    #T-Test
    cor.test(array,array2)
    #Anova
    arrays <- list(x1=array,x2=array2)
    arrayStack <- stack(arrays)
    results <- aov(values~ind, data=arrayStack )
    summary(results)
    #Chi-Square
    library("gmodels")
    CrossTable(x = array, y = array2,chisq = TRUE )
    

PD:
Libera toda la memoria de R. Eliminando todas las variables de la sesión. 😉

rm(list=ls())
Anuncios
Esta entrada fue publicada en Azure Machine Learning, Desarrollo, Machine Learning. Guarda el enlace permanente.

2 respuestas a R, Azure Machine Learning y Análisis de Datos.

  1. Pingback: Técnicas de Aprendizaje automático y Azure Machine Learning | Pensando bajo la lluvia

  2. Pingback: Jupyter y Notebooks en Azure Machine Learning | Pensando bajo la lluvia

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s