Glosario de Terminos de Big Data


Arquitectura base en Hadoop

  • HDFS: Sistema de ficheros que distribuye los datos en múltiples nodos. Este sistema implementa redundancia y tolerancia frente a fallos. Además no depende de Hardware específico.
    Los componentes de HDFS son:
    • Un Name Node que gestiona la estructura del sistema de ficheros. Puede estar redundado en Secundary Name Node.
    • Varios Data Nodes que almacenan bloques de los ficheros. Por defecto los bloques se encuentran replicados en 3 Data Nodes.
  • MapReduce: Tecnología de acceso y procesado distribuido de los datos. Accede a los datos mediante el procesado de los datos en cada nodo (Map) y la unificación de estos datos procesados de los diferentes nodos (Reduce).
    Los componentes de MapReduce son:
    • Job Tracker que gestiona el procesado de las tareas.
    • TaskTracker realizan las tareas.

    HadoopComponents

  • Yarn: Es un motor gestión de recursos y servicios que se incorpora Hadoop 2.0. Mejora la eficiencia de MapReduce y además permite poner otros motores de procesado distribuido de datos más eficientes como Tez.
    YARN-hadoop2.0
    Los componentes de Yarn son:

    • Resource Manager
    • Varios Node Manager

Arquitectura de Uso en Hadoop

  • Pig: Ejecuta pseudo comandos similares a bloques de consulta de SQL (Pig Latin) para realizar el proceso de MapReduce.
  • Hive: Ejecuta comandos de Sql (HiveQL) que generan el proceso de MapReduce/Tez.
  • Files: Permite gestionar ficheros de HDFS.
  • Ambari: Es una aplicación Web o Api Rest que nos permiete provisionar, gestionar, monitorizar y securizar los clusters de Hadoop.
  • Sqoop: Transfiere los datos de HDFS desde/hacia bases de datos.
  • Flume: Transfiere los datos de Streaming hacia HDFS.
  • Kylin: OLAP sobre Hadoop.

Distribuciones de Hadoop

  • HDInsight: es la distribución de Hadoop pensada para Azure (Servicio PAS). El HDFS se monta sobre el Windows Azure Blob Storage o Azure Data Lake. Esta basado en la distribución de Hortonworks.
  • HortonWorks SandBox: es una distribución que permite desplegar todo el Hadoop en una sola maquina. Es ideal para pruebas ;-).
  • HortonWorks Data Platform: es una distribución en IAS. Incorpora: YARN, HDFS, MR,Pig,Hive,TEZ, HBase, Storm, Spark, Sqoop, Oozie, Flume…
  • Cloudera Enterpirse Data Hub: es una distribución en IAS. Incorpora servicio propio Impala.

Arquitectura base en Spark

  • Worker Nodes: nodos encargados de realizar las operaciones.
  • SparkContext: coordina los Worker Nodes.
  • ArquitecturaSpark

  • RDD: colecciones de datos distribuidos en memoria o disco basados en HDFS o colecciones.
  • Operaciones: Es el equivalente a MapReduce. El procesado Map se llama Tranformación y nos retorna un RDD. El procesado Reduce se llama Acción y nos retorna el resultado al SparkContext o a un fichero.
Anuncios
Esta entrada fue publicada en Azure, Big Data. Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s