Curso Hadoop en Madrid, Barcelona y Online

Duración: 24 Horas

Modalidad: Presencial disponible únicamente bajo demanda In Company. 

Objetivos

Obtener las habilidades necesarias para analizar datos y desarrollar aplicaciones sobre Hadoop

- Los aspectos más importantes de la arquitectura de Hadoop
- La implementación de trabajos MapReduce y los patrones de uso más comunes
- Qué problemas resuelve Hadoop y cuáles no resuelve
- Cómo configurar y gestionar un cluster de Hadoop
-Cómo importar y exportar datos en Hadoop
- Nociones sobre las interfaces de alto nivel para Hadoop más importantes

Temario

Por qué y para qué Hadoop
>Limitaciones de la escalabilidad vertical
>El tiempo de acceso aleatorio como hándicap
>Emergencia de grandes volúmenes de datos: Big Data
>Necesidad de un nuevo enfoque
>Qué es Hadoop

La arquitectura de Hadoop
>El sistema distribuido de ficheros (HDFS)
>El paradigma MapReduce
>Estructura de un cluster de Hadoop: jobTracker, TaskTracker, NameNode y DataNode
>Instalación y configuración de Hadoop

La API básica de Hadoop
>API básica: Mapper, Reducer, Job, Configuration, jobCiient
>Entrada/salida: lnputFormat, OutputFormat y sus variantes
>Tipos básicos: Text, lntWritable,

LongWritable, ObjectWritable, etc
> Streaming API

Desarrollo de aplicaciones MapReduce
>Desarrollo de una aplicación simple con Hadoop
>Ejecución de aplicaciones en Hadoop
>Patrones de uso común: filtrado, ordenación,recuento, particionamiento, ejecución de tareas distribuidas, reconciliación
>Diseño de aplicaciones: cuándo Hadoop es apropiado y cuándo no lo es

Recetas prácticas
>Eclipse como herramienta de desarrollo para Hadoop
>Ejecución de Hadoop en modo "local"
>Contadores
>Depuración y búsqueda de errores
> Testing

Importación/Exportación de datos
>Acceso directo al HDFS
>Importación de bases de datos: Sqoop

El ecosistema de Hadoop
> Hive: Datawarehousing y plataforma de análisis SQL
> Pig
>Oozie
> Pangool: Tuple MapReduce

Clusters Hadoop en Amazon
>Cómo arrancar y gestionar clusters con Amazon Elastic Map Reduce

Programación avanzada en MapReduce
> Serialización/deserialización con Thrift
>API avanzada: Partitioner, Writable, WritableComparable, DistributedCache, métodos configure() y close()
>Ordenación secundaria
>Patrones de uso avanzados: joins
>Generación de índices Solr desde Hadoop