lunes, abril 21, 2014

Big-Data con Hadoop

La ley del máximo esfuerzo


A lo largo de las próximas semanas, voy a estar haciendo un poco de investigación a bajo nivel de Hadoop y todo su ecosistema. Algunos se preguntarán (y con razón), ¿porqué motivo reinventar la rueda cuando hay soluciones excelentes ya montadas para la explotación del Big Data como los que ofrecen Cloudera (http://www.cloudera.com/), Horton Works (hortonworks.com) o IBM InfoSphere BigInsights (http://www-01.ibm.com/software/data/infosphere/biginsights)?

Bueno, por la ley del máximo esfuerzo, por supuesto, aquella por la cual cuando tienes sed caminas decenas (o cientos) de kilómetros para ir al mar, llenar un vaso con agua, desalinizarlo y bebértelo... sólo para darte cuenta de que sigues teniendo sed... pero ya sabes como funciona un proceso de desalinización.

NOTA: Al hilo de la ley del máximo esfuerzo, hay un excelente libro de un británico que se hizo una tostadora de cero a base de conseguir los materiales que necesitaba, trabajarlos y montarlos. El libro en cuestión se llama "The Toaster Project" de Thomas Thwaites y se puede adquirir en formato kindle en The Toaster Project en Amazon.es

Tecnologías Big Data

La investigación se va a centrar, en este orden mas o menos, en los siguientes puntos:

  1. Instalando Apache Hadoop en modo Pseudo-Distribuido
  2. El Ecosistema de Hadoop - Un resumen de las tecnologías que envuelven Hadoop
  3. Escribiendo un Hadoop MapReduce en Java: Un Wordcount mejorado
  4. Instalando Apache Hadoop en modo Distribuido
  5. Usando Amazon EMR para ejecutar un Hadoop MapReduce
  6. Primeros pasos con Apache Pig. Usando Pig para hacer un contador de palabras
  7. Usando una Rapsberry Pi como esclavo en Apache Hadoop
  8. Creando scripts en Apache Pig para Hadoop
  9. Usando Apache Pig en modo distribuido (o pseudo-distribuido)
  10. Usando Amazon EMR para ejecutar nuestras consultas con Apache Pig
  11. Primeros pasos con Apache Hive. Creando el contador de palabras en Apache Hive
  12. Aplicaciones distribuidas con Zoekeeper.
  13. Real Time Analytics con Apache Storm: Un contador de palabras en tiempo real
  14. Instalando un cluster de Apache Storm
  15. Creando scripts de Apache Hive y ejecutándolos en el cluster de Hadoop
  16. Usando Amazon EMR para ejecutar nuestras consultas en Apache Hive
  17. Primeros pasos con machine-learning usando Mahout... un recomendador de productos
  18. Creando flujos de trabajos con Oozie
  19. Introducción a la logística de datos con Apache Flume
  20. Logística de datos con Apache Sqoop: Importando bases de datos al HDFS
  21. Logística de datos con Apache Sqoop: Exportando datos del HDFS a MySQL
  22. Analizando datos con R y Hadoop.
  23. Introducción a Apache Spark
  24. Introducción y primeros pasos con Hbase
  25. Introducción a Apache Kafka: un recolector de mensajes
  26. Tanteando Shark y sus posibilidades
  27. Mas machine learning con MLlib
  28. Escapando del modo consola con GraphX. Gráficos para Big Data
  29. Haciendo dashboards de Big Data con Intellicus
  30. Mas...?

Páginas webs oficiales

Apache Hadoop: hadoop.apache.org/‎
Amazon AWS: aws.amazon.com/‎
Apache Hive: hive.apache.org
Apache Flume: flume.apache.org
Apache Mahout: http://mahout.apache.org

0 comentarios:

Publicar un comentario