La ley del máximo esfuerzo
NUEVA ENTRADA: Introducción a Apache Kafka: un recolector de mensajes
A lo largo de las próximas semanas, voy a estar haciendo un poco de investigación a bajo nivel de Hadoop y todo su ecosistema. Algunos se preguntarán (y con razón), ¿porqué motivo reinventar la rueda cuando hay soluciones excelentes ya montadas para la explotación del Big Data como los que ofrecen Cloudera (http://www.cloudera.com/), Horton Works (hortonworks.com) o IBM InfoSphere BigInsights (http://www-01.ibm.com/software/data/infosphere/biginsights)?
Bueno, por la ley del máximo esfuerzo, por supuesto, aquella por la cual cuando tienes sed caminas decenas (o cientos) de kilómetros para ir al mar, llenar un vaso con agua, desalinizarlo y bebértelo... sólo para darte cuenta de que sigues teniendo sed... pero ya sabes como funciona un proceso de desalinización.
NOTA: Al hilo de la ley del máximo esfuerzo, hay un excelente libro de un británico que se hizo una tostadora de cero a base de conseguir los materiales que necesitaba, trabajarlos y montarlos. El libro en cuestión se llama "The Toaster Project" de Thomas Thwaites y se puede adquirir en formato kindle en The Toaster Project en Amazon.es
Tecnologías Big Data
La investigación se va a centrar, en este orden mas o menos, en los siguientes puntos:
- Instalando Apache Hadoop en modo Pseudo-Distribuido
- El Ecosistema de Hadoop - Un resumen de las tecnologías que envuelven Hadoop
- Escribiendo un Hadoop MapReduce en Java: Un Wordcount mejorado
- Instalando Apache Hadoop en modo Distribuido
- Usando Amazon EMR para ejecutar un Hadoop MapReduce
- Primeros pasos con Apache Pig. Usando Pig para hacer un contador de palabras
- Usando una Rapsberry Pi como esclavo en Apache Hadoop
- Creando scripts en Apache Pig para Hadoop
- Usando Apache Pig en modo distribuido (o pseudo-distribuido)
- Usando Amazon EMR para ejecutar nuestras consultas con Apache Pig
- Primeros pasos con Apache Hive. Creando el contador de palabras en Apache Hive
- Aplicaciones distribuidas con Zoekeeper.
- Real Time Analytics con Apache Storm: Un contador de palabras en tiempo real
- Instalando un cluster de Apache Storm
- Creando scripts de Apache Hive y ejecutándolos en el cluster de Hadoop
- Usando Amazon EMR para ejecutar nuestras consultas en Apache Hive
- Primeros pasos con machine-learning usando Mahout... un recomendador de productos
- Creando flujos de trabajos con Oozie
- Introducción a la logística de datos con Apache Flume
- Logística de datos con Apache Sqoop: Importando bases de datos al HDFS
- Logística de datos con Apache Sqoop: Exportando datos del HDFS a MySQL
- Analizando datos con R y Hadoop.
- Introducción a Apache Spark
- Introducción y primeros pasos con Hbase
- Introducción a Apache Kafka: un recolector de mensajes
- Tanteando Shark y sus posibilidades
- Mas machine learning con MLlib
- Escapando del modo consola con GraphX. Gráficos para Big Data
- Haciendo dashboards de Big Data con Intellicus
- Mas...?
Páginas webs oficiales
Apache Hadoop: hadoop.apache.org/
Amazon AWS: aws.amazon.com/
Amazon EMR: http://aws.amazon.com/elasticmapreduce/
Apache Pig: http://pig.apache.org/
Apache Hive: hive.apache.org
Apache Flume: flume.apache.org
Apache Mahout: http://mahout.apache.org
R: www.r-project.org
Apache Spark: http://spark.apache.org/
Apache Storm: http://storm.incubator.apache.org/
Apache Hbase: http://hbase.apache.org
Shark: http://shark.cs.berkeley.edu
MLlib: http://spark.apache.org/mllib/
Graphx: http://amplab.github.io/graphx/
Apache Kafka: http://kafka.apache.org/
Apache Spark: http://spark.apache.org/
Apache Storm: http://storm.incubator.apache.org/
Apache Hbase: http://hbase.apache.org
Shark: http://shark.cs.berkeley.edu
MLlib: http://spark.apache.org/mllib/
Graphx: http://amplab.github.io/graphx/
Apache Kafka: http://kafka.apache.org/
0 comentarios:
Publicar un comentario