Escuela Superior de Ingeniería Informática

Universidad de Castilla-La Mancha

Futuros Estudiantes Foreign Students Estudiantes Antiguos Estudiantes Empresas	WebMail ESII Net

Escuela Superior de Ingeniería Informática

La Escuela
- Conócenos
- Órganos de Gobierno
- Política de Calidad
- Personal
- Departamentos
- Instalaciones
- ¿Cómo llegar?
Grado
- Datos del Título
- Justificación
- Objetivos y Competencias
- Visión General del Título
- Acceso a los Estudios
- Plan de Estudios
- Opción Bilingüe
- Horarios
- Exámenes
- Normativa
- Reconocimiento de Créditos
- Trabajos Fin de Grado
- Tribunales TFGs
- Coordinación de la carga
- Modo evaluación
Máster: MUII
- Videos de MUii
- Web Oficial
- Perfil ingreso recomendado
- Trabajo Fin de Máster
- Tribunales TFMs
- Empresas involucradas
- Horarios
- Exámenes
- Profesorado
- Coordinación de carga
- Contacto
Doctorado
Títulos a Extinguir
- I.T. Informática Sistemas
- I.T. Informática de Gestión
- I. Informática
- Horarios
- Exámenes
- Normativa
- Calendario de Extinción
- Adaptaciones al Grado
- Proyectos fin de Carrera
Investigación

cambiar a curso: 2015-16 2017-18

Usted está en: Inicio -> Grado en Ingeniería Informática -> 42358

Grado en Ingeniería Informática

TRABAJOS FIN DE GRADO
curso: 2016-17

Instalación y optimización de Spark sobre un clúster de altas prestaciones

Tecnologías Específicas

Ingeniería de Computadores

Descripcion y Objetivos

Durante los últimos años, ha surgido un gran interés tanto desde el mundo académico como desde la industria por el procesamiento masivo de datos. Apache Spark está ganando cada vez más prominencia como herramienta para el procesamiento eficiente de grandes volúmenes de datos, gracias a su habilidad para aprovechar las jerarquías de memoria de los nodos de cálculo de los clústers donde se ejecuta de manera eficiente. No obstante, la red de interconexión sigue desempeñando un papel importante en la eficiencia de Spark, debido principalmente a las fases de "barajado" de datos que implica su flujo de trabajo.

El objetivo principal de este TFG es instalar Spark sobre un clúster de cálculo dotado de una red de tecnología InfiniBand de altas prestaciones. Para validar dicha instalación y ajustar los parámetros de configuración de Spark, se emplearán una serie de benchmarks. Además, se explorará la posibilidad de emplear los protocolos de comunicación propios de dicha tecnología, y no los protocolos TCP/IP.

El Instituto de Investigación Informática Albacete (I3A) dispone para este proyecto del cluster CELLIA (Cluster for the Evaluation of Low-Latency Interconnection Architectures), compuesto por 38 nodos de cómputo interconectados mediante tarjetas de red, conmutadores y cables InfiniBand.

Metodología y Competencias

El presente TFG se llevará a cabo mediante la implementación de Spark en un sistema real y su posterior evaluación. Para ello, se han identificado las siguientes tareas:

Estudio del entorno Apache Spark

Estudio de la tecnología InfiniBand

Prueba de concepto de Spark sobre un número pequeño de nodos en el clúster CELLIA

Estudio de la escalabilidad de Spark sobre CELLIA

Estudio del impacto de la red de interconexión sobre las prestaciones de Spark

Medios a utilizar

Cluster CELLIA, del grupo RAAP en el I3A

Software Spark, de código abierto

Drivers de Hadoop para Infiniband, de código abierto

Benchmarks para Spark, de código abierto

Bibliografía

Página web Apache Spark, en http://spark.apache.org/

Página web High-Performance Big Data (HiBD), en http://hibd.cse.ohio-state.edu/

Bechmarcks para Spark, en https://github.com/databricks/spark-perf

Esta bibliografía básica se irá ampliando durante la ejecución del proyecto.

Tutores

ESCUDERO SAHUQUILLO, JESUS
CAMINERO HERRÁEZ, Mª BLANCA

Alumno

Curso: 2016-17
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete
informatica.ab@uclm.es
aviso legal