Durante los últimos años, ha surgido un gran interés tanto desde el mundo académico como desde la industria por el procesamiento masivo de datos. Apache Spark está ganando cada vez más prominencia como herramienta para el procesamiento eficiente de grandes volúmenes de datos, gracias a su habilidad para aprovechar las jerarquías de memoria de los nodos de cálculo de los clústers donde se ejecuta de manera eficiente. No obstante, la red de interconexión sigue desempeñando un papel importante en la eficiencia de Spark, debido principalmente a las fases de "barajado" de datos que implica su flujo de trabajo.
El objetivo principal de este TFG es instalar Spark sobre un clúster de cálculo dotado de una red de tecnología InfiniBand de altas prestaciones. Para validar dicha instalación y ajustar los parámetros de configuración de Spark, se emplearán una serie de benchmarks. Además, se explorará la posibilidad de emplear los protocolos de comunicación propios de dicha tecnología, y no los protocolos TCP/IP.
El Instituto de Investigación Informática Albacete (I3A) dispone para este proyecto del cluster CELLIA (Cluster for the Evaluation of Low-Latency Interconnection Architectures), compuesto por 38 nodos de cómputo interconectados mediante tarjetas de red, conmutadores y cables InfiniBand.