IMDEA Software

Iniciativa IMDEA

Inicio > Noticias > 2019 > La Demo de Lucas Kuhring y Zsolt István sobre "Bionic Distributed Storeage for Parquet Files" ha sido aceptada en VLDB'19

11 de junio de 2019

La Demo de Lucas Kuhring y Zsolt István sobre "Bionic Distributed Storeage for Parquet Files" ha sido aceptada en VLDB'19

Lucas Kuhring y Zsolt István, investigadores del Instituto IMDEA Software, presentarán la demo “I Can’t Believe It’s Not (Only) Software! Bionic Distributed Storage for Parquet Files”, en la 45ª Conferencia Internacional sobre Bases de Datos de Gran Tamaño (VLDB'19) en Los Ángeles, Estados Unidos.

El tamaño de los datos que deben almacenarse y procesarse como parte de las aplicaciones de ciencias de la información está aumentando, lo que provoca cuellos de botella e ineficiencias en los centros de datos. Una forma de reducir estos cuellos de botella es adaptar la solución de almacenamiento distribuido subyacente al dominio de la aplicación, utilizando los recursos de forma más eficiente. Lucas y Zsolt han explorado esta idea en el contexto de un popular formato de almacenamiento orientado a columnas utilizado en volúmenes de trabajo en Big Data, concretamente Apache Parquet.

El prototipo que han creado utiliza un nodo de almacenamiento basado en Field Programmable Gate Arrays (FPGAs) que ofrece deduplicación de datos de gran ancho de banda y, en el futuro, procesamiento de datos cercano para para volúmenes de trabajo en machine learning. El hardware se combina con una biblioteca de software que permite un acceso transparente a los Parquet Files.

La demostración indica que es posible implementar la deduplicación en línea sin aumentar significativamente las latencias o reducir el rendimiento basándose en el modelo de procesamiento de flujo de datos de la FPGA. También destaca los beneficios de implementar los aspectos específicos de la aplicación en una biblioteca de software en lugar de circuitos FPGA y cómo esto permite, por ejemplo, los frameworks de ciencia de datos regulares que se ejecutan en Python para acceder a los datos en nodos de almacenamiento.

Pic