ETL, el gran coste del Big Data

Negocios
4 39 No hay comentarios

Para un 97% de profesionales de BI los procesos ETL (Extract, Transform and Load) son críticos, y un tercio gasta entre el 50% y el 90% de su tiempo en ellos.

Tanto hablar de las ventajas que ofrece el Big Data, de la cantidad de inteligencia que es capaz de proporcionar, que a veces se nos olvida hablar de los costes que genera; y cuando lo hacemos la mente se estanca en el almacenamiento de los datos, en la cantidad de megas, teras y zetas que se necesitas, en cómo combinar un almacenamiento de disco duro tradicional y flash para contener los costes manteniendo la agilidad en el acceso a esos datos.

Ahora, una encuesta realizada por Xplenty, un proveedor de plataformas de integración, alerta sobre el coste de los procesos ETL cuando se trabaja con Big Data.

ETL, o Extract, Transform and Load, es el proceso que es necesario hacer cuando se quiere trabajar con datos. La primera parte consiste en extraer datos de calidad de fuentes homogéneas y heterogéneas; e la segunda fase del proceso se aplican una serie de reglas para transformar los datos de forma que, por ejemplo, las medidas tengan la misma dimensión, o se apliquen reglas de validación avanzadas; por último, al llegar a la carga de los datos, hay que asegurar que dicha carga se realiza de forma correcta y con los menores recursos posibles.

ETL Process

Según los datos de la encuesta de Xplenty, un tercio de los profesionales de BI (Business Intelligence) gastan entre un 50% y un 90% de su tiempo en limpiar los datos que luego van a analizar. Además, para el 97% de los encuestados los procesos ETL son críticos en sus tareas de Business Intelligence.

Xplenty también se ha preocupado por saber el peso del cloud en la tecnología ETL. En este sentido un 51% de los encuestados trabajan con soluciones ETL on-premise, frente al 49% que utiliza herramientas basadas en cloud; además el 51% de los que utilizan herramientas ETL on-premise, están considerando mover todos los procesos ETL al cloud. Como es habitual, Cloud ETL ofrece más agilidad y menores costes que las soluciones on-premise.

Según el estudio, para un 55% el mayor reto a la hora de preparar los datos para su análisis es tener que integrarlos desde diferentes plataformas; un 39% apunta a las tareas de transformación, limpieza y formateo de los datos entrantes; integrar datos relacionales y no relacionales (32%) y el volumen de datos a gestionar (21%),

Para la elaboración del estudio se encuestó a más de 200 profesionales del mercado de BI en Estados Unidos durante el mes de mayo.


Leer la biografía del autor  Ocultar la biografía del autor