La cuestión de la calidad de los datos, clave para el éxito de la empresa ChannelBiz

Isidre Royo, Sr. Product Manager Analytic Solutions, OpenText, analiza en este artículo lo importante que es trabajar con datos de calidad.

Si partimos de la idea de que todas las empresas están recolectando datos, uno de los problemas más arraigados y caros de resolver es la calidad de dichos datos. El análisis de los datos es completamente inútil si no partimos de datos fiables, porque las respuestas que buscamos pueden desviarse muchísimo de la realidad de nuestro negocio y errar en groso modo en nuestra toma de decisiones.

En plena transformación digital, con la adopción del Big Data dentro de las empresas que desean extraer valor de sus datos, en las que el crecimiento de la información es extremadamente veloz y los volúmenes se vuelven menos manejables; la calidad de los datos recogidos sigue siendo el mismo problema de antes, aunque agravado por la propia idiosincrasia del Big Data.

Las organizaciones creen en general que trabajan con datos satisfactorios o suficientemente buenos, pero reconocen que, si los datos son de baja calidad, esto afecta dramáticamente a su uso en proyectos o análisis. Esa afección puede llegar a suponer una pérdida de valor de negocio de casi el 50%.

El origen de la mala calidad de los datos

Normalmente podemos diferenciar cuatro fuentes o motivos de mala calidad de datos:

El desconocimiento de los datos se considera un problema cuando no sabemos qué significan ciertos datos, o significan otra cosa que no es la esperada. Esto puede ser debido a que la estructura es demasiado compleja, especialmente en los grandes sistemas de bases de datos relacionales transaccionales, o a que el origen de los datos no está claro si se trata de una fuente externa.

La variedad de las fuentes es un problema cuando se trata de integrar información. Esas tareas conllevan el cruce de información que acostumbra a no poder enlazarse y requiere de un esfuerzo importante para poder normalizar y disponer de una fuente limpia de datos.

Las transferencias de conocimiento ocurren en distintos puntos de los negocios: cuando un empleado provee la información al sistema, o lo hace un cliente, o los datos se han transferido desde una fuente interna o externa, por ejemplo. Esos procesos acarrean múltiples situaciones de riesgo en la que los datos se pueden “ensuciar”.

Y el último motivo sería los errores del sistema producidos por caídas de servidores, funcionamiento anómalo, datos que han quedado huérfanos, duplicados, etc.

Qué retos plantea la calidad de los datos

La definición convencional de calidad de datos es aquella que nos dice que los datos son exactos, completos, únicos, eternos y consistentes. Esa calidad y esa integridad es lo que nos ofrece garantías de que el valor que vamos a extraer de esos datos es fiable, útil y no va a hacer que tomemos decisiones erróneas.

Corregir un problema de calidad de datos no es fácil, es costoso y no se ve el beneficio a corto plazo. Su complejidad además radica en lo que denominamos el Data Quality Continuum, es decir, los datos y la información fluyen, no son estáticos, tanto en su recolección como en sus procesos de uso. Así, tenemos muchos puntos de control o análisis de dicha calidad: en la recogida, en la entrega, en el almacenamiento, en la integración, en su recuperación y durante el análisis o el minado de datos.

Cada punto de análisis requiere un enfoque distinto en el momento de resolverlo. Y para poder afrontarlo en condiciones, hay que tener un plan de aseguramiento de la calidad de los datos.

Un ejemplo clásico de plan es el análisis de la calidad de datos a la entrada en el sistema, donde normalmente tenemos una entrada manual, o no hay sistemas estándar unificados a lo largo de la organización. El riesgo analizado es que la introducción de datos puede ser errónea, duplicada, o simples aproximaciones, circunstancias achacables a limitaciones de hardware o software. En estos casos siempre se recomiendan dos tipos de acciones a planificar: actuar preventivamente sobre la arquitectura de procesos, construyendo puntos de control de integridad, o en la gestión de los mismos procesos, premiando la entrada acertada de datos o disponiendo de vigilantes de los datos; o actuar de formar retrospectiva, focalizado en tareas de limpieza o de diagnóstico (detección de errores).

El éxito en los planes de gestión de la calidad de datos: medir y evangelizar

Para garantizar el éxito de los planes de gestión de la calidad de datos es imprescindible que se midan los resultados en diferentes puntos del flujo de datos en los negocios. La dificultad de medir es saber qué tipos de métricas se requieren para conseguir nuestro objetivo de reducir la mala calidad en nuestros datos.

Algunos ejemplos serían:

Medir la conformidad con el esquema de datos de almacenamiento, evaluando los condicionantes entre los elementos que nos ofrecen los actuales sistemas de bases de datos relacionales (las denominadas constraints) en un momento dado de la vida del transaccional (snapshot); y adicionalmente, hacer el seguimiento de elementos huérfanos o no enlazados con el resto.
Medir la conformidad con las reglas de negocio que se definen en los procesos y en el flujo de datos. Que un condicionante entre elementos de distintas tablas de una base de datos sea válido, no implica que tenga sentido a nivel de negocio. Se deben medir los niveles de consistencia y correspondencia entre los datos y la realidad de la información que se maneja a nivel de negocio.
Analizar la exactitud de los datos, realizando un inventario de la actual situación (acostumbra a ser costoso) o trabajar y auditar muestras (menos costoso, pero no es 100% fiable).
Medir la accesibilidad y correcta interpretación de los datos.
Cuantificar errores de los sistemas en los análisis que derivan en mala calidad de datos.
Medir el nivel de éxito de los procesos completados de origen a fin.

Pero todo esto no serviría de nada si no tenemos a toda la organización involucrada en la mejora de la calidad de los datos. Ya lo apuntan los expertos como Thomas C. Redman en un artículo en el Harvard Business Review.Se requiere implicar lo que Redman denomina los “provocadores de los datos”, personas de diferentes áreas de nuestro negocio: desde altos ejecutivos hasta nuevos empleados. Estos provocadores ayudarán en este proceso evangelizando a los equipos de sus áreas o zonas. Incluso algunas empresas plantean premios a aquellos empleados que detecten puntos de generación de errores en los datos que deriven en problemas graves de mala calidad de los datos. Se trata de fomentar e inculcar la idea de que el dato exacto e íntegro es de gran valor para la compañía.

La calidad de los datos y su impacto en los negocios son un tema muy importante hoy en día, dado que las organizaciones que toman medidas al respecto se aseguran mayores ingresos porque sus decisiones se toman en base a datos fiables, se disminuyen costes en términos de errores cometidos y se reduce extremadanamente el tiempo que se emplea desde la recopilación de los datos al valor final en la toma de decisiones.

Pero el viaje a realizar para resolver este problema requiere involucrar todos los niveles de la empresa y asumir unos costes cuyos beneficios pueden no resultar visibles a corto plazo, pero que a la larga acabarán repercutiendo positivamente en el beneficio de estas compañías y en su competitividad en el mercado.

Lea también :

La cuestión de la calidad de los datos, clave para el éxito de la empresa

El origen de la mala calidad de los datos

Qué retos plantea la calidad de los datos

El éxito en los planes de gestión de la calidad de datos: medir y evangelizar

Las soluciones de Informatica ya están disponibles a través de Tech Data

Atomian se asocia con Logsia para expandir su Inteligencia Artificial

Prometeus IDS apunta a reducir la brecha entre grandes y pequeñas empresas a través de los datos