El efecto mariposa en tu Inteligencia de negocio, se llama Calidad de Datos
Esta semana, mi post va dirigido a lo que considero mas importante para el funcionamiento, crecimiento y consolidación de cualquier empresa, sea grande, mediana o pequeña, sea aplicado a nuestra inteligencia de negocio tradicional o a soluciones Big Data, es una necesidad que no entiende de tamaños, estamos hablando de la calidad de los datos y es por eso que a lo mejor me extiendo un poco mas de lo habitual, pero de verdad, creo que valdrá la pena, aunque solo sea para sembrar la duda que os haga anotarlo y subrayarlo en vuestras agendas para considerarlo.
El concepto de calidad del dato, me recuerda mucho al llamado efecto mariposa, este viene a decir "el aleteo de las alas de una mariposa puede provocar un Tsunami al otro lado del mundo", lo cual yo lo asemejo a que una falta de calidad de los datos en el origen, provoca un resultado negativo en el destino, este efecto es uno de los principios de la teoría de caos, y seo es lo que vamos a tener sino somos conscientes de la importancia de tener una calidad del dato optimo en nuestros sistemas.
Para hacernos una idea mas gráfica, imaginaos que queréis construir el rascacielos mas alto y bonito del país, contratáis para este objetivo, al mejor arquitecto del mundo, compráis la mejor parcela disponible de la ciudad, contratáis a los mejores albañiles, encofradores, capataces, etc y mucho mas, para aseguraros que el objetivo se llevara a cabo con las máximas garantías, esto también se traduce en un gasto enorme.
Pero, a la hora de comprar el material para realizar la construcción, este es de calidad dudosa, pero piensas, que mas da, seguro que no pasa nada.
El proyecto se inicia según lo previsto y pasado un tiempo, ya tenemos el gran e imponente rascacielos, la envidia de todo el país, muy bien, ahora toca la mejor parte, empezar a recibir ingresos para, recuperar la inversión inicial lo antes posible y vislumbrar en un tiempo prudencial, los primeros beneficios reales, para ello alquilamos las diferentes plantas a empresas , por un alto precio, recordamos que están en el mejor rascacielos con todos los lujos.
Pero a los pocos días, nos llaman del ayuntamiento y nos comunican que el rascacielos no ha superado la inspección de seguridad, debido a que han empezado aparecer algunas fisuras en la estructura y hay peligro de hundimiento, hay que desalojarlo !
No lo entiendo, ¿que ha podido ocurrir?
Tras la noticia, se nos queda cara de poquer y pensamos que no puede ser, pero si he contratado lo mejor, en que hemos podido fallar! entonces cáis en los materiales utilizados, estos eran baratos y no le diste mucha importancia , bien porque no te asesoraron correctamente o bien por intentar ahorrar.
Sea como sea, ahora tienes un imponente rascacielos vacío a punto de hundirse, sin posibilidad de obtener rendimiento, ni retorno de la inversión y mucho menos beneficios netos, en pocas palabras, tiene mas funcionalidad un edificio normal pero bien construido desde el inicio,que tu rascacielos por mucho menos coste o lo que es lo mismo, si no hay una calidad inicial y continua de los datos, todo proyecto esta condenado al fracaso, por mucho que hagamos después.
Este símil, lo podríamos considerar como un cuento, pero por desgracia no lo es, extrapolándolo al mundo de las empresas, esto suele ocurrir en mas del 85% de los proyectos que se inician o iniciados, donde los datos juegan un papel principal, es decir casi siempre y tiene una repercusión negativa directa, tanto a nivel de desempeño empresarial interno, como en la toma de decisiones mediante la inteligencia de negocio.
"Aun no somos del todo conscientes, que el mayor activo que posee cualquier empresa, tiene nombre propio, se llama datos."
El concepto de calidad de estos datos, lo podemos extender a muchas ámbitos, porque es calidad del producto, es calidad del trabajo, es calidad de la información, no solo al principio, sino durante todo el ciclo de vida de los datos, en definitiva, es todo lo que un negoció requiere para poder afrontar retos y proyectos que se traduzcan en productos y servicios que estén a la altura de las expectativas que esperan los clientes y mas.
No quiero que me ocurra lo mismo que al proyecto del rascacielos, ¿qué puedo hacer?
Son varios los puntos a tratar para poder llevar a cabo un buen proyecto de calidad de datos, pero este proceso se ha visto y se verá cada día mas expuesto a posibles fallos, esto hace que se planteen verdaderos retos, el motivo principal es debido al aumento exponencial de los datos y su diversidad de procedencia, siendo ahora capaces de poder acceder a nuevas bases de datos no estructuradas ( redes sociales, sensores, blogs, apps, etc), esto nos plantea una doble dificultad para la gestión e integridad de todos estos datos en nuestros sistemas, para poder desempeñar una optima gestión interna e inteligencia de negocio (Business Intelligence).
Pero empecemos por el principio y después avancemos.
A. Principales causas que originan la mala calidad de los datos
Son varias las causas que originan la mala calidad de los datos, pero las mas relevantes y con un alto índice de presencia son:
1. Datos de entrada manual: la entrada de datos de forma manual conlleva equivocaciones de tipo tipográfico e incluso de insertar datos donde no corresponde.
2. Datos externos: la entrada de datos de forma automática, de las fuentes orígenes sin un control, originan errores de formato, duplicaciones, etc.
3. En los procesos ETL o ELT: la entrada de datos durante el proceso de extracción y carga en los sistemas transaccionales, en las diferentes etapas.
4. En los procesos de Migración: si previamente no se ha analizado los cambios que hay que aplicar para incorporar los datos en la nueva estructura.
5. Modificaciones de datos existentes: ya sea porque la modificación la realice personal no cualificado o por falta de una política de integración de datos.
B. Principales errores cometidos en los datos:
Todos los procesos descritos en el anterior punto, generan diferentes tipos de error en el dato, como:
1. Información incompleta: son campos de registros incompletos, ¿cómo se comportara el proceso cuando utilicemos ese dato que no existe?
Ejemplo muy simple: Pago a un proveedor: 1.000 € + 500 € + ??? = 1.500 €. Genera un descuadre contable, seguro que el proveedor se queja y con razón.
2. Nivel de Sintaxis: cuando el formato del dato no es el apropiado. Donde hay un campo alfanumérico, introducimos un dato numérico.
Ejemplo muy simple: Código de producto: A12Z, pero ponemos 120. Seguro que ese producto nos da problemas para poderlo ofrecer al cliente, no tiene precio!, esto generará retrasos para el envio de este.
3. Nivel de Semántica: cuando el contenido no es válido. En el campo dirección de cliente, ponemos el número del la oficina incorrectamente.
Ejemplo muy simple: Dirección erronia: Calle Esperanza 12-14, en vez de 2-4. Seguro que el lote de Navidad para uno de nuestros clientes preferentes no llega.
4. Duplicaciones: hay dos o mas registros repetidos, dentro de nuestro sistema o sistemas.
Ejemplo muy simple:Envío de facturas a nuestros clientes. Mas de uno recibirá, no una sino varias, esto conlleva sobrecoste en material y mala imagen.
5. Seguridad: personal no cualificado de la empresa, puede modificar o eliminar datos, esto conlleva a un gran problema de integridad de los datos.
Ejemplo muy simple: "Alguien" ha eliminado o modificado los datos del campo "Persona de contacto" y ahora no sabemos a quien dirigirnos dentro de la empresa cliente, esto genera una mala imagen corporativa.
Estos errores son los mas comunes y los ejemplos expuestos son de un nivel muy básico en procesos internos, sin entrar en sus aplicaciones en proyectos, con unas consecuencias que a priori no parecen muy importantes, pero se podrían haber puesto otras que si son mucho mas graves, pero me las reservo para el final.
¿Qué soluciones podemos aplicar para evitar este desastre?
Primero de todo, hay que tener claro que la calidad de los datos, va muy ligado a los procesos de integración de estos en nuestros sistemas, es por ello que, deberíamos resaltar tres conceptos muy relevantes que nos sirven para comprender bien el significado de "calidad" :
1. La calidad del datos, no es algo que se controla y se soluciona al principio , es decir en su origen en las bases de datos transaccionales o no estructuradas y después nos olvidamos, ese es el primer paso si, pero tenemos que recordar un principio básico pero importante, el dato igual que la materia, ni se crea ni se destruye, solo se transforma, de esto podemos deducir entonces que tendremos que controlar el dato, no solo en su origen como hemos comentado antes, sino también en sus diferentes etapas de transformación hasta llegar al resultado final, esto se llama ciclo de vida del dato útil y es un concepto muy importante.
En pocas palabras y siguiendo con el símil del rascacielos, no es suficiente con construir este con buenos materiales en un inicio, hay que seguir con la misma calidad para futuras reformas, ampliaciones y otros, porque sino, al final obtendremos el mismo resultado catastrófico del rascacielos.
2. La calidad del dato, no es solo que los datos estén correctos a los 5 niveles descritos en el punto B, va mas allá, la calidad del dato también significa que estos estén integrados correctamente en el modelo de negocio de la empresa, es decir, que los datos deben estar adaptados según el tipo de negocio para dar respuestas directas a objetivos ad-hoc en concreto y así sacar mayor partido a unos datos fiables.
Este modelado será muy importante para poder definir y estructurar una correcta Inteligencia de negocio mediante los Data Warehouse o soluciones Big Data, que se traducirá en un gran refuerzo para la buena toma de decisiones y su consecuente éxito en proyectos.
3. También podemos extender el significado de calidad del dato dentro del contexto de integridad, a su nivel optimo de seguridad, teniendo la privacidad, confidencialidad y sobre todo , poder garantizar un acceso apropiado por parte del personal autorizado, recordemos que las consecuencias pueden ser "fuga" de información y en algunos casos pleitos legales, resumiendo, hay que definir y implementar un marco normativo y legislativo de integridad de los datos durante su ciclo de vida útil y incluso cuando se convierte en históricos.
Este es un concepto muy importante, de hecho según las últimas encuestas sobre soluciones Big Data, este punto de seguridad, va a ser una de las áreas de mayor relevancia dentro de toda empresa.
Estos tres puntos y mas, los podremos controlar mediante procesos incluidos en las políticas del Data Governance, pero esto ya lo veremos en otros post mas a fondo.
Comprendido esto, veamos que soluciones aportaremos para realizar un buen proyecto de gestión de datos.
Antes de empezar con las fases del proyecto de calidad, recalcaré de nuevo, que estos proyectos son de mejora continua en el tiempo, no se puede concluir nunca, ya que los datos no paran de producirse continuamente, otra vez hablamos del ciclo de vida de estos.
C. Soluciones para un buen proyecto "Data Quality":
1. Descubrimiento: es la fase donde detectamos y identificamos los errores comunes en los datos, de las diferentes fuentes origen, ya sean transaccionales, estructuradas, no estructuras (CRM, ERP, Webs, Blogs, etc).
2. Auditoria mediante "Perfilado" o" Data Profiling": esta fase sólo se llevará a cabo teóricamente, una vez ,como punto de partida para la mejora de calidad de los datos. Digo teóricamente, porque se puede evaluar utilizarla otra vez en casos concretos, como por ejemplo la inserción de una nueva base de datos origen que alimente nuestro sistema para la Inteigencia de negocio.
Esta fase, evalúa la raíz de los errores, detectando, clasificando y cuantificando los motivos que ,posteriormente se utilizaran para diseñar ,dentro de del perfilamiento, las reglas y objetivos a alcanzar para la optima calidad de los datos.
3. Limpieza o " Cleaning Data": es la fase dónde una vez ya identificados los errores y establecido las reglas y objetivos, diseñaremos los procesos de mejora de calidad que nos permitan alcanzar el objetivo.
4. Coincidencias: es la fase donde según las conclusiones de los anteriores puntos, diseñaremos las políticas de limpieza de datos.
5. Consolidación: es la fase donde se lleva a cabo la implementación efectiva de los procesos de mejora, diseñados en el punto número 3.
6. Monitorización: es la fase mas larga, porque es la que nunca duerme. Realiza seguimiento de la calidad del dato según los objetivos establecidos. Esta monitorización se presenta en formato de informes con resultados, alertas y otros indicadores que nos permitan tener una foto lo mas exacta posible del estado de calidad de los datos.
Todas estas fases, como he comentado antes, se deben de realizar en todos los procesos de integración del dato a lo largo de su vida útil o ciclo de vida, exceptuando, solo en algunos casos, la fase 2.
Veámos mejor un ejemplo gráfico para mostrar dónde aplicaríamos los procesos de calidad de datos, en una estructura de Inteligencia de negocio con Data Warehouse convencional y añadiendo una capa intermedia ODS(Operational Data Store) la cual nos servirá de almacenamiento intermedio entre las fuentes orígenes y el Data Warehouse que nos ayudará a optimizar la integración de los datos al modelo:
¿Y quien debe hacer todo esto?
El proyecto de Data Quality o calidad de datos, esta claro que no lo realiza una sola persona, sino que hay que definir muy bien diferentes roles que tendrán los diferentes usuarios de la empresa, que participen en este.
No quiero entrar ahora mucho en este punto, pero hagamos una pincelada, así que los diferentes roles que componen un proyecto de calidad de datos, los podríamos dividir en dos bloques:
a. Entorno de IT:
Aquí encontramos los roles puramente técnicos como:
- Security and Project Chief.
- Consultor de Integración.
- DBA (Data Base Administrador)
- Arquitecto de datos.
b. Entorno fuera de IT:
- Propietarios del dato.
- Encargados de la información
Estos roles y perfiles serían lo ideal, pero según las dimensiones de la empresa o recursos del proyecto, estos pueden verse reducidos o incluso que un mismo usuario, realice mas de un rol, pero no todos!!
La buena comunicación y predisposición de todos estos roles o perfiles, es esencial para llevar a cabo el proyecto de forma exitosa.
Entonces, aplicando este proyecto de Calidad de Datos, ¿que conseguimos?
La buena implementación de este proyecto de Calidad de Datos, nos permitirá posteriormente poder :
a. A medio plazo obtener un sistema completo de Gestíón de Datos Maestros (MDM), que nos permitirá unir los datos relevantes de las diferentes fuentes, con el objetivo de conseguir un control completo de la gestión del dato, es decir una visión 360º de nuestro negocio del todo fiable.
b. Obtener una base solida y fiable, que no es poco , para una buena gestión del Gobierno de Datos (Data Governance), donde podremos integrar entre otros, el proceso de Data Quality, todo ello imprescindible para la consolidación del buen uso y estabilidad de los datos dentro del modelo de negocio, esenciales para cualquier proyecto, ya sea para desempeño interno como externo cara a los clientes.
¿Y ya esta? seguro que hay mas
Si hay mucho mas, ¿sabes que puedes evitar?
a. Tomas de decisiones errónias: tener mala calidad de los datos, significa realizar malos análisis predictivos o otros, que se traducen en resultados ni fiables, los cuales utilizaras por ejemplo como parte de tu inteligencia de negocio, para liderar proyectos con objetivos de crecimiento, ventas, etc, por lo tanto, no crecerás ni venderás.
b. Mala imagen corporativa: la mala calidad de los datos, conlleva una pobre gestión para el desempeño del negocio, lo que se traduce a errores como facturas con importes incorrectos, retrasos, etc, todo lo que un cliente no quiere.
c. Costes innecesarios: la mala calidad de los datos, hace que dediques cada vez mas de forma cíclica, recursos internos de la empresa para detectar y corregir temporalmente los errores, en vez de invertir ese tiempo en tareas rentables para la empresa.
d. Incumplir la normativa legal: la mala seguridad de los datos, hace que estos no sean íntegros, habiendo el riesgos de carácter legal. Imagínate que se fuga información confidencial de un cliente, es muy grave.Esto repercute también en la imagen coorporativa.
Hay que ser conscientes del amplio concepto de calidad de datos, el cual hemos visto en diferentes etapas, lo extensible que es, pero lo verdaderamente importante de todo esto, es que su exclusión dentro del organigrama tecnológico de la empresa, supone un fracaso en mayúsculas para cualquier iniciativa, ya sea en forma de proyecto o desempeño empresarial, a todos los niveles.
¿Vale la pena ponerlo en práctica o prefieres que se derrumbe tu rascacielos particular?
Cristian Anguera.