Analytics

¿Qué es el Dirty Data?

El término Dirty Data (datos sucios) se utiliza para describir aquellos datos que son erróneos, inconsistentes o incompletos. Pueden ser datos mal relacionados, campos vacíos o registrados con información errónea.

En el mundo actual en el que los datos se han convertido en el centro de todo, los datos sucios pueden suponer malas decisiones empresariales, conclusiones erróneas o una mala estrategia.

La gravedad de la situación depende del volumen de Dirty Data que exista y es por eso que me he decidido a escribir este post. Según la deeptech española Hocelot, “el 82% de los datos almacenados por las organizaciones son Dirty Data“.

De hecho, en España este problema está en alza ya que “entre 2017 y 2019 se han detectado un 57% más de Dirty Data“. Según este estudio el impacto del Dirty Data en España se ha cifrado en 321 millones de pérdidas.

Principales causas del Dirty Data

En la era del Big Data, en la que las organizaciones manejan ingentes volúmenes de datos para analizar tendencias o tomar decisiones, el principal enemigo es el Dirty Data.

Las principales causas de la aparición de datos sucios son:

  • Volumen: cuantos más datos, mayor posibilidad de errores. El crecimiento exponencial de los datos en la era digital ha traído como consecuencia el aumento de los datos erróneos.
  • Errores en el registro: los datos introducidos manualmente son susceptibles de equivocaciones y muchas veces los sistemas no tienen las validaciones necesarias para detectarlo.
  • Silos de información: las empresas aún tienen diferentes sistemas o nichos de información sin conectar. Esto supone que al intentar unificar sus datos surgen incoherencias entre ellos o datos duplicados.
  • Falta de información: Los registros con campos vacíos provocan que la información que manejamos sea parcial y por lo tanto provoquen decisiones equivocadas.
  • Datos falseados: en Internet muchas personas aportan datos erróneos por miedo a compartir datos reales con las empresas.
Los usuarios mienten en Internet sobre sus datos
Los usuarios mienten en Internet sobre sus datos

La solución: Cleaning Data

La mejor opción para evitar los datos erróneos o falsos son los métodos preventivos, es decir, evitar que se produzcan estos datos, pero es casi imposible implementar un sistema fiable con el volumen de generación de datos nuevos en la actualidad.

Por ello cobran mucha importancia los métodos correctivos y en especial la limpieza de datos o Cleaning Data. El principal problema de estos métodos es que son muy costosos y laboriosos, por lo que tienden a minimizarse o evitarse. Este proceso no se puede automatizar 100% ya que muchas veces se necesita de un equipo mixto (técnico y de negocio) para detectarlos.

Existe una máxima en el mundo de los datos que es “Garbage In, Garbage Out” (basura que entra, basura que sale): Si nuestros datos recolectados son malos, el análisis resultante también lo será. Por ello es muy importante esta fase en un proyecto de Analítica.

Para realizar la limpieza de datos debemos pasar por las siguiente fases:

  • Detectar Dirty Data: No podemos limpiar y corregir datos erróneos si no sabemos primero cuales son. Existen soluciones de Data Profiling (como las incluidas en SQL o Power BI) que revelan campos vacíos o inconsistencias en los datos. También hay metodologías para asegurar la calidad del dato.
  • Corrección de los Datos: Una vez detectados se deben corregir, pero ¿cuál es el dato correcto? En ocasiones es un error tipográfico y es fácil de solucionar, pero si es un dato falso es muy difícil conocer el dato real. En el caso de campos vacíos se pueden rellenar con el dato más probable, o la media si es un valor numérico pero estas “aproximaciones·” son muy peligrosas en el análisis de datos posterior.
  • Eliminación de duplicados: Otro de los problemas más comunes son los datos duplicados, que provocan errores en el análisis. Es necesario eliminarlos, pero teniendo en cuenta que es posible que en uno de los registros haya cierta información y en el segundo registro se encuentre el resto. Por lo tanto, antes de eliminar el duplicado es necesario realizar una unión de la información para tener el mejor registro posible.

Como no podía ser de otra manera, las soluciones de Inteligencia Artificial (IA) también han proliferado en este ámbito para ayudarnos a validar la calidad del dato incluso en tiempo real. Un ejemplo de este tipo de soluciones es Data Quality Intelligence de Asset Control:

Conclusiones

Hoy en día se habla mucho de Big Data, Machine Learning o Inteligencia Artificial, incluso muchas empresas se plantean crear su propio departamento de Data Science.

Parece muy interesante y divertido poder analizar un gran volumen de datos y encontrar tendencias o predecir resultados. Pero la realidad es que todo proyecto de análisis de datos o algoritmos predictivos debe comenzar por un proceso de Data Cleaning, que como ya hemos comentado es arduo y laborioso (y me temo que no muy divertido).

Ponemos el foco en lo llamativo (algoritmos, predicciones, cuadros de mando o espectaculares visualizaciones de datos), pero esa es sólo la guinda del proyecto. Para poder llegar a ese punto necesitamos que nuestros datos sean correctos y que su calidad sea la mejor posible.

Por desgracia, la explosión de la importancia del dato es reciente y ahora necesitamos explotar datos históricos para entrenar a nuestros algoritmos. El problema es que ese histórico se ha registrado cuando no dábamos tanta importancia a los datos (excepto en entornos contables por legislación), por lo que no cuidábamos mucho su calidad. En cuanto a los datos nuevos, llegan en altos volúmenes lo que dificulta su correcta validación.

¡Es hora de remangarse y ponerse a trabajar en la limpieza!

¡SUSCRÍBETE YA!
Doy mi consentimiento para almacenar mis datos para envío de newsletters.
Si te suscribes a la newsletter tendrás acceso a los <b><u>ficheros Power BI originales</u></b> de nuestros tutoriales y post. <br><br>Además tendrás derecho a participar en sorteos periódicos que realizaremos en el blog.
We hate spam. Your email address will not be sold or shared with anyone else.
Mostrar más

Iván Arribas

Llevamos siglos generando, relacionando, modificando y almacenando datos....es hora de que les echemos un vistazo. Espero que este blog sirva de ayuda a los que quieran introducirse en este mundo de la Analítica de Datos, igual que me está sirviendo a mi.

Publicaciones relacionadas

2 comentarios

  1. Hola Iván,
    gracias por estos posts, la verdad es que hasta ahora todos me han parecido muy interesantes :).
    ¿Has utilizado alguna herramienta específicamente para hacer Data Cleansing?
    Últimamente estoy trabajando con Master Data Services y la verdad es que no, de divertido no tiene nada. ¿Tendrías alguna otra recomendación?
    Gracias!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Iván Arribas Delgado.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Bluehost que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Botón volver arriba
Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver
Privacidad