La importancia de no perder de vista la calidad de tus datos

February 15, 2021

“Without a systematic way to start and keep data clean, bad data wll happen.” — Donato Diorio

Probablemente habrás visto que en la frase anterior falta una letra, pero es fácil pasar por alto un pequeño error. En este caso, que falte una letra no ha sido un gran problema, ya que la frase sigue siendo comprensible, pero si continuara escribiendo olvidando más letras o incluso palabras, este texto terminaría por no entenderse y dejaría de cumplir su propósito. Esto es un ejemplo muy simple de lo que puede llegar a implicar no tener un control sobre el estado de los datos y es extrapolable a cualquier proceso encargado de manipular datos. 

Identificar este tipo de errores o problemas y aplicar acciones para corregirlos y evitarlos, con el fin de garantizar que los datos cumplan determinados requisitos, es el principal objetivo de los procesos de calidad de los datos.

¿Cómo puedo medir la calidad en los datos? 

Los criterios que se tienen en cuenta para evaluar si unos datos cumplen o no cierta calidad varían dependiendo del contexto o de cuál sea el objetivo o uso de estos. Además, una medición difícilmente puede generalizarse a todo el conjunto de datos del que dispone una organización. Esto  comporta que, para cada situación, sea necesario identificar qué mediciones permiten tener una visión precisa del estado en que se encuentran determinados datos. Algunas de las variables o dimensiones utilizadas más frecuentemente para medir la calidad de los datos son las siguientes:

  • Exactitud: la similitud o cercanía de los datos con su representación en el mundo real o en su origen.
  • Completitud: todos los datos necesarios están presentes.
  • Consistencia: los datos son consistentes y sin incongruencias.
  • Temporalidad: los datos cumplen con las condiciones de actualización y disponibilidad requeridas.
  • Unicidad: cada atributo en los datos aparece de forma única y no hay duplicidad.
  • Validez:  los datos se ajustan a los requisitos de negocio, de estándar, de formato o de rangos establecidos.

La combinación de estas (u otras) dimensiones es la que nos identifica la calidad de un conjunto de datos. Tener una medición de calidad te permite mantener un seguimiento y asegurarte que esa calidad se conserva en todo momento.

¿Qué implica utilizar datos de mala calidad?

Actualmente, el corazón de muchas compañías son sus datos. Se utilizan transversalmente en todas las áreas de una empresa y son un activo imprescindible, tanto para tomar decisiones como para obtener determinados resultados.

Utilizar datos erróneos o de mala calidad en cualquier de estos procesos puede implicar no conseguir los resultados esperados o tomar decisiones erróneas, con todas las consecuencias que esto pueda acarrear. 

En otros casos, no disponer de mecanismos encargados de identificar y ajustar automáticamente problemas en los datos, implica que los problemas sean detectados de forma tardía y requiriendo siempre una intervención manual para poder corregir o limpiar esas irregularidades. Estas intervenciones afectan directamente a la eficiencia, provocando muchos retrasos e incluso parando completamente una determinada operación. 

Todas estas situaciones terminan generando desconfianza en los datos y, a todo el tiempo invertido en corregir los problemas, habrá que sumar un esfuerzo en recuperar esta confianza perdida. Por lo tanto, no detectar a tiempo cualquier problema en los datos puede llegar a ser crítico.

¿Qué se puede hacer para garantizar la calidad en los datos?

Existen muchas técnicas para mejorar y garantizar la calidad en los datos y cada vez hay más soluciones en el mercado que permiten evaluar el estado de tus datos. Además de aplicar las propias mediciones, hay otros aspectos muy importantes a tener en cuenta para poder identificar cualquier problema y, sobre todo, anticiparse y adaptarse a los problemas que puedan aparecer en un futuro:

  • Comunicación y colaboración: comunicarse con todas las partes implicadas, entender la lógica de negocio y cuáles son los propósitos que se deben cumplir los datos es clave para tener una visión clara de qué requisitos deben cumplir tus datos
  • Análisis de los datos. Analizar y estudiar minuciosamente la estructura y finalidad de los datos permite ajustar las medidas implementadas a los requisitos de calidad.
  • Monitorización de las mediciones de calidad. Mantener una monitorización constante de las mediciones de calidad permite tener una visión en todo momento respecto al estado en que se encuentran y poder detectar anomalías.
  • Aplicaciones monitorizadas, robustas y testadas. Un error en cualquier aplicación o servicio encargado de tratar con datos puede provocar corromper o perder datos. Si estas están monitorizadas y funcionan de forma robusta y bien testada, es menos probable que esto ocurra. 

Cualquiera de estos puntos es clave y, también, deben mantenerse a lo largo del tiempo, ya que los datos y los usos asociados pueden cambiar a lo largo del tiempo y hay que adaptarse a estos cambios. 

Retos

Aplicar cualquier de los aspectos anteriores puede llegar a ser muy complejo dependiendo de las dimensiones y variabilidad de los datos. Esto hace que conseguir una calidad en los datos lo más óptima posible en un tiempo aceptable y mantenerla a lo largo del tiempo sea un reto complicado pero con un resultado muy valioso. 

Actualmente en IOMED, nos encontramos con un volumen y variabilidad de datos en aumento con la integración de nuevos hospitales. Continuamente trabajamos en la implementación de procesos que garanticen la calidad de los datos y hacerlo en este escenario en continuo crecimiento es un desafío que afrontamos con muchas ganas.



Image Description

Sandra Pulido

Data Engineer