29 marzo 2021 1577 palabras, 7 min. read Última actualización : 31 agosto 2021

Gestión de datos: definición, pasos, herramientas [Guía 2021]

Por Pierre-Nicolas Schwab Doctor en marketing, director de IntoTheMinds
Puede que la gestión de datos suene como un término tecnológico bastante intimidante a primera vista, pero todo el mundo puede llegar a comprender este proceso con solo un poco de tiempo y esfuerzo. La gestión de datos, también conocida […]

Puede que la gestión de datos suene como un término tecnológico bastante intimidante a primera vista, pero todo el mundo puede llegar a comprender este proceso con solo un poco de tiempo y esfuerzo. La gestión de datos, también conocida como «procesamiento de datos», forma parte de un proceso mayor llamado «preparación de datos». La gestión de datos se lleva a cabo para recoger, seleccionar, reestructurar, enriquecer y finalmente transformar información con el objetivo de responder a una pregunta concreta, una pregunta global que suele ser profundamente analítica.

La gestión de datos consume una cantidad considerable de tiempo. Por ejemplo, es un hecho ampliamente conocido que los ingenieros de datos dedican gran parte de su tiempo a la preparación de datos (de hecho, más del 80% de su tiempo) y que una amplia parte de esas actividades se centran en la «gestión de datos».


Resumen

data wrangling

Una breve explicación de la gestión de datos

La gestión de datos transforma los datos brutos para prepararlos para el subsiguiente análisis de manos de los gestores, también referidos como procesadores. Esto significa que la gestión de datos es el trabajo que se lleva a cabo sobre estos antes de desglosarlos a través de un análisis en profundidad. La gestión de datos incluye sopesar la calidad de los datos dentro del contexto y transformarlos al formato necesario para su análisis.


Si te estás preguntando si la gestión de datos vale la pena, intenta pensar en este proceso como los cimientos necesarios para dar soportar a una casa.



Por qué es tan importante la gestión de datos

La gestión genera una información estructurada que puede usarse para llevar a cabo actividades analíticas: crear una Tabla de Base Analítica (o ABT por sus siglas en inglés), realizar análisis de series temporales, crear KPI, crear cuadros de mando BI, crear modelos predictivos, etc. Generar estos conjuntos de datos estructurados es un reto en sí mismo, pero si se invierte el tiempo necesario para gestionar los datos de manera precisa y exhaustiva, se pueden asentar unos cimientos sólidos necesarios para llevar a cabo tareas analíticas significativas.

Pasos en la gestión de datos

Comprométete con la gestión de datos y estarás mucho más cerca de obtener un análisis de datos más efectivo y que te será de mucha más ayuda. Aunque la tarea puede resultar algo tediosa, el esfuerzo vale la pena.

Dicha gestión se inicia con el descubrimiento de los datos, en la que se establece una familiaridad general con estos. La estructuración de los datos es el siguiente paso, y durante el mismo se recogen los datos brutos. Aunque a estos datos les falta estructura, con el tiempo se reestructurarán siguiendo el modelo analítico seleccionado por la empresa.

El siguiente paso es la limpieza de los datos, es decir, se corrigen los datos brutos que incluyen errores antes de pasarlos a la siguiente fase. La limpieza se centra en abordar los valores atípicos, realizar correcciones y eliminar los datos erróneos.

Después se lleva a cabo el enriquecimiento de datos, que es una oportunidad de aumentar los datos o embellecerlos según se quiera.

Una vez se han enriquecido los datos, llega el momento de validarlos. Validar los datos hace aflorar posibles problemas de calidad para que puedan abordarse y transformarlos de ser necesario. La manera más rápida y sencilla de validar datos es usar una herramienta auto-ML. De hecho, todas las inconsistencias de los datos aparecen directamente durante casi todas las actividades de modelado predictivo, tras lo cual corregirlos en la fase previa resulta más sencillo y fácil. Con una herramienta auto-ML, puedes validar todas tus ABT con tan solo unos clics.


Los retos en la gestión de datos

Cuando realizas actividades de gestión de datos, estás manipulando tus datos con el objetivo general de dar respuesta a una pregunta específica relacionada con el negocio. Esto significa que la transformación aplicada a tus datos se verá guiada por la misma naturaleza de la pregunta empresarial que estás intentando resolver. Es decir, para realizar actividades de gestión de datos significativas, se requiere una comprensión sólida del proceso empresarial analizado. Todo esto conlleva que, la mayor parte del tiempo, encontrarás que los «analistas empresariales» son los perfiles más cualificados para llevar a cabo actividades de gestión de datos ya que son los «conocen mejor el negocio» y también los que «conocen todas las sutilezas de tus fuentes de datos».

Los «analistas empresariales» quizás sean los mejores perfiles para obtener los mejores resultados a través de tus datos pero, al mismo tiempo y por desgracia, estos mismos perfiles suelen mostrarse adversos al código y las manipulaciones de datos complejas pueden convertirse rápidamente en todo un reto para ellos. Así que a menudo los verdaderos retos para los gestores de datos son, sencillamente, los códigos monstruosos y los procedimientos incomprensibles que deben escribir para que los datos adopten «la forma correcta». Si alguna vez te has encontrado escribiendo comandos SQL que llenan por completo el equivalente a tres pantallas, seguro que sabes a lo que me refiero. O todavía peor, si has acabo escribiendo códigos macro de Excel y VBA que autogeneran códigos SQL creados de manera automática e incomprensibles, también comprenderás mis palabras.

Por suerte, todo esto empieza a formar parte del pasado gracias a la existencia de herramientas especializadas en la gestión de datos que permiten llevar a cabo cualquier transformación de los mismos, sin importar su complejidad, sin necesidad de escribir una sola línea de código. Por fin podemos liberar a los analistas empresariales de los grilletes de las dolorosas sesiones intensivas de código y obtener mejores resultados analíticos, y más significativos, de un modo mucho más rápido y sencillo. En última instancia, la nueva generación de herramientas de gestión de datos se ha creado para aliviar a los analistas empresariales del dolor y el sufrimiento que padecían en el pasado durante sus rutinas diarias.

De hecho, con las herramientas modernas adecuadas, la gestión de datos ha pasado a ser casi divertida gracias a su rapidez y sencillez, lo que permite que descubrir perspectivas interesantes a través de los datos sea hasta entretenido.


Técnicas y herramientas para la gestión de datos

Los expertos del sector insisten en que la amplia mayoría de los analistas invierten la mayor parte de sus horas laborales llevando a cabo la gestión de datos en lugar de analizar realmente dichos datos. Históricamente, el personal que realizaba la gestión de datos eran profesionales con un perfil muy técnico y habilidades en lenguajes estadísticos como Python y R.

La gestión de datos se lleva a cabo con herramientas y técnicas matizadas. Algunos ejemplos de herramientas de uso genérico que pueden utilizarse de manera ocasional para la gestión de datos son el código VBA en las hojas de cálculo de Microsoft Excel, código R, código Python y código Perl. También se usa OpenRefine, una versión más avanzada de Microsoft Excel. Normalmente, cuando se usa R se dedica tiempo a las siguientes bibliotecas: JSOnline (útil para el análisis sintáctico), Purrr (ayuda con las operaciones de las funciones de lista), DPlyr (herramienta de encuadre para la manipulación de datos). Hoy en día, existen herramientas especializadas centradas casi por completo en la gestión de datos: Anatella (parte de la suite de TIMi), Alteryx, Altair Monarch, etc.


¿Vale la pena la gestión de datos?

En caso de que te preguntes si la gestión de datos vale la pena, intenta pensar en este proceso como algo parecido a los cimientos necesarios para construir una casa. La estructura a construir solo resultará útil si cuenta con unos cimientos sólidos. En resumen, tus entregas analíticas (KPI, modelos, etc.) no serán de ayuda si se basan en datos que no sean relevantes o lo bastante amplio, o que no se hayan obtenido a través del proceso de gestión de datos.

Si dedicas tiempo a realizar un buen proceso de gestión de datos (recabarlos, limpiarlos, enriquecerlos, reestructurar la información proveniente de diversas fuentes), conseguirás datos muy precisos y procesables que serán necesarios para tomar decisiones bien informadas.

Aunque la gestión de datos no es sencilla, el esfuerzo vale la pena ya que permite triunfar en todas tus tareas analíticas. Dichas iniciativas analíticas tienen el potencial de llevar a importantes descubrimientos que pueden resultar lo suficientemente valiosos como para redefinir cómo gestionas tu negocio.



Posted in Data y IT.

Publique su opinión

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *