Seguimos con la explicación del método MAMBO para el trabajo del analista o científico de datos. Ya explicamos hace unos días la (M) de Meditar sobre el negocio, la (A) de Adquisición de datos y hoy tenemos por delante explicar la (M) de Manejar los datos. ¿Preparados?
Esta fase es la que tiene más miga desde hace unos cuantos años. Hasta ahora, el analista tomaba los datos de la herramienta de analítica que tocara, Google Analytics por ejemplo, y empezaba a buscar insights directamente en dichos datos. Ahora no, ahora es más complicado pero mucho más divertido 🙂
Desde que entró en escena el Big Data, no basta con tomar los datos de la herramienta como si en ellos estuviera la verdad absoluta. Ahora toca extraer los datos de todas las herramientas disponibles, tratarlos, cruzarlos, limpiarlos y dejarlos listos para empezar a trabajar. Es una parte del proceso absolutamente decisiva, pues será el momento en el que detectemos si la calidad de los datos es suficientemente buena para seguir avanzando. Además, exploraremos la información para descubrir si ofrece lo que necesitamos para los siguientes pasos y validaremos que tenemos todos los datos para el análisis. Esta clase de operaciones, en general, están más cerca de perfiles ‘data scientist’ (científicos de datos), que están más cerca de la capa técnica que los analistas, que están más cerca de la capa de negocio.
De ahí que no me vaya a centrar ahora en hablar de herramientas para la preparación de los datos, sino en las diferentes operaciones que vamos a llevar a cabo sobre estos datos para poder avanzar en nuestra metodología. Por tanto… ¿Qué se plantea el analista, cuando tiene que enfrentarse a un análisis y encontrar respuestas a las preguntas de negocio? Lo primero que realizamos es un análisis exploratorio de los datos. Este análisis consiste en la comprobación de los formatos de las distintas variables que tenemos en nuestro conjunto de datos, se visualizan las primeras y las últimas filas y realizamos una descripción básica a nivel estadístico, valores medios máximos, mínimos y desviaciones.
El siguiente paso sería comprobar los ‘outlier’, es decir, los valores atípicos o valores extremos. Tendremos que buscar los valores extremos o atípicos, para que estos valores pueden ocasionar un análisis erróneo. Podemos hacerlo con algún método exploratorio básico, incluso graficando los datos, o con un modelo matemático que los detecte automáticamente en base a cálculos sobre desviaciones típicas o dispersión.
Otra de las situaciones con las que nos encontramos, es la de la existencia de valores anómalos, que no tienen por qué corresponderse con valores extremos. Estos valores muchas veces están enmascarados en nuestros datos y son una fuente de información muy valiosa.
El siguiente paso consistirá en añadir nuevos datos a nuestro ‘dataset’, incorporar nuevas variables fusionando distintas fuentes de los mismos. Del mismo modo, una de las partes que más tiempo consume al analista es la relacionada con la integración de datos de otras fuentes. En ocasiones, nos enfrentaremos a la necesidad de unir datos de nuestra herramienta de analítica con el back up interno de la empresa, que puede ser un CRM, RP u otra fuente de datos disponible. Estas operaciones pueden ser tan sencillas como hacer una unión entre tablas, el problema surge cuando no tenemos identificadores, variables o claves únicas por las que poder relacionar conjuntos de datos distintos.
El objetivo de esto es poder realizar análisis más ricos y potentes, creando cuanto más contexto mejor y obteniendo una foto mucho más completa de lo que necesitamos para empezar a buscar insights.
Por último, no hay que olvidar la ordenación de los datos y la limpieza de los mismos. Ordenar entiendo el concepto como poner todos los datos en un formato común para poder trabajar con ellos desde la herramienta de procesamiento elegida (R, Python…). Estas herramientas funcionan de manera más eficiente con datasets simplificados con pocas columnas pero muchas filas.
En resumen, el objetivo de esta clase de técnicas como comprobar los valores atípicos o incorporar nuevas fusiones de datos u ordenar el dataset o simplificarlo, no es otro que el de preparar los datos que extrajimos en el paso previo para comenzar a Buscar en los datos, que es el paso siguiente de nuestra metodología MAMBO.
Si quieres profundizar más en el concepto del manejo de los datos, puedes escuchar este podcast en PRNoticias sobre este tema 🙂
Deja un comentario