En 2004 encontré mi vocación absoluta, empecé a devorar todo lo que caía en mis manos sobre analítica web, ahora me está pasando lo mismo con Big Data. ¿No os parece impresionante todo lo que tiene que ver con Big Data? A nivel de tecnología, de algoritmos, de modelos, … Hay tanto sobre lo que leer, aprender y poner en marcha que me faltan horas en el día. Así que he decidido hacer un pequeño resumen sobre todo lo que he ido aprendiendo en este último año, me da para muchos posts así que creo que seré monotema de aquí al otoño 🙂
El 90% de los datos de los que disponemos actualmente se ha generado en los últimos 2 años. Cada vez tenemos más datos y, cuando fue más barato almacenarlos que destruirlos, nació el Big Data. Ahora ha llegado la hora de sacarle partido.
Hay muchas definiciones sobre Big Data, estoy segura que irán saliendo más cada día. La definición que más se ajusta a cómo veo yo el Big Data es: la oportunidad de encontrar ideas en los tipos de datos y contenidos para tomar acción y que los negocios sean más ágiles. Porque el análisis de los datos debe llevarnos a tomar acción, no se pueden analizar cantidades ingentes de datos si el resultado no nos lleva a tomar decisiones y a cambiar la forma que tenemos de hacer las cosas.
Entonces… cuál es nuestra frontera? Hasta donde podemos llegar? Cómo lo hacemos? A medida que nuestra comunicación, el ocio y el comercio se han trasladado a internet y desde que internet se ha trasladado a nuestros teléfonos, coches, gafas… la vida puede ser registrada y cuantificada como nunca antes!
Empecemos por el principio, por la base del Big Data, lo que llamamos las 3 Uves. V de Volumen de información, V de Variedad de dicha información y V de Velocidad en el tratamiento de la información. Es decir, para ser Big Data debemos tener un gran volumen de información de diversas fuentes de origen y ser capaces de obtener conocimiento en real time.
Hay corrientes de analistas que defienden la 4ª uve… la Veracidad de dicha información… ¿Conocéis la historia de Google y la gripe? Google se jactó de que podía medir de forma más rápida e indolora la velocidad en que se extendía la epidemia de la gripe en el mundo. Y lo hizo: Google Flu Trends. Basó todo el conocimiento en la correlación que había entre las búsquedas de los usuarios sobre los síntomas y la epidemia en sí.
Google Flu Trends fue un fracaso, soy un poco dura pero es así. Básicamente porque los ingenieros no habían pensado en algo importante: la correlación no tiene por qué ser la causa, por lo que el no saber qué causa una correlación puede llevar a falsas conclusiones. En este caso, desde Google no se pararon a pensar que mucha gente sana buscaba información sobre la epidemia para detectar síntomas, para saber cómo actuar, para estar actualizado sobre la epidemia…
Por lo tanto, no es tan fácil construir un algoritmo como pensaba Google. Pero esta historia nos deja una moraleja: No solamente hay que buscar la correlación entre dos métricas. También hay que encontrar la causa de dicha correlación. El ejemplo más claro de esta diferencia lo encontramos en la figura de abajo: El verano es la causa de un mayor consumo de helados y un número más alto de ahogos. Pero el aumento en el consumo de helados no causa más ahogo ni el aumento de ahogos causa más consumo de helados:
Ejemplo de diferencia causa-correlación
Entonces, ¿por dónde empezamos? La realidad es que actualmente el 80% del esfuerzo actual en Big Data se nos va en recopilar los datos e integrarlos. Supongo que esto irá a mejor con el tiempo por la sencilla razón de que no tenemos suficiente experiencia actualmente como para hacerlo de forma menos indolora. Pero deberíamos invertir el mismo tiempo que tardamos en integrar los datos en convertirlos en conocimiento.
Hasta ahora solamente éramos conscientes de lo que teníamos en nuestras BBDD o en nuestra herramientas de analítica online y offline. Ahora ha llegado el momento de ir más allá, mucho más allá, al poder cruzar nuestros datos con los datos de otras plataformas, sean de redes sociales, online, offline u open data. Nuestro éxito dependerá de los objetivos de negocio: Necesitaremos tenerlos muy claros para determinar qué tipo de dato necesitamos para poder encontrar causas que nos lleven a tomar decisiones.
Por lo que podemos afirmar que BIG DATA es la frontera de una compañía para almacenar, procesar y acceder a todos los datos que necesita para operar eficazmente, tomar decisiones, reducir riesgos, servir a los clientes y cumplir objetivos de negocio. El éxito vendrá con la identificación de los datos que necesitaremos para que aporten al análisis de la información y podamos sacar conclusiones que nos lleven a optimizar nuestra estrategia.
Podemos catalogar estos datos en tres grandes grupos. Por un lado tendríamos el SMART DATA, que trata de recopilar los datos que tienen que ver con nuestro negocio, mediante el uso de las diferentes plataformas de datos, sean offline u online. Aquí tendríamos los datos referentes a nuestras ventas, a nuestros productos, nuestros clientes, nuestro negocio… todos los datos que tienen que ver con nuestros objetivos.
El siguiente grupo es el IDENTITY DATA, que tiene que ver con la identificación física y online de los clientes o potenciales clientes enriquecido con sus gustos para poder personalizar al máximo nuestra oferta de productos o servicios, para dirigirnos a él por el canal adecuado, etc…
Finalmente el OPEN DATA, que compila todos los datos que existen de forma externa a nuestra empresa y que están a disposición de todo el mundo, nos ayudará a ponerle contexto a los demás datos y a predecir crecimientos y demás conocimiento de estas bases de datos gratuitas.
Tipos de Big Data
La combinación de estos tres tipos de datos nos permitirá tener una visión 360º de nuestro negocio/cliente, además de tener una gran cantidad de datos para combinar y relacionar de forma que nos permita realizar un análisis predictivo completo de cualquier área de nuestro negocio.
Lo primero que me viene a la cabeza cuando hablo de Big Data es la generación de ideas que podemos implementar para entender mejor el universo de nuestro negocio, lo que ya sabemos desde adentro y lo que hay fuera. Esto nos invita a optimizar nuestros procesos, a modificar nuestras cadenas de valores y formas de entender el progreso y así conducir nuevos negocios de datos.
Los tres núcleos más importantes en Big Data son el procesamiento de datos, por supuesto, ya que alcanza otras dimensiones con la cantidad de datos que tenemos a nuestra disposición pero también el poder manejarlos en el momento y poder tomar decisiones en el instante que ocurran las cosas, el acceso rápido a la información y el tratarla en el momento nos da un potencial increíble.
Finalmente tenemos el machine learning, el aprendizaje adaptativo según vayan ocurriendo las cosas. Como le pasa a Google, que va modificando su algoritmo y perfeccionando sus resultados según lo que va aprendiendo de diversas fuentes o a cualquiera de los sitios que ofrecen recomendaciones en base a lo comprado o consultado por los usuarios.
Esto es la base, si no estamos procesando los datos, no los manejamos en el momento y no nos beneficiamos del aprendizaje… ¿para qué almacenamos estos datos? El poder del análisis del Big Data es precisamente lo que hace que sea tan interesante para mí. De hecho, lo que más me interesa no es el entorno tecnológico, sino lo que se puede llegar a hacer con esa cantidad ingente de datos.
Esto es solamente el principio, 2014 está siendo el año de no parar! Estuve en el TechDay de Burgos en marzo hablando de Big Data (a partir del minuto 28), en Tecnológica Santa Cruz de Tenerife hablando de la necesidad de analizar la información y convertirla en conocimiento.
En el Innova Bilbao en abril 2014
Además en abril he estado en Innova Bilbao hablando de cómo hornear buenas KPIs y acabo de llegar de Santa Cruz, Bolivia donde empieza a crecer el interés por el Big Data. Como os decía… esto es solamente el principio J
¡Señora Sorpren!
asi me gusta, big data con ilusión, ya de paso aprovecho y tte pongo un enlace de cuando hablaba de estas cosas en mi blog 😉
¿Cómo de Big tienes la Data? un abrazaco!
Felicidades, como siempre clarividente.
Gracias por compartir tu conocimiento.
Abrazo
FR
Muy buen artículo!
Creo que resume muy bien los conceptos básicos para empezar a entender lo que lleva viniendo ya unos años y que las empresas que están invirtiendo en ello están obteniendo muy buenos resultados.
Al final toda esta cantidad ingente de datos, sabiendo manejarla correctamente, es un arma muy poderosa para optimizar todos los recursos de nuestra empresa sobre todo hablando de temas de dónde invertir dinero o esfuerzos dentro de las distintas áreas de la misma.
Saludos.
Siempre me ha gustado la gente que consigue transmitir de manera sencilla lo complejo. Eres un excelente ejemplo de eso. Me alegro de haberte localizado en la Red hace un par de años…
(ah! y el nombre del blog siempre me ha parecido una genialidad!) Saludos desde Rosario, Argentina.
Desde mi punto de vista, como minero de datos, queda mucho por hacer. Como bien dices, el procesado de los datos es una tarea costosa y que se complica mucho cuando no se sabe muy bien que estamos buscando.
Un consejo, antes de empezar a pedir datos, meditemos bien que buscamos, que valores son los importantes y como los cuantificamos.
De otra forma estaremos moviendo tierra y no encontraremos los diamantes en bruto
Sobre el tema de la correlación. Estadísticamente dos variables si son dependientes son correlacionadas,pero a la inversa no tiene porqué… El hecho de tener dos variables con una correlación muy alta solo implica que se comportan de forma similar, no que sean dependientes…
Sobre Big Data estoy con Miguel, el datamining es esencial en la parte de análisis.
Desde que que se habla de Big Data se habla de una nueva profesión, los Data Scientist (mitad informáticos, mitad estadísticos, buenos comunicadores…)
Me quedo esperando tu próximo post sobre Big Data 😉
Carlos, gran post, tu y yo siempre de la mano :_)
Fernando, gracias por tus palabras, me animan a sacar tiempo de donde no tengo para escribir :)))
JaviEN, exacto! Es lo que quería transmitir!
Daniel, muchas gracias por lo que me dices!!! Un abrazo fuerte hasta Argentina!!!
Miguel, efectivamente, sin objetivos ni estrategia de medición, vamos mal!!!!
Ana, gracias por la corrección, en el post 3 me meto fuerte con las correlaciones y haré énfasis sobre lo que comentas por si no queda bien claro 🙂
Gracias a todos por pararos a comentar!
Genial el artículo.
La pasada semana estuve en una jornada en Valencia «Del Small Data al Big Data».
Muy buenas ponencias, pero tu artículo es la mejor definición que había leído. Muchas gracias por compartir tu sabiduría y enhorabuena.