4.1.- Big data
Big Data es uno de los conceptos de
moda en el mundo informático. En la actualidad contamos con una gran
cantidad de artículos, e información, y en todas las encuestas a los
CIOS aparece entre los primeros lugares la necesidad de implantar un
sistema de Big Data.
Sin embargo, observamos una gran confusión sobre "en qué consiste
realmente". En las mismas encuestas, cuando se pregunta sobre, "qué es Big Data", comprobamos una gran dispersión en las respuestas ofrecidas. Empecemos entonces por tratar de aclarar "qué es Big Data".
Denominamos Big Data
a la gestión y análisis de enormes volúmenes de datos que no pueden ser
tratados de manera convencional, ya que superan los límites y
capacidades de las herramientas de software habitualmente utilizadas
para la captura, gestión y procesamiento de datos.
Dicho concepto engloba infraestructuras,
tecnologías y servicios que han sido creados para dar solución al
procesamiento de enormes conjuntos de datos estructurados, no
estructurados o semi-estructurados (mensajes en redes sociales, señales
de móvil, archivos de audio, sensores, imágenes digitales, datos de
formularios, emails, datos de encuestas, logs etc,) que pueden provenir
de sensores, micrófonos, cámaras, escáneres médicos, imágenes...
El objetivo de Big Data, al igual
que los sistemas analíticos convencionales, es convertir el Dato en
información que facilita la toma de decisiones, incluso en tiempo real.
Sin embargo, más que una cuestión de tamaño, es una oportunidad de
negocio. Las empresas ya están utilizando Big Data para entender
el perfil, las necesidades y el sentir de sus clientes respecto a los
productos y/o servicios vendidos. Esto adquiere especial relevancia ya
que permite adecuar la forma en la que interactúa la empresa con sus
clientes y en cómo les prestan servicio.
No obstante, el asociar el concepto Big Data
a grandes volúmenes de datos no es nuevo. La gran mayoría de las
empresas ya llevan mucho tiempo manejando grandes volúmenes de datos y
han desarrollado DataWarehouses y potentes herramientas analíticas que
les permiten tratar de forma adecuada esos grandes volúmenes. La
evolución de la tecnología y los menores costes del almacenamiento han
hecho que los volúmenes manejados por estas aplicaciones hayan aumentado
de manera muy importante.
¿Cuál es entonces la diferencia entre las aplicaciones analíticas y de gestión y los nuevos conceptos de Big Data? Las diferencias se asocian, en la mayoría de los artículos de referencia, a tres palabras, las tres 'Vs' del Big Data:
Volumen, Variedad y Velocidad (3Vs). Sin embargo, en base a la
experiencia adquirida por las empresas pioneras en esta aventura, se ha
ampliado la definición original, añadiendo nuevas características como
son la Veracidad y Valor del dato (5Vs)
Hablamos de Big Data cuando los
volúmenes superan la capacidad del software habitual para ser manejados y
gestionados. Este concepto se encuentra en continuo movimiento porque
los avances tecnológicos permiten tratamientos de volúmenes mayores.
Cuando hablamos de grandes volúmenes nos referimos a tratamientos de
Terabytes o Petabytes. Esto permite incluir en este tipo de proyectos
informaciones, por ejemplo logs, que hasta la fecha no se utilizaban
porque la tecnología no permitía procesarlos en un tiempo razonable. El
concepto de volumen es muy variable y cada día que pasa eleva lo que
podemos considerar grandes volúmenes de datos.
En el concepto de variedad nos referimos a
la inclusión de otros tipos de fuentes de datos diferentes a las que se
utilizan de forma tradicional. Nos referimos a información obtenida en
diferentes Redes Sociales, en el número cada vez mayor de dispositivos
electrónicos conectados, la explotación de sensores que permiten conocer
los movimientos y hábitos de vida, de información externa de diversas
fuentes, etc.
La información que procesan los
Datawarehose es información estructurada que ha pasado por numerosos
filtros de calidad para poder garantizar que la información de salida
tiene una precisión y una exactitud determinada. Sin embargo, cuando
hablamos de Big Data nos referimos a información que puede estar
semiestructurada o no tener ninguna estructuración. La gestión de esta
información desestructurada precisa de una tecnología diferente y
permite tomar decisiones basadas en información que tiene importantes
grados de inexactitud. Muchos de estos algoritmos se relacionan con los
tratamientos de sistemas avanzados de lógica difusa.
Por último, el concepto de velocidad se
refiere a la rapidez con que los datos se reciben, se procesan y se
toman decisiones a partir de ellos. A la mayoría de los sistemas
tradicionales les es imposible analizar de forma inmediata los grandes
volúmenes de datos que les llegan, sin embargo, incorporar el concepto
de tiempo real es imprescindible para sistemas de detección del fraude o
la realización de oferta personalizadas a los clientes.
Pero, no menos importante al barajar este
concepto, es la veracidad, esto es, confianza de los datos, extraer
datos de calidad eliminado la imprevisibilidad inherente de algunos,
como el tiempo, la economía etc, para, de esta forma, llegar a una
correcta toma de decisiones
Finalmente, se añade el valor. La
importancia del dato para el negocio, saber que datos son los que se
deben analizar, es fundamental. Tanto que ya se empieza a hablar del
científico de datos, un profesional con perfil científico,
tecnológico...y visión de negocio.