Las ondulantes tendencias sobre Big Data, ¿especialización o generalización?

Las ondulantes tendencias sobre Big Data, ¿especialización o generalización?

Febrero de 2014

Almacenar, procesar y extraer conocimientos valiosos de los datos ha sido el caso de uso más generalizado en los últimos 40 años de las aplicaciones empresariales. Hemos asistido a una tendencia ondulante en el almacenamiento, la manipulación y el acceso a los datos que aún se repite. Las tecnologías han ido pasando de enfoques generales a técnicas especializadas y de nuevo a generalizadas con técnicas revisadas.
Si echamos la vista atrás 15 años, nos encontramos en el punto álgido de la especialización con los cubos OLAP como herramientas para manipular datos específicos de la aplicación, arraigados en los Data Marts, alimentados por herramientas ETL dedicadas y a los que se accedía a través de interfaces XML/A. La gestión del conocimiento y la analítica eran capaces de escalar gracias a bases de conocimiento muy específicas y a la desnormalización.
Cinco años más tarde, y gracias al cambio de la computación en la nube y a la mayor disponibilidad de recursos, la generalización regresó con almacenes de datos distribuidos y normalizados y con marcos ORM que eran capaces de abstraer la capa de persistencia y dividir los conjuntos de datos de forma inteligente, al tiempo que utilizaban por debajo a nuestro viejo amigo el lenguaje de consulta estructurado (SQL) -recordemos que Facebook utilizaba bases de datos MySQL-.
Sin embargo, las bases de datos SQL imponían restricciones ACID que en muchos casos de uso no eran necesarias. Hay que tener en cuenta que no todas las aplicaciones requieren integridad referencial o capacidades transaccionales. Así que hace 5 o 6 años la especialización volvía con la aparición del paradigma NoSQL. Los almacenes de valores clave que implementan la estructura de Big Table, como Hbase, los almacenes orientados a columnas, como Cassandra, y los almacenes de documentos, como MongoDB, surgieron rápidamente demostrando un aumento del rendimiento en varios órdenes de magnitud para determinados tipos de aplicaciones. Sin embargo, estos modelos requerían mucha especialización, lo que significa que, por ejemplo, una aplicación adaptada a Hbase no se convertiría fácilmente en una aplicación MongoDB.
Un punto clave en ese cambio hacia la especialización fue de nuevo el concepto de Map Reduce, que permite el procesamiento por lotes de enormes cantidades de datos para extraer conocimiento -como respuesta a los enfoques de BI de hace 10 años-.
En los últimos 4 años, la mayoría de las aplicaciones de Internet a gran escala están almacenando sus datos en un almacén de datos NoSQL, pero ahora se dan cuenta de que la especialización impone una gran restricción a la flexibilidad para consultar los datos. Impala, Hive, Kiji, Pig, etc. están cambiando la tendencia de nuevo, nuestro viejo amigo SQL está volviendo, esta vez en almacenes de datos NoSQL.
En resumen, los almacenes de datos NoSQL son muy importantes para permitir que las aplicaciones de Internet escalen, sin embargo, no hay que subestimar el potencial de las tecnologías de BI de hace 15 años. Los cubos OLAP siguen siendo lo mejor.

Acerca de Worldsensing

Worldsensing es un pionero mundial del IoT. Fundada en 2008, la empresa experta en monitorización de infraestructuras presta servicio a clientes de más de 70 países, con una red de socios globales para impulsar conjuntamente la seguridad en minería, construcción, ferrocarril y salud estructural.

Worldsensing tiene su sede en Barcelona y cuenta con presencia local en el Reino Unido, Norteamérica y Sudamérica, Singapur, Australia y Polonia. Entre sus inversores figuran Cisco Systems, McRock Capital, ETF, Kibo Ventures, JME Ventures y Bentley Systems.

 

Contacto con la prensa:

+34 93 418 05 85

[email protected]

Boletín de noticias

Inscríbete para recibir noticias sobre la supervisión remota del IoT.