As tendências ondulantes sobre Grandes Dados, especialização ou generalização?

Armazenar, processar e extrair conhecimentos valiosos dos dados tem sido o caso de uso mais geral nos últimos 40 anos de aplicações comerciais. Temos visto uma tendência ondulante no armazenamento, manipulação e acesso de dados que ainda se repete. As tecnologias têm vindo a passar de abordagens gerais para técnicas especializadas e de volta para técnicas generalizadas com técnicas revisitadas.
Olhando 15 anos atrás, estávamos no auge da especialização com cubos OLAP como ferramentas para manipular dados específicos de aplicações, enraizados em Data Marts, alimentados por ferramentas ETL dedicadas e acessados através de interfaces XML/A. A gestão do conhecimento e a análise foram capazes de escalar graças a bases de conhecimento muito específicas e à desnormalização.
Cinco anos depois, e graças à mudança da computação em nuvem e ao aumento da disponibilidade de recursos, a generalização voltou com lojas de dados distribuídas e normalizadas e frameworks ORM que foram capazes de abstrair a camada de persistência e dividir os conjuntos de dados de forma inteligente, ao mesmo tempo que utilizavam por baixo, o nosso velho amigo a Structured Query Language (SQL) - lembre-se que o Facebook estava a utilizar bases de dados MySQL -.
Bancos de dados SQL, entretanto, estavam impondo restrições ACID que em muitos casos de uso não eram necessárias. Note que nem todas as aplicações requerem integridade referencial ou capacidades transacionais. Assim, 5 a 6 anos atrás, a especialização estava voltando com o surgimento do paradigma NoSQL. As principais lojas de valores implementando a estrutura da Big Table como Hbase, lojas orientadas a colunas como Cassandra e lojas de documentos como MongoDB surgiram rapidamente demonstrando um aumento de desempenho de várias ordens de magnitude para certos tipos de aplicações. No entanto, estes modelos exigiram muita especialização, o que significa que, por exemplo, uma aplicação feita sob medida para o Hbase não seria facilmente convertida para uma aplicação MongoDB.
Um ponto chave nessa mudança para a especialização novamente foi o conceito de Map Reduce, permitindo o processamento em lote de enormes quantidades de dados para extrair conhecimento - como uma resposta a abordagens de BI de 10 anos atrás -.
Nos últimos 4 anos, a maioria das aplicações de grande escala da Internet estão a armazenar os seus dados num armazém de dados NoSQL, mas agora apercebem-se que a especialização impõe uma grande restrição à flexibilidade de consulta de dados. Impala, Hive, Kiji, Pig, etc. estão novamente a mudar a tendência, o nosso velho amigo SQL está a regressar, desta vez em datacentores NoSQL.
Em resumo, as datastores NoSQL são muito importantes, permitindo às aplicações Internet escalar, no entanto, não subestimar o potencial das tecnologias de BI de há 15 anos atrás. Os cubos OLAP ainda são o máximo!

Sobre o Worldsensing

Worldsensing é um pioneiro global da IdC. Fundada em 2008, o especialista em monitorização de infra-estruturas serve clientes em mais de 70 países, com uma rede de parceiros globais para impulsionar conjuntamente a segurança nas minas, construção, caminhos-de-ferro e saúde estrutural.

A Worldsensing está sediada em Barcelona e tem presença local no Reino Unido, América do Norte e do Sul, Singapura, Austrália e Polónia. Os investidores incluem a Cisco Systems, a McRock Capital, a ETF, a Kibo Ventures, a JME Ventures e a Bentley Systems.

Contato de imprensa:

+34 93 418 05 85

[email protected]

As tendências ondulantes sobre Grandes Dados, especialização ou generalização?

Sobre o Worldsensing

Boletim informativo