Big Data Week São Paulo

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
10
Mar

In-Data-Lake BI, a Próxima Fronteira para Business Intelligence

Se lembra dos dias antes da base de dados relacional? Nem eu, então não tenho ideia de como foi doloroso monitorar informações naquela época. Mas mesmo depois que as bases de dados relacionais se tornaram mais comuns, as informações permanecem relacionadas ao monitoramento de coisas: inventários de produtos, informações dos consumidores, pedidos dos clientes, etc. E então, um dia, todo mundo quis usar suas bases de dados para tomar decisões melhores. Antes de conhecermos, nós tivemos ferramentas de data warehouse e inteligência de negócios (BI). Logo depois, surgiu a Big Data, e pessoas espertas perceberam que as bases de dados relacionais e data warehouse não eram muito eficientes para isso. Mecanismos de busca, Apache Hadoop, bases de dados NoSQL, Apache Kafka e outros passaram a ganhar mais atenção.

O salto dos data warehouses para as “plataformas de big data,” especialmente Apache Hadoop não foi tão suave como desejávamos. Consultas analíticas eram lentas, às vezes aceitáveis (como com MapReduce), mas muitas vezes não. As pessoas tentavam adaptar suas ferramentas de data warehouse e inteligência de negócios (BI) em sua implantação do Hadoop, e essa aproximação não funcionava. Eles culparam o Hadoop e os data lakes.

Nada como Big Data em BI?

Então, a conversa mudou para “big data BI.” Alguns especialistas chegaram a afirmar que não existe essa coisa de “big data.” Para eles, o conceito de “big data BI” realmente não tinha a menor chance.

Mas as pessoas estão se aproximando da ideia de inteligência de negócios com big data, especialmente quando se refere a plataformas de dados como Hadoop e arquiteturas de big data como data lakes. Essas abordagens permitem às organizações carregar dados diretamente da fonte, e eles são aproveitáveis para análise sem precisar de modelagem e transformações elaboradas. A habilidade de colher insights vindos de modelos de dados desestruturados, que era difícil e impraticável com os tradicionais data warehouses, foi uma virada no jogo, e os especialistas em dados estavam reconhecendo isso.

Ferramentas tradicionais de BI (aquelas que se usa atualmente com data warehouse) supostamente suportam Hadoop, mas elas ainda necessitam que a informação seja extraída e transformada de lá para um servidor de BI tradicional. Isso não soa como “big data em BI”. Por outro lado, o relatório Native Hadoop BI Platforms Wave da Forrester Research foi uma das primeiras afirmações documentadas de que big data BI era um mercado real. O relatório foi escrito em 2016, e o mercado cresceu desde então, mas a certa altura, o Hadoop por si só recebeu muitas críticas. Começaram a sentir que talvez ele não fosse correto como modelo de análise de BI, e que a categoria de “plataforma nativa de BI do Hadoop” seria submetida pelo, mais amplo, mercado tradicional de BI.

Acontece que, depois de mais de dois anos, as plataformas tradicionais de BI não conseguem lidar com grandes volumes de dados com eficiência. Especialistas do setor falam assim; por enquanto, de uma maneira sutil, mas acredito que essa história vai ganhar mais força nos próximos meses.

Por exemplo, Dresner Advisory Services recentemente publicou um relatório de pesquisa sobre big data analytics, reconhecendo o uso de ferramentas de BI especificamente para o ambiente de big data. Boris Evelson do Forrester Research discute como novas arquiteturas de BI são requeriadas para insights ágeis em um relatório recente sobre migração de BI. Em seu recente 15-Step Methodology for Shortlisting BI Vendors, Forrester se refere a essa nova arquitetura como “clusters de plataformas de BI em data lakes,” os quais define como um repositório “onde toda informação e aplicações residem dentro de clusters de data lakes, como Amazon Web Services, Hadoop, ou Microsoft Azure.” (Forrester desde então atualizou o termo para “in-data-lake BI” em um relatório subsequente sobre sistemas de insight).

Isso significa que profissionais de BI devem se adaptar a ambientes mais avançados que os data lakes atuais. Nós acreditamos que “in-data-lake BI” é a próxima geração de BI. Essa geração de ferramentas de BI modernas tem quatro características chave:

Arquitetura de escalonamento horizontal

Em uma arquitetura de escalonamento horizontal, as organizações podem acrescentar servidores/processadores aos seus clusters já existentes em um modelo linear. Em teoria, isso permite uma escala quase ilimitada. Escala ilimitada e da maneira como é alcançada, oferece flexibilidade e agilidade com baixo custo. A habilidade de escalonar horizontalmente está em forte contraste com as arquiteturas legadas. Essas abordagens alavancam servidores de BI dedicados e data warehouses que requerem escalonamento vertical ou arquiteturas massivamente paralelas. Ambas as técnicas são de longe mais caras e limitadas que o modelo de escalonamento horizontal.

Na prática, podemos considerar o exemplo de uma companhia com grandes serviços de informação que promove análises de marketing para companhias globais maiores. O enorme volume de dados que essa companhia fornece é demais para as tecnologias normais de BI gerenciarem, apesar de usarem plataformas modernas como um data lake Hadoop. O problema aqui é esse, enquanto um data lake baseado no Hadoop oferece armazenamento e processamento confiáveis, a interação com as ferramentas tradicionais de BI apresentam um gargalo para entregar análises aos usuários finais.

Esse fato não é tanto por culpa do modelo de data lake do Hadoop como é das ferramentas e processadores tradicionais de BI. Esses tipos de abordagens não evoluem para acompanhar o grau de crescimento da organização. Adicionar mais dados – para servir a clientes adicionais – para o processo analítico se tornou caro e demorado para a arquitetura de escalonamento vertical e impôs muitas restrições de desempenho no sistema. Para uma companhia como essa, uma abordagem de BI com data lakes representa uma enorme vitória em termos de economizar custos, tempo e esforço, e também gera o desempenho e a simultaneidade de clientes demandada.

Processamento de BI funciona nativamente no data lake

Ferramentas não-nativas de BI requerem extração de bancos de dados com numerosas desvantagens. Desvantagens incluem redundância e inconsistência na procura de dados, esforço para movimentá-los, sistemas extra para gerenciar, e processamento e armazenagem sobrecarregados. Tabelas de extração e cubos multidimensionais levam muito tempo para serem criados, aumentando o risco de que aquelas informações estejam obsoletas no momento em que estiverem prontas para uso. E finalmente, algumas indústrias reguladas devem restringir a duplicação da produção de dados, o que faz ferramentas de BI não-nativas mais inflexíveis. Processamento nativo, por comparação, toma vantagem dos servidores num data lake cluster, em um modelo popularizado pelo Hadoop, e não requer movimento de dados.

Podemos observar isso funcionando, por exemplo, com uma companhia que coleta dados de telemetria de uma matriz de armazenamento implantada pelo cliente. A informação coletada pela companhia pode ajudar a identificar problemas – relacionados ao uso, condições de alerta e falhas – que, se identificados, podem ajudar a companhia a servir melhor seus clientes. Por causa das diferentes matrizes dos clientes, que geram informações demais, um ambiente de data lake oferece o único cenário de análise escalonável. Entretanto, toda essa informação pode ser em vão se a companhia não está apta para analisá-la rapidamente com o mínimo de sobrecarga.

Uma plataforma in-data-lake BI é o ideal para este caso, desde que a companhia possa analisar os dados do cliente assim que cheguem sem a sobrecarga adicional de movimentação desses dados externamente para uma central de dados ou outra plataforma de BI dedicada. Como resultado, então, pode-se imediatamente identificar quando os clientes estão prontos para receber um espaço adicional, quando componentes estão falhando e necessitam de substituição, ou entender que fatores contribuem para baixa confiabilidade.

Muitas indústrias como serviços financeiros usam análise de dados em uma variedade de operações de negócios: retenção e aquisição de clientes e deteção de fraude, para mencionar algumas. Essas firmas estão aproveitando algoritmos de aprendizagem de máquinas mara analisar enormes volumes de dados com a finalidade de escanear rapidamente registros transacionais, e assim fazer tomadas de decisão para redução de custos. Para tudo isso, arquitetura de data lake faz sentido. Mas para que funcione, as tecnologias de análise têm de ser profundamente integradas na arquitetura, ao invés de apenas anexadas nas arquiteturas já existentes. In-data-lake BI promove uma profunda integração e permite firmas se moverem rapidamente e reagir de imediato em um mercado dinâmico.

Suporte para múltiplas fontes de dados

Enquanto pesquisas sugerem que a maioria das companhias coletem dados de cinco ou menos fontes externas, um bom número de organizações continua utilizando cinco ou mais recursos externos de geração de dados. Conforme o número de dispositivos IoT continuar crescendo, e organizações aprenderem a implementar algoritmos de aprendizagem das máquinas e outras ferramentas que habilitam a inteligência artificial, o número e variedade de fontes externas de dados deve continuar a se proliferar.

As fontes de hoje em dia incluem Hadoop HDFS, nuvens de armazenagem como Amazon S3 e Microsoft ADLS, e plataformas de streaming distribuídas, como Apache Kafka. É absolutamente crucial que as plataformas atuais de in-data-lake-BI se integrem com esses exemplos, bem como com outras plataformas de dados modernas.

Opções flexíveis de implantação

Plataformas in-data-lake BI precisam trabalhar através de qualquer combinação de plataformas escolhida pelo cliente, fornecendo insights para usuários finais enquanto também simplificam o trabalho da TI. Para atingir essa funcionalidade de múltiplas plataformas, as organizações devem olhar para as instalações, nuvens, nuvens híbridas e nuvens múltiplas como caminhos igualmente viáveis para operar sistemas analíticos de BI.

A plataforma de BI deve ser apta a rodar em praticamente qualquer computador de tamanho razoável, seja física ou virtualmente, conforme o escalonamento (e o desempenho em algum grau) é atingido através da adição de mais nós ao cluster. Um aspecto importante das opções de implementação é a habilidade de suportar o armazenamento de objetos para possibilitar ambientes onde os dados são desacoplados de mecanismos computacionais. Armazenamento de objetos é usado hoje em dia pelas organizações independentemente de onde está a camada de computação, mesmo nas instalações.

As organizações continuam tentando descobrir como extrair o máximo da in-data-lake BI, e então a arquitetura vai se envolver com as demandas dos clientes. Uma coisa é clara, as ferramentas de BI têm que se envolver com os cenários de dados dos clientes. As companhias vitoriosas no ambiente de negócios atual serão aquelas que percorrerem o menor caminho para as tomadas de decisões. Para atingir o pico da competitividade prometido pelos data lakes, as organizações devem olhar para as ferramentas de BI modernas e alinhá-las com as quatro características da in-data-lake BI acima.

Sobre o autor: Shant Hovsepian é co-fundador e CTO da Arcadia Data, onde é o resonsável pela direção de inovação a longo prazo e técnica da companhia. Anteriormente, Shant foi um dos primeiros membros da equipe de engenharia da Teradata, a qual ele se uniu através da aquisição da Aster Data. Shant estagiou no Google, onde trabalhou na otimização da base de dados AdWords, e foi estudante de graduação em ciência da computação na UCLA. Ele é co-autor de publicações nas áreas de desing de bancos de dados modulares e sistemas de armazenamento de alta performance.

 

Postagem original: https://www.datanami.com/2019/02/19/in-data-lake-bi-is-the-next-frontier-for-business-intelligence/

Photo by Silas Hao on Unsplash

Leave a Reply