Big Data Week São Paulo

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
19
Oct

Acordando do pesadelo do Big Data

Se você não trabalha realmente com Big Data apenas sabe a respeito pelo que ouviu na mídia –como pode ser usado para otimizar fluxos de dados, tomar decisões no mercado financeiro, frustrar planos terroristas, fazer dispositivos mais inteligentes e autônomos, ou mesmo monitorar a performance de atletas – provavelmente vai dizer que é um sonho se tornando realidade.
Entretanto, para aqueles que realmente extraem, analisam e gerenciam Big Data para permitir que todas essas coisas sejam feitas, frequentemente não é nada além de um pesadelo.

Minerar Big Data: todo o trabalho pesado?

Trabalhar com grandes volumes de fluxos de dados que mudam rapidamente pode ser incompreensível e definitivamente mais complexo do que simplesmente olhar para planilhas, tabelas, e painéis de controle.
Você sabe que 2,5 quintilhões de bytes de dados são gerados por dia – e a velocidade acelera cada vez mais com os avanços em IoT? Como acompanhar tantos volumes gigantescos de informação?
Suponha que você quer usar Big Data para responder a uma pergunta simples, como “como os usuários logaram no aplicativo online da nossa companhia na última hora?” É muito fácil de responder se você só tem algumas centenas de usuários, mas e se você está falando de uma aplicação comum usada por milhões de pessoas?
Se lhe parece que a obtenção dessa resposta será muito fácil, bom vamos ver.
O processo supostamente fácil envolve:
  • Arquivar os dados brutos em um repositório – o “data lake.” Esse processo requer conhecer e usar as melhores práticas em relação a compressão, separação e definição de regras para manter essas informações intactas para o futuro.
  • Escrever um código para interpretar os dados que você coletou.
  • Garantir que as tarefas de ETL sejam executadas com eficiência, através da designação de um desenvolvedor para gerenciar e controlar os sistemas de orquestração (como Apache Airflow ou NiFi).
  • Criar uma base de dados NoSQL para gerenciar stateful ETLs.
  • Gerenciamento de um banco de dados analítico integrado – como Amazon Redshift – para usar na execução de consultas SQL.
E finalmente, depois de quase um ano de milhares de horas de desenvolvimento a partir da sua primeira questão:  “como eu posso prever precisamente o que meus clientes querem e fazer uma oferta bem direcionada,” obter a resposta.
Depois de tudo isso, você NÃO terminou, porque o próximo passo é REPETIÇÃO.
Sim, repetir o difícil e complexo processo. Além de gastar centenas de milhares de dólares em software, armazenamento e despesas com mão de obra para ter certeza de que todas as exaustivas partes do processo estão operando bem em conjunto, você vai ter que executar esse processo a cada vez que necessitar responder uma nova questão de negócios ou tiver a adição de uma nova fonte de dados.

Minerando Big Data vs. Small Data?

Sem sombra de dúvida trabalhar com “small” data, ex. ERP e dados financeiros é mais fácil. A receita é simples: adquira um banco de dados, acesse-o com algumas consultas SQL e um painel de controle – e você obtém algo que pode usar.
Não há necessidade de processos com códigos pesados – apenas ferramentas baseadas em interfaces gráficas – ou arquiteturas problemáticas e difíceis de serem usadas, e qualquer um com conhecimento básico de SQL pode acessar e utilizar dados de negócios para responder questões razoavelmente simples.

Derrubando a complexidade do Big Data para acordar do pesadelo

Se o objetivo é simplificar o Big Data e reduzir o tempo e os recursos necessários para converter fluxos de informações brutas em informação útil, então você precisa encarar o problema de uma perspectiva bem diferente.
  • CORTAR o número de sistemas necessários para converter os dados para uma forma trabalhável. Quem disse que você precisa de três estruturas open-source distintas para catalogação, integração e veiculação de dados? Ao invés disso, construa um sistema que possa ser aplicado em casos de uso comum de análise de grandes dados e streaming.
  • VISUALIZAR os dados. Você está desperdiçando tempo se está escrevendo um código com entendimento vago dos atuais esquemas e arquiteturas de dados. Que tal se você tiver um catálogo visual que que fornece imediatamente uma foto da estrutura de dados, incluindo estatísticas relacionadas com valores distintos, valores de distribuição e frequência com que ocorrem no conjunto total de dados?
  • AUTOMATIZE procedimentos de códigos pesados. Lograr êxito trabalhando com Big Dara significa simplesmente adotar as melhores práticas em armazenamento, organização e operações SQL. Uma solução que já contenha essas práticas vai otimizar a performance e minimizar custos.
Não, essa solução AINDA não vai fazer Big Data simples com o Excel. MAS se você pode dispensar equipes de engenharia de dados grandes e caras, projetos de dados demorados para responder questões analíticas simples, muito tempo gasto em infraestrutura e outros pesadelos.

 

Sobre o artigo

Este artigo é uma tradução livre do original Wake Up From the Big Data Nightmare – DZone Big Data.
Autor: Ori Rafael , CEO, Upsolver. Ori is CEO of Upsolver, which delivers a self-service data lake ETL platform that bridges the gap between data lakes and data consumers and enables organizations to unlock the value of their cloud data lakes.
Photo by Bayarkhuu Battulga on Unsplash

Leave a Reply