19
Oct
//
0 Comments
Acordando do pesadelo do Big Data
Se você não trabalha realmente com Big Data apenas sabe a respeito pelo que ouviu na mídia –como pode ser usado para otimizar fluxos de dados, tomar decisões no mercado financeiro, frustrar planos terroristas, fazer dispositivos mais inteligentes e autônomos, ou mesmo monitorar a performance de atletas – provavelmente vai dizer que é um sonho se tornando realidade.
Entretanto, para aqueles que realmente extraem, analisam e gerenciam Big Data para permitir que todas essas coisas sejam feitas, frequentemente não é nada além de um pesadelo.
Minerar Big Data: todo o trabalho pesado?
Trabalhar com grandes volumes de fluxos de dados que mudam rapidamente pode ser incompreensível e definitivamente mais complexo do que simplesmente olhar para planilhas, tabelas, e painéis de controle.
Você sabe que 2,5 quintilhões de bytes de dados são gerados por dia – e a velocidade acelera cada vez mais com os avanços em IoT? Como acompanhar tantos volumes gigantescos de informação?
Suponha que você quer usar Big Data para responder a uma pergunta simples, como “como os usuários logaram no aplicativo online da nossa companhia na última hora?” É muito fácil de responder se você só tem algumas centenas de usuários, mas e se você está falando de uma aplicação comum usada por milhões de pessoas?
Se lhe parece que a obtenção dessa resposta será muito fácil, bom vamos ver.
O processo supostamente fácil envolve:
-
Arquivar os dados brutos em um repositório – o “data lake.” Esse processo requer conhecer e usar as melhores práticas em relação a compressão, separação e definição de regras para manter essas informações intactas para o futuro.
-
Escrever um código para interpretar os dados que você coletou.
-
Garantir que as tarefas de ETL sejam executadas com eficiência, através da designação de um desenvolvedor para gerenciar e controlar os sistemas de orquestração (como Apache Airflow ou NiFi).
-
Criar uma base de dados NoSQL para gerenciar stateful ETLs.
-
Gerenciamento de um banco de dados analítico integrado – como Amazon Redshift – para usar na execução de consultas SQL.
E finalmente, depois de quase um ano de milhares de horas de desenvolvimento a partir da sua primeira questão: “como eu posso prever precisamente o que meus clientes querem e fazer uma oferta bem direcionada,” obter a resposta.
Depois de tudo isso, você NÃO terminou, porque o próximo passo é REPETIÇÃO.
Sim, repetir o difícil e complexo processo. Além de gastar centenas de milhares de dólares em software, armazenamento e despesas com mão de obra para ter certeza de que todas as exaustivas partes do processo estão operando bem em conjunto, você vai ter que executar esse processo a cada vez que necessitar responder uma nova questão de negócios ou tiver a adição de uma nova fonte de dados.
Minerando Big Data vs. Small Data?
Sem sombra de dúvida trabalhar com “small” data, ex. ERP e dados financeiros é mais fácil. A receita é simples: adquira um banco de dados, acesse-o com algumas consultas SQL e um painel de controle – e você obtém algo que pode usar.
Não há necessidade de processos com códigos pesados – apenas ferramentas baseadas em interfaces gráficas – ou arquiteturas problemáticas e difíceis de serem usadas, e qualquer um com conhecimento básico de SQL pode acessar e utilizar dados de negócios para responder questões razoavelmente simples.
Derrubando a complexidade do Big Data para acordar do pesadelo
Se o objetivo é simplificar o Big Data e reduzir o tempo e os recursos necessários para converter fluxos de informações brutas em informação útil, então você precisa encarar o problema de uma perspectiva bem diferente.
-
CORTAR o número de sistemas necessários para converter os dados para uma forma trabalhável. Quem disse que você precisa de três estruturas open-source distintas para catalogação, integração e veiculação de dados? Ao invés disso, construa um sistema que possa ser aplicado em casos de uso comum de análise de grandes dados e streaming.
-
VISUALIZAR os dados. Você está desperdiçando tempo se está escrevendo um código com entendimento vago dos atuais esquemas e arquiteturas de dados. Que tal se você tiver um catálogo visual que que fornece imediatamente uma foto da estrutura de dados, incluindo estatísticas relacionadas com valores distintos, valores de distribuição e frequência com que ocorrem no conjunto total de dados?
-
AUTOMATIZE procedimentos de códigos pesados. Lograr êxito trabalhando com Big Dara significa simplesmente adotar as melhores práticas em armazenamento, organização e operações SQL. Uma solução que já contenha essas práticas vai otimizar a performance e minimizar custos.
Não, essa solução AINDA não vai fazer Big Data simples com o Excel. MAS se você pode dispensar equipes de engenharia de dados grandes e caras, projetos de dados demorados para responder questões analíticas simples, muito tempo gasto em infraestrutura e outros pesadelos.