Big Data Week São Paulo

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
19
Mar

Um jeito mais inteligente de ingressar nos data lakes

Uma abordagem ágil para o desenvolvimento de data-lake pode ajudar companhias a lançar programas analíticos mais rápido e estabelecer uma cultura favorável de dados a longo prazo.

 

Incrementos no poder de processamento de computadores, capacidade e uso de armazenamento em nuvem, e conectividade em rede estão transformando o atual fluxo de dados na maioria das empresas em um maremoto – um fluxo sem fim de informações detalhadas sobre perfis pessoais de clientes, arquivos de vendas, especificações de produtos, etapas de processos e assim por diante. A informação chega em todos os formatos de uma variedade de fontes, incluindo dispositivos de internet das coisas, sites de redes sociais, sistemas de vendas e sistemas internos de colaboração.

Apesar do incremento no número de ferramentas e tecnologias designados a facilitar a coleta, armazenamento e classificação de informações críticas de negócios, muitas empresas continuam sem saber bem como manusear essas informações. Líderes de negócios e de TI têm nos contado que eles continuam sobrecarregados pelo grande volume e variedade de dados à disposição, pela velocidade que essas informações cruzam redes internas e externas e pelo custo de gerenciar toda essa inteligência de negócios. Para completar, eles também estão sendo sobrecarregados por uma tarefa ainda mais complicada: aproveitar insights significativos de todas essas informações de negócios.

Esses executivos deveriam expandir sua estrutura de gerenciamento de informações rápida e massivamente. Uma classe emergente de gerenciamento de dados traz uma promessa significante a esse respeito: os data lakes. Essas plataformas de armazenamento são projetadas para armazenar, processar e analisar informações estruturadas e não estruturadas. Eles são tipicamente usados em conjunto com data warehouses corporativos tradicionais (EDWs), mas em geral, custam menos para operar que os EDWs. Essa economia é resultante das empresas poderem usar hardwares acessíveis e fáceis de serem obtidos, e porque os conjuntos de dados não precisam ser indexados e preparados para armazenagem no momento de sua introdução. Os dados são mantidos em seus formatos nativos e reconfigurados apenas quando necessário, e como for necessário. Bases de dados relacionais podem também ser gerenciadas como parte de uma plataforma de data-lake, mas apenas para facilitar a habilidade dos usuários finais de acessar algumas buscas de informações.

Há muito para as companhias aproveitarem a respeito dos data lakes. Por causa da informação ser carregada em formatos brutos ao invés de pré-configurados assim que entram nos sistemas da empresa, eles podem ser usados de maneiras que vão além da captura básica. Por exemplo, cientistas de dados que não sabem bem o que estão procurando podem encontrar e acessar informações rapidamente, independentemente do formato. De fato, uma “zona de dados brutos” bem mantida e gerida pode ser uma mina de ouro para cientistas de dados em busca do estabelecimento de um programa avançado e robusto de análises. E conforme as companhias estendem o uso de data lakes além dos pequenos projetos piloto, elas se tornam aptas a estabelecer opções “self-service” para usuários de negócios nas quais podem gerar suas próprias análises de dados e relatórios.

Entretanto, pode ser demorado e complicado integrar data lakes a outros elementos da arquitetura tecnológica, estabelecer regras apropriadas para o amplo uso de data lakes na companhia e identificar os produtos de suporte, habilidades e capacidades necessárias para implementar data lakes e obter benefícios significativos para os negócios. Por exemplo, companhias normalmente carecem de experiência em abordagens de gerenciamento de dados, e precisam encontrar funcionários fluentes em tecnologias de fluxo de dados emergentes, como Flume e Spark.

Em muitos casos, as empresas vão ficando mais lentas. Elas estão recorrendo a métodos testados e comprovados para atualização de arquitetura de tecnologia – por exemplo, se engajando em extensas discussões internas sobre designs ideais, produtos, fornecedores e evitando a construção de uma solução de data lake até eles terem um que seja adequado. Ao mesmo tempo, oportunidades de implementar programas avançados de análise que suportarão vendas digitais e marketing, bem como o desenvolvimento de novos produtos simplesmente passam por elas.

As empresas deveriam, ao invés disso, aplicar uma abordagem ágil ao design e funcionamento de seus data lakes – testando uma amplitude de tecnologias e abordagens de gerenciamento, e testando e refinando-os antes de alcançar os processos ideais para armazenamento e acesso. As empresas que o fazem conseguem se adaptar rapidamente às mudanças nos padrões regulatórios e de conformidade – por exemplo, o Regulamento Geral de Proteção de Dados da União Europeia, que está previsto para ter efeito na metade de 2018. Possivelmente mais importante, eles podem trazer ao mercado insights baseados em análises muito mais rápido que seus competidores enquanto reduz consideravelmente os custos e complexidade de gerenciamento dessas arquiteturas de dados.

Etapas de desenvolvimento do data-lake

Companhias geralmente seguem quatro etapas para quando estão desenvolvendo e integrando data lakes em suas arquiteturas tecnológicas já existentes (tabela):

Elas devem passar por algum ou todos esses quatro estágios de construção e integração de data lakes.

 

  • Zona de entrada e dados brutos. No primeiro nível, o data lake é construído separadamente da estrutura dos sistemas de TI e servidores como um ambiente puramente de captura, de baixo custo e escalável. Os servidores do data lake, com uma fina camada de gerenciamento de dados dentro da tecnologia da empresa, permitem que os arquivos brutos sejam estocados indefinidamente antes de serem preparados para uso em ambientes computacionais. As organizações podem implementar o data lake com efeitos mínimos na arquitetura existente. Forte gerenciamento, incluindo rigorosa classificação de informações, é necessário durante essa fase inicial se a companhia deseja evitar a criação de um pântano de informações.
  • Ambiente de data science. Nesse próximo nível, as organizações devem começar a usar mais ativamente o data lake como plataforma de experimentação. Cientistas de dados têm acesso rápido e fácil – e podem se focar mais nos experimentos em andamento com as informações e fazer sua análise, ao invés de focar somente na coleta e aquisição de dados. Nessa sandbox, eles podem trabalhar com dados crus para construir protótipos de programas de análise. Podem implementar uma variedade de ferramentas open-source e comerciais enquanto o data lake cria os berços de teste necessários.
  • Descarga para data warehouses. No próximo nível, data lakes estão começando a serem integrados nos EDWs já existentes. Tirando vantagem do baixo custo de armazenamentos associados ao data lake, as companhias podem usar dados “frios” (raramente usados, dormentes, inativos). Eles podem usar esses dados para gerar insights sem forçar ou exceder limites de armazenagem, ou sem ter que aumentar dramaticamente o tamanho dos data warehouses tradicionais. Principalmente, podem manter extração intensa de dados relacionais nos EDWs existentes, que têm a capacidade de manejá-los. Podem também migrar tarefas de transformação e extração de baixa intensidade para o data lake – por exemplo, quando os cientistas de dados precisam fazer uma varredura nas bases de dados para consultas que não são suportadas por estruturas tradicionais de indexação, como buscar uma agulha no palheiro.
  • Componente crítico das operações com dados. Uma vez que as companhias atingem esse estágio de funcionamento e desenvolvimento, é muito provável que a maior parte das informações que flui por ela passe pelo data lake. Este se torna uma parte importante da infraestrutura de dados, substituindo os data marts existentes ou data stores operacionais e permitindo a provisão de data as a service. Os negócios podem obter total vantagem da natureza distribuída da tecnologia de data lake tanto quanto da habilidade de manejar tarefas computacionais intensivas, como as requeridas para conduzir análises avançadas ou implementar programas de aprendizagem das máquinas. Algumas companhias podem decidir projetar aplicações de uso intensivo de dados sobre o data lake – como um painel de controle de gerenciamento de performance. Ou elas podem usar interfaces de programação de aplicações para combinar, sem emendas, insights de pesquisas em data lake com insights vindos de outras aplicações.

O tempo e as capacidades necessários para que companhias façam seus data lakes crescerem de simples zonas de entrada de informações para se tornarem componentes críticos da infraestrutura de dados varia de acordo com os objetivos da empresa e de seu ponto de partida. A cada etapa do desenvolvimento, as companhias precisam examinar questões importantes relacionadas ao tamanho e variedade dos conjuntos de dados, suas capacidades existentes em gerenciamento de informações, o nível de expertise em big data nas suas unidades de negócios, e produzir conhecimento na organização da TI. Quão sofisticadas são as ferramentas de análise no ambiente atual? A companhia está usando ferramentas de desenvolvimento e metodologias tradicionais ou novas? De quantos usuários de dados a companhia necessita normalmente? As cargas de trabalho são geridas dinamicamente? Quão rápido os usuários finais precisam ter acesso aos dados? Em vários pontos no processo de desenvolvimento do data lake, as empresas podem topar nesses detalhes e perder tempo; líderes da TI ou das unidades de negócios inevitavelmente se dispersam para resolver outros projetos “urgentes.”

A jornada do data lake desde o “projeto científico” até sua total integração como componente da infraestrutura pode ser acelerada, entretanto, quando os líderes de TI e negócios se unem para responder essas e outras questões sob um modelo de desenvolvimento ágil. Em nossa experiência, uma abordagem ágil pode ajudar as companhias a obter vantagens de seus data lakes em meses ao invés de anos. Ganhos rápidos e evidências de impactos de curto prazo podem ajudar muito no sentido de manter os líderes de negócios e de TI engajados, focados nos problemas de gerenciamento de dados – diminuindo assim a necessidade futura de retrabalho e ajustes intermináveis dos protocolos associados a preenchimento, gestão e acesso ao data lake. Uma abordagem ágil pode colocar esses líderes na mesma página. Esta colaboração é crítica não apenas determinando o rumo técnico do data lake, mas também para estabelecer um ambiente de trabalho compatível com o uso de dados e aproveitar novas oportunidades de negócios baseados nos seus insights.

Construindo um data lake: uma abordagem ágil

A maioria das organizações entende a necessidade de metodologias rápidas no contexto de desenvolvimento de software. Poucas delas têm aplicado agilidade no contexto de gestão de dados. Tipicamente, a TI lidera a avaliação de potenciais opções de tecnologia e abordagens para construir data lakes, com pequenas sugestões das unidades de negócios. Sob uma abordagem ágil, líderes de negócios e TI delineiam e identificam juntos questões relevantes sobre design e tecnologia. Por exemplo, se o data lake vai ser construído usando uma ferramenta pronta, ou se vai ser hospedado na nuvem (usando servidores externos privados, públicos ou híbridos)? Como o data lake será preenchido – isto é, que conjuntos de dados vão fluir por ele e quando? Idealmente, o preenchimento do data lake deveria ser baseado nos usos comerciais de maior prioridades, e feito em ondas, em oposição ao esforço massivo de conectar todos os fluxos de dados relevantes dentro do data lake de uma só vez.

De fato, os adeptos recentes de maior sucesso têm desenhado seus data lakes usando uma abordagem baseada no lado comercial ao invés de considerar fatores tecnológicos primeiro. Eles estão identificando os cenários em que as unidades de negócios poderiam ganhar mais valor a partir do data lake e então incluindo esses cenários no design (ou redesing) da solução de armazenamento e nas soluções de funcionamento. As companhias estão, portanto, incrementando o preenchimento dos data lakes com dados para grupos ou casos específicos conforme a necessidade. E ao invés de entrar em uma solução de design específica, elas estão testando dois ou três candidatos finais de diferentes provedores para verificar a real performance, facilidade de integração e escalabilidade dessas ofertas.

Essa abordagem rápida pode assegurar que os desafios de performance ou de implementação sejam descobertos logo. Ela incorpora feedbacks das unidades de negócios. E também deixa espaço para o rápido desenvolvimento de equipes para mexer com processos e dados – envolve protocolos de gestão conforme o data lake enche, análises e mudanças de tecnologias de armazenamento e requerimentos comerciais.

Conforme o data lake muda de um projeto piloto para elementos estruturais da arquitetura de dados, líderes comerciais e de tecnologia não precisam reconsiderar as estratégias de governança. Especificamente, eles precisam aprender a equilibrar a rigidez do monitoramento de dados tradicional contra a necessidade de flexibilização conforme dados são rapidamente coletados e usados no mundo digital. Sob a gestão de abordagem ágil, as empresas podem aplicar o monitoramento necessário conforme novas pesquisas entram no data lake, evitando algumas práticas mais rígidas requeridas nas tradicionais data warehouses e então reencontrando regras e processos conforme as exigências comerciais para uma solução ideal. Cientistas de dados podem receber passe livre para explorar os dados, mesmo que os casos de negócios para certas categorias de dados ainda estejam sendo identificados. Principalmente, usuários de linha de frente podem encarar controles mais estritos até que os casos de uso sejam mais firmemente estabelecidos.

Porém, no mínimo, as companhias devem designar certos indivíduos como proprietários dos conjuntos de dados e processos, então as responsabilidades estão livres e decisões sobre pesquisas de dados e direitos de acesso podem ser tomadas mais rapidamente. Por causa dos dados não estarem sendo estruturados de cara, as companhias também vão querer capturar e armazenar metadados em todas as fontes que fluem para o data-lake (até mesmo no próprio data-lake ou em um registro separado) e manter um catálogo central de dados para todos os interessados. Adicionalmente, as empresas podem precisar reconfigurar os direitos de acesso conforme eles se repetem nos protocolos de gestão de dados – mantendo em mente os requerimentos regulatórios e problemas de privacidade relacionados à retenção de informações pessoais identificáveis. Os proprietários de dados devem comunicar esses direitos de acessos para todas as partes relevantes.

Transformação em banco global

Vamos considerar como um banco global aplicou princípios de agilidade para desenvolvimento de um data lake. O banco vinha lutando com vários desafios críticos de dados: baixa qualidade de informações para os negócios, falta de especialistas para gerir diferentes conjuntos de dados chegando em diferentes formatos, envelhecimento das tecnologias de data warehouse e mais de 1000 fontes de informações. Os sistemas eram desajeitados. Conjuntos de dados chegando precisavam ser estruturados antes de entrarem em quatro camadas do data warehouse (saída, forma normal, camada de assunto e camada de aplicativo) e antes de qualquer retorno útil ser gerado.

Além desses desafios técnicos, líderes de TI e de negócios não estavam trabalhando colaborativamente, o que exacerbou os problemas de dados da companhia. Os dados estavam sendo guardados em sistemas isolados, então informações críticas de negócios permaneciam presas. Pedidos de acesso a certos conjuntos de dados demoraram a ter resposta devido à pouca coordenação e comunicação entre as unidades de negócios e operações de TI. A gestão de dados era vista como um trabalho de TI; líderes de negócios mantinham o tópico distante e então lutavam para articular suas necessidades de dados.

Usando agilidade para acelerar sua transformação de dados

Líderes seniores no banco estavam preocupados com a perda de clientes, em parte devido à inabilidade da companhia em manejar dados de forma eficiente. Eles decidiram experimentar tecnologias de data lake para tentar facilitar a extração, estruturação e entrega de conjuntos de dados. Buscando trabalhar tão rápido quanto os desenvolvedores de software, a companhia usou um modelo de desenvolvimento ágil e colocou o projeto de data lake para funcionar em fases.

Os líderes seniores convocaram uma equipe rápida envolvendo especialistas no assunto das unidades de negócios e da organização de TI para considerar os impactos nos negócios e os casos de uso para melhorar a qualidade e o acesso aos dados antes de determinar que áreas da empresa teriam acesso inicial ao data lake.

Essa equipe de dados conduziu entrevistas detalhadas com usuários dos negócios para identificar pontos problemáticos e oportunidades nas práticas já existentes de gerenciamento. O plano da equipe era lançar ondas de novos serviços de dados e aplicações em janelas de quatro meses – implementando novas ferramentas de gerenciamento, desenvolvendo serviços de entrega de dados com as unidades de negócios, e refinando processos baseados nos feedbacks de clientes. Dentro de alguns meses do lançamento inicial do projeto ágil de dados, o banco estava apto para carregar dados relevantes para casos de usos comerciais particulares dentro de um ambiente comum e identificar os elementos críticos de dados requeridos para prover serviços às unidades de comerciais.

Sucesso em áreas de alta visibilidade dos negócios permitiram ao banco estender o uso do data lake para outras áreas nos meses subsequentes. A mudança entre estruturar todas as informações no início para documentar processos finais apenas para dados utilizados foi significativa. O banco foi capaz de dissolver os silos de dados; informações de sistemas agora podiam ser encontradas em um lugar e os funcionários estavam aptos a acessar múltiplas formas de dados (demográficos, geográficos, mídia social, e muito mais) para adquirir uma visão de 360 graus dos clientes. A colaboração entre as unidades de negócios e TI aumentou, bem como o grau de satisfação dos funcionários e dos clientes.

Mais e mais companhias estão experimentando data lakes, esperando capturar vantagens inerentes às redes de informação que estão prontamente acessíveis independentemente da plataforma e ramo de negócio, e custa menos que estocar toda a informação nos tradicionais data warehouses. Como em qualquer implantação de nova tecnologia, entretanto, as empresas vão precisar reimaginar sistemas, processos e modelos de gestão. Haverá questões inevitáveis sobre protocolos de segurança, conjunto de habilidades e a construção de uma arquitetura empresarial que assegura flexibilidade não apenas nas pilhas de tecnologia, mas também nas capacidades de negócios. Nossa experiência sugere que uma aproximação ágil ao implementar data lakes pode ajudar as companhias a aumentar a curva de aprendizagem mais rápida e efetivamente.

 

Sobre os autores

Mikael Hagstroem é sócio no escritório McKinsey de Charlotte, Matthias Roggendorf é especialista sênior no escritório de Berlim, Tamim Saleh é sócio sênior no escritório de Londres, e Jason Sharma é associado no escritório do Vale do Silício.

Os autores agradecem Prasoon Sharma por suas contribuições para este artigo.

 

Sobre o artigo:

Este artigo é uma tradução livre do original A smarter way to jump into data lakes.

 

Photo by Joshua Earle on Unsplash

Leave a Reply