Big Data Week São Paulo

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
23
Aug

4 razões pelas quais projetos de Big Data falham – e 4 maneiras de ter sucesso

Quase todos os projetos de big data acabam em fracasso, apesar de toda a tecnologia madura disponível. Veja como fazer os esforços em big data se tornarem realmente bem-sucedidos

 

Projetos de big data são bem grandes em tamanho e escopo, frequentemente muito ambiciosos, e também frequentemente um completo fracasso. Um ano atrás, Nick Heudecker, analista da Gartner, disse que sua companhia era “muito conservadora” com sua estimativa de 60%, e colocou a taxa de insucesso próximo de 85%. Hoje, diz ele, nada mudou.
A Gartner não está sozinha nessa avaliação. O executivo antigo da Microsoft, e (até recentemente) CEO da Snowflake Computing, Bob Muglia disse ao site de análises Datanami, “não consigo encontrar um cliente do Hadoop satisfeito. É simples assim… O número de usuários que conseguiram realmente dominar o Hadoop é inferior a vinte por cento, e pode ser menor que dez. É incrível há quanto tempo esse produto, essa tecnologia está no mercado, e quanta energia a indústria gastou com ele no geral.” O Hadoop, é claro, é o motor que lançou a mania do big data.
Outras pessoas familiarizadas com big data também dizem que o problema continua real, severo, e não unicamente tecnológico. De fato, a tecnologia é uma causa minoritária de fracasso em relação aos verdadeiros culpados. Aqui estão quatro fatores chave para o insucesso de projetos de big data – e quatro maneiras chave para que você tenha sucesso.

 

Problema de big data número 1: integração pobre

 

Heudecker disse que há um problema técnico maior por trás dos fracassos com big data, e é a integração de silos de dados de múltiplas fontes para gerar os insights que as companhias querem. Construir conexões para silos e sistemas legados simplesmente não é fácil. A integração custa de cinco a dez vezes o custo do software, diz ele. “O maior problema é a simples integração: como você linka múltiplas fontes de dados para ter algum tipo de resultado? Muitos vão até o data lake e pensam que se associarem tudo alguma mágica vai acontecer. Esse não é o caso,” diz ele.
Dados em silos são parte do problema. Clientes têm contado que eles puxaram dados de sistemas de registro em um ambiente comum como um data lake e não conseguiram descobrir seu significado. “Quando você puxa dados para um data lake, como saber o significado daquele número 3?” Perguntou Heudecker.
Por eles estarem trabalhando em silos ou criando data lakes que são apenas pântanos de dados, estão só arranhando a superfície de onde poderiam chegar, disse Alan Morrison, pesquisador sênior da PwC. “Eles não entendem todas as relações dos dados que precisam ser minerados ou inferidos para se tornarem explícitos, permitindo então que as máquinas os interpretem adequadamente. É necessário criar uma camada de conhecimento gráfico, e então as máquinas poderão interpretar toda instância de dados por ela mapeada.

 

Problema de big data número 2: metas indefinidas

 

Você deve imaginar que a maioria das pessoas investindo em um projeto de big data tem uma meta em mente, mas um número surpreendentemente não tem. Eles apenas lançam o projeto deixando a meta para uma reflexão posterior.
“Você tem que avaliar bem o problema. As pessoas pensam que podem conectar dados estruturados e desestruturados e ter o insight de que necessitam. É preciso definir o problema bem antes. Que insights você quer ter? Você tem que ter uma boa visão do problema e defini-lo no início,” disse Ray Christopher, gestor de marketing de produtos da Talend, uma companhia de software de integração de dados.
Joshua Greenbaum, principal analista da Enterprise Application Consulting, disse que parte do que tem atormentado tanto os projetos de big data quanto os de data warehousing é que o principal critério é a típica acumulação de grandes volumes de dados, e a não solução de problemas discretos.
“Se você coloca um amontoado de dados juntos, você tem uma lixeira de dados. Eu chamo de aterro sanitário. Lixeiras não são bons lugares para encontrar soluções,” disse Greenbaum. “Sempre digo aos clientes que decidam quais problemas discretos devem ser resolvidos primeiro, e então que olhem a qualidade dos dados disponíveis para resolver as questões de dados uma vez que os problemas dos negócios tenham sido identificados.”
“Por quê a maioria dos projetos de big data fracassam? Para começar, por falta de visão da maioria dos líderes desses projetos,” disse Morrison, da PwC. “Empresas estão confusas sobre big data. A maioria apenas pensa sobre dados numéricos ou black box NLP e motores de reconhecimento, que estes fazem mineração simples de texto e outros tipos de padrão de reconhecimento.”

 

Problema de big data número 3: o gap de habilidades

 

Comumente as companhias pensam que as suas habilidades com data warehousing serão traduzidas para o big data, sendo que esse claramente não é o caso. Para iniciantes, data warehousing e big data lidam com dados forma totalmente oposta: data warehousing faz um esquema na escrita, o que significa que os dados são limpos, processados, estruturados e organizados antes de serem armazenados.
No big data, os dados são acumulados e o esquema de leitura é aplicado no processamento a medida que são lidos. Então o processamento de dados é o contrário de uma metodologia pra outra, e você pode apostar que as formas de trabalhar e habilidades também são.  E esse é só um exemplo.
“Habilidades sempre serão um desafio. Se você falar sobre big data daqui a 30 anos, continuarão sendo,” disse Heudecker. “Muita gente tira o chapéu pro Hadoop. Meus clientes são desafiados na procura de recursos do Hadoop. O Spark é um pouco melhor, porque é menor e mais fácil de treinar. O Hadoop tem dezenas de componentes de software.”

 

Problema de big data número 4: o gap na geração tecnológica

 

Os projetos de big data são frequentemente tirados de silos de dados antigos para tentar mesclá-los com novas fontes de dados, como sensores, tráfego online ou mídias sociais. Não é inteiramente um erro da companhia, que coletou aquelas informações em tempos anteriores à ideia de análises de big data, mas não obstante, é um problema.
“A maior deficiência é na habilidade de entender como misturar esses dois stakeholders para fazer com que trabalhem juntos na solução de problemas complexos,” diz o consultor Greenbaum. “Silos de dados podem ser uma barreira para os projetos de big data porque eles não têm um padrão. Então quando se começa a olhar o planejamento, percebe-se que esses sistemas não foram implementados de modo que os dados pudessem ser reutilizados.”
“Com diferentes arquiteturas, você precisa processar de formas diferentes,” disse Christopher, da Talend. “Habilidades técnicas e diferenças de arquitetura foram uma razão comum do porquê você não pode pegar as ferramentas atuais de data warehouse e integrar com projetos de big data – porque essas tecnologias tornarão o processamento de novas informações muito custoso. Então é preciso ter o Hadoop e o Spark, e você tem que aprender novas linguagens.”

 

Solução de big data número 1: planejamento antecipado

 

É um clichê antigo, mas aplicável aqui: se você falha no plano, está planejando a falha. “Companhias de sucesso são as que têm um resultado,” disse Heudecker, da Gartner. “Pegue algo pequeno, palpável e novo. Não assuma legados, porque você tem limitações.”
“Eles precisam pensar sobre os dados primeiro, e modelar suas organizações de uma maneira que seja legível para as máquinas, e então os dados servirão à organização,” diz Morrison da PwC.

 

Solução de big data número 2: trabalhe em conjunto

 

“Muitas vezes, stakeholders são esquecidos por projetos de big data – justamente as pessoas que usariam os resultados. Se todos os stakeholders colaborarem, eles podem superar várias barreiras,” Heudecker disse. “Se as pessoas capacitadas estão trabalhando em conjunto, e trabalhando com o lado comercial para entregar resultados razoáveis, isso pode ajudar,” disse ele.
Heudecker notou que as companhias de sucesso em big data investem pesadamente nas capacitações necessárias. Ele vê isso mais em companhias orientadas por dados, como serviços financeiros, Uber, Lyft e Netflix, onde a fortuna das companhias está em ter bons dados tangíveis.
“Faça com que seja um esporte em equipe, para ajudar a coletar, curar e purificar dados. Agir assim pode incrementar a integridade dos dados também,” disse Christopher da Talend.

 

Solução de big data número 3: foco

 

As pessoas parecem ter a ideia de que projetos de big data têm que ser massivos e ambiciosos. Como tudo que você está aprendendo pela primeira vez, a melhor maneira de lograr sucesso é começar pequeno e gradualmente expandir em termos de ambição e escopo.
“Eles deveriam definir estritamente o que estão fazendo,” Haudecker disse. “Deveriam escolher um problema e assumi-lo, como detecção de fraude, microssegmentação de clientes, ou descobrir que novo produto introduzir no mercado.”
“Ao final do dia, você tem que perguntar que insights você quer ou quais os processos de negócios a serem digitalizados,” disse Christopher. “Você não apenas joga tecnologia em problemas de negócios; você tem que defini-los previamente. O data lake é uma necessidade, mas você não vai querer coletar dados se eles não são úteis para ninguém na empresa.”
Em muitos casos, isso também significa não inflamar a sua companhia. “Em cada empresa que estudei, há apenas algumas centenas de conceitos-chave e relações nas quais todo o negócio se apoia. Uma vez que você entende isso, se dá conta de que todas essas milhões de distinções são apenas leves variações daquelas poucas centenas de coisas importantes,” disse Morrison da PwC. “De fato, você descobre que muitas dessas pequenas variações nem mesmo são variações. Elas são exatamente as mesmas coisas com nomes diferentes, estruturas diferentes ou rótulos diferentes,” acrescentou.

 

Solução de big data número 4: alijar o legado

 

Enquanto você pode querer usar esses terabytes de dados coletados e estocados em seu data warehouse, o fato é que você estaria melhor servido focando somente nos novos dados adquiridos por sistemas de armazenamento projetados para big data, e não para silos.
“Eu definitivamente tenho que alertar para não ser devoto de uma infraestrutura tecnológica existente só porque sua companhia é licenciada para ela,” disse o consultor Greenbaum. “Frequentemente novos problemas complexos podem requerer soluções complexas. Se apoiar em ferramentas antigas da companhia não é a maneira correta de prosseguir. Muitas companhias usam ferramentas antigas, e isso destrói o projeto.”
Morrison observou, “as empresas precisam parar tropeças nas suas próprias roupas de baixo e abandonar a arquitetura legada, que cria mais silos.” Ele também disse que elas precisam parar de esperar que os fornecedores resolvam seus problemas sistêmicos complexos. “Por décadas, muitas parecem supor que podem comprar suas saídas para os problemas de big data. Qualquer problema de big data é um problema sistêmico. Quando se trata de qualquer mudança complexa de sistemas, você tem que construir suas saídas,” disse.

 

Sobre o artigo

Este artigo é uma tradução livre do original 4 reasons big data projects fail—and 4 ways to succeed.
Autor: Andy Patrizio é um jornalista freelancer baseado no sul da Califórnia e tem coberto a indústria computacional por 20 anos. Ele construiu cada PC x86 que usou, com exceção de laptops.
Photo by Ricardo Gomez Angel on Unsplash

Leave a Reply