Big Data Week São Paulo

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
24
Aug

A morte do Big Data e a emergência da era Multi-Cloud

A era do Big Data está chegando ao fim, conforme o foco muda de como coletar dados para o processamento desses dados em tempo real. Big Data agora é um ativo de negócios, dando suporte às próximas eras de multi-cloud, machine learning, e real-time analytics.

A era do Big Data ficou para trás em 5 de junho de 2019, com o anúncio da renúncia de Tom Reilly da Cloudera e subsequente queda na capitalização do mercado. Juntamente com o recente anúncio das intenções da MapR de fechar as portas no final de junho, o que dependerá, entretanto, se ela conseguirá encontrar um comprador para continuar as operações, junho de 2019 anunciou que a era do Big Data guiado pelo Hadoop está próxima do fim. O Big Data será lembrado por permitir o começo da dominância das redes sociais, seu papel fundamental de mudar a mentalidade das companhias sobre trabalhar com múltiplas ordens de magnitude de volume de dados, e esclarecendo o valor da análise de dados, qualidade dos dados e controle de dados para contínua avaliação de valor deles como ativos da companhia.
Como deixo aqui minhas últimas palavras sobre a Era do Big Data, quero enfatizar que as suas tecnologias não estão “mortas,” realmente, mas que sua geração inicial baseada em Hadoop atingiu um ponto de maturidade cujo papel em dados corporativos está estabelecido.

 

O nascimento do Big Data

Quando a Era do Big Data começou, com o lançamento do Apache Hadoop, em 2006, desenvolvedores e arquitetos viram essa ferramenta como uma possibilidade de processar e armazenar dados multi estruturados e semiestruturados. A mudança fundamental no pensamento dos dados corporativos, além das conjecturas tradicionais de ACID (atomicity, consistency, isolation, and durability – atomicidade, consistência, isolamento e durabilidade), levou a uma transformação nos casos de uso de dados, conforme as empresas se deram conta de que informações anteriormente jogadas fora, ou mantidas em arquivos estáticos, poderiam realmente gerar valor no entendimento do comportamento de clientes, sua propensão a agir, fatores de risco, e compreensão de comportamentos complexos em níveis organizacional, ambiental e de negócios. O valor comercial do Hadoop começou a ser estabelecido em 2009 com o lançamento da Cloudera, como versão de distribuição comercial, rapidamente seguida por MapR, Hortonworks, e EMC Greenplum (agora Pivotal HD). Apesar de analistas terem feito projeções otimistas de Big Data como um mercado potencial de 50 bilhões de dólares ou mais, o Hadoop acabou sendo desafiado como ferramenta analítica nos anos 2010.

 

Desafios do Hadoop no mundo corporativo

Embora o Hadoop tenha sido valioso em trabalhos de armazenamento em larga escala e ETL (Extract, Transform and Load), e tenha ajudado em tarefas de machine learning através de batch processing, não foi ideal no suporte a trabalhos analíticos mais tradicionais que as companhias e grandes organizações usavam para gerenciar suas operações diárias. Ferramentas como Hive, Dremel e Spark foram usadas sobre o Hadoop para dar suporte às análises, mas ele nunca se tornou rápido o suficiente para realmente substituir o data warehouse.
O Hadoop também foi desafiado pelos avanços nas bases de dados NoSQL e nos provedores de armazenamento, que resolviam as questões de armazenamento e gestão as quais ele foi originalmente desenvolvido para suportar. Ao longo do tempo, os desafios de dar suporte à continuidade dos negócios no Hadoop e a falta de flexibilidade no suporte em tempo real, e outros casos emergentes de uso de análises, dificultaram seu desenvolvimento além do batch processing para volumes massivos de dados.
Em adição, as companhias passaram a descobrir que seus desafios de Big Data estavam cada vez mais associados com o fato de suportar uma ampla variedade de fontes de dados, e ao ajuste rápido de esquemas de dados, consultas, definições e contextos, para refletir o uso de novos aplicativos, plataformas e distribuidores de infraestrutura de nuvem. Para resolver esse desafio, análise, integração e replicação deveriam se tornar mais ágeis. Essa situação refletiu na criação de vários fornecedores, incluindo:
  • Soluções analíticas como ClearStory Data, Domo, Incorta, Looker, Microsoft Power BI, Qlik, Sisense, Tableau e ThoughtSpot
  • Fornecedores de data pipeline como Alooma, Attunity, Alteryx, Fivetran e Matillion
  • E fornecedores de data integration incluindo Informatica, MuleSoft, SnapLogic, Talend e TIBCO (que também compete no campo analítico com seu portfólio Spotfire)
Se parece que muitas dessas empresas estão sob os holofotes, seja por alguma perspectiva de aquisição ou de financiamento, não é coincidência. Exemplos recentes incluem, mas não se limitam a:
  • Investimento Série D de US$145 milhões na ToughtSpot em maio de 2018
  • Investimento Série E de US$80 milhões na Sisense em setembro de 2018
  • Investimento Série B de US$15 milhões na Incorta em outubro de 2018
  • Investimento Série A de US$15 milhões na Fivetran em dezembro de 2018
  • Investimento Série E de US$103 milhões na Looker em dezembro de 2018
  • Aquisição da Orchestra Networks pela TIBCO em dezembro de 2018
  • Aquisição da Jinfonet pela Logi Analytics em fevereiro de 2019
  • Aquisição da Alooma pelo Google em fevereiro de 2019
  • Aquisição da Attunity pela Qlik em fevereiro de 2019
  • Aquisição da AllSight pela Informatica em fevereiro de 2019
  • Aquisição da SnappyData pela TIBCO em março de 2019
  • Aquisição da ClearStory Data pela Alteryx em abril de 2019
  • Investimento Série C de US$35 milhões na Matillion em junho de 2019
  • Intenção do Google de adquirir a Looker em junho de 2019
  • Intenção da Salesforce de adquirir a Tableau em junho de 2019
  • Aquisição da Zoomdata pela Logi Analytics em junho de 2019
O sucesso dessas soluções reflete a necessidade crescente de flexibilidade de analistas, dados e plataformas em incrementar o valor analítico contextual dos dados através das nuvens e fontes. E haverá mais atividades em 2019, já que boa parte dessas empresas pertencem a fundos privados ou foram financiadas com capital de risco significativo que terão de sair em breve para financiamentos futuros.
Com a passagem do Big Data, seguimos adiante cuidando dos descendentes dessa era, incluindo a Era do Multi-Cloud, a Era do Machine Learning e a Era do Real-Time and Ubiquitous Context.
A Era do Multi-Cloud se conecta com a crescente necessidade de suportar aplicações e plataformas através de múltiplas nuvens baseadas em aplicações em vigor, e incrementando a necessidade de suportar a entrega contínua e a fluidez dos negócios. A mentalidade de “há um aplicativo para isso” tem levado o ambiente empresarial a ter em média uma aplicação de SaaS (Software as a Service) por colaborador nas empresas, o que significa que cada grande companhia está suportando um tráfego de dados de milhares de aplicações SaaS. E a evolução da conteinerização no backend está levando ao aumento da fragmentação e especialização do armazenamento e da carga de trabalho, em função de suportar ambientes de demanda e picos de utilização.
A Era do Machine Learning ganha atenção por seu foco em modelos analíticos, algoritmos, modelos de treinamento, deep learning, e ética nas tecnologias de algoritmos e deep learning. Machine learning requer muitos dos mesmos trabalhos necessários para criação de dados limpos para análises, mas também requer cálculos adicionais e contexto comercial e ético para gerar valor por longo prazo.
A Era do Real-Time and Ubiquitous Context tem a ver com a crescente necessidade de atualizações oportunas tanto do ponto de vista analítico quanto de engajamento. De uma perspectiva analítica, não é mais suficiente a slimples atualização do processamento analítico uma vez por semana ou por dia. Os colaboradores agora precisam de atualizações praticamente em tempo real, ou correm o risco de tomarem decisões corporativas ruins que já sejam obsoletas assim que forem tomadas. O uso efetivo de análises em tempo real requer uma variedade de dados corporativos para prover um contexto holístico adequado, bem como para que as análises de dados sejam performadas sob demanda. Ubiquity também diz respeito à emergência da interação, incluindo a internet das coisas, que fornece observações remotas de atividades ambientais e mecânicas, assim como o ainda em desenvolvimento mundo da realidade estendida, que inclui realidade aumentada e realidade virtual, fornecendo contexto sensorial em local, hora e ação. Para permitir esse nível de interação, os dados têm que ser analisados na velocidade da interação, o que pode ser entorno de 300-500 milissegundos para um feedback efetivo de comportamento.
Com a Era do Big Data chegando ao fim, agora podemos focar menos na mecânica de coletar vastos volumes de dados e mais nos inúmeros desafios de processar, analisar, e interagir com volumes massivos de informações em tempo real. Aqui estão alguns conceitos para ter em mente conforme progredimos nas novas Eras trazidas pelo Big Data.
Primeiro, Hadoop continua tendo seu lugar nos dados corporativos. A Amalgam Insights espera que o MapR se torne uma companhia conhecida por gerenciar softwares de TI como BMC, CA ou Micro Focus, e acredita que a Cloudera está caminhando para ir além do Enterprise Hadoop no suporte das próximas eras de dados. Mas o ritmo da tecnologia é implacável, e a questão para a Cloudera é se ela consegue se movimentar rápido o suficiente para se transformar. Ela tem como desafio a transformação tecnológica de evoluir sua plataforma de dados corporativos para uma plataforma de insight e machine learning da próxima geração. As companhias normalmente conseguiam definir um intervalo de transformação de décadas. Agora, companhias tecnológicas de sucesso devem estar preparadas para transformar e até mesmo canibalizar partes delas mesmas a cada década só para se manterem operantes, como vemos na Amazon, Facabook e Microsoft.
Segundo, a necessidade de análises multi-cloud e visualização de dados é maior do que nunca. O Google e a Salesforce acabaram de investir US$18 bilhões em aquisições da Looker e Tableau, e essas compras foram basicamente aquisições de valor de mercado para empresas dessa escala e crescimento de receita. Haverá muitos outros bilhões gastos em desafios de prover análises através de uma ampla variedade de fontes de dados e para suportar armazenamentos cada vez mais fragmentados e variados, além da necessidade de computação e integração a serem associadas com multi-cloud. Isso significa que essas empresas precisarão descobrir estrategicamente quanto desse desafio vai ser gerido pela integração de dados, modelagem de dados, análises, e/ou machine learning/equipes de data science, conforme o processamento e a análise de dados heterogêneos se tornam cada vez mais difíceis, complexos e, no entanto, ainda necessários para apoiar os imperativos estratégicos dos negócios e uso de dados como uma verdadeira vantagem estratégica.
Terceiro, machine learning e data science são a próxima geração de análise, e vão requerer seus próprios esforços de gerenciamento de dados. A criação dos dados de teste, dados sintéticos e dados mascarados em escala, bem como a linhagem, governância e parâmetro e hiper-definições de parâmetros, e suposições de algoritmos requerem esforços além dos conceitos tradicionais de Big Data. A consideração mais importante aqui é usar dados que não servem bem aos negócios devido a sua escassez, falta de fontes, pouca definição, má contextualização ou algoritmos e classificação imprecisos. Em outras palavras, não usar dados enganosos. Dados enganosos levam a resultados enviesados, em desacordo, imprecisos, e podem levar a problemas como a destruição de Nick Leeson do Barings Bank em 1995 ou a perda de US$7 bilhões da Societe Generale por causa de negociações manipuladas por Jerome Kerviel. A IA agora é o novo potencial “operador desonesto” que necessita ser governado apropriadamente, gerenciado e apoiado.
Quarto, o real time and ubiquitous context precisa ser visto como um desafio de dados tanto quanto um desafio colaborativo e tecnológico. Estamos entrando num mundo onde cada objeto, processo e conversação pode ser etiquetado, legendado, ou aumentado com contexto adicional, e gigabytes de dados têm de ser processados em tempo real para produzir um simples alerta de duas palavras que pode ser tão simples quanto “vai devagar” ou “compre agora.” Estamos vendo o conceito dos “gêmeos digitais” sendo criado no mundo industrial para objetos pela PTC, GE, e por outras companhias e fábricas bem como Gong, Tact e Voicera que gravam digitalmente, analisam e aumentam conversas analógicas com contexto adicional.

 

Conclusão

Bom, a Era do Big Data chega ao fim. Mas no processo, Big Data por si só tem se tornado um aspecto estrutural da TI e trouxe o início de um novo conjunto de Eras, cada uma com seu futuro brilhante. Companhias que investiram em Big Data devem ver esses investimentos como uma importante fundação para seu futuro engajamento em tempo real, aumentado e interativo. Conforme essa Era vai chegando ao fim, agora estamos prontos para usar o Big Data, na sua totalidade, como um ativo comercial, sem exagero, para dar suporte a um contexto baseado em trabalho, machine learning, e interação em tempo real.

 

Sobre o artigo

Este artigo é uma tradução livre do original The Death of Big Data and the Emergence of the Multi-Cloud Era.
Autor: Hyoun Park é o CEO e fundador da Amalgam Insights, uma firma focada em tecnologia, análise e ferramentas financeiras necessárias para dar suporte a modelos emergentes de negócios. Por mais de 20 anos, Park tem estado na vanguarda de tendências como Moneyball, redes sociais, Bring Your Own Device, The Subscription Economy, e vídeos como forma dominante de uso da internet de banda larga. Park já foi mencionado no USA Today, no Los Angeles Times, e em uma grande variedade de fontes importantes de imprensa sobre tecnologia.
Photo by SpaceX on Unsplash

Leave a Reply