Big Data Week Brasil

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
27
Jun

Projetos de Big Data de código aberto que irão revolucionar seus negócios

Vinte anos atrás, o framework Open Source foi publicado, entregando o que seria a tendência mais significativa no desenvolvimento de software desde aquela época. Você pode chamar de “software livre” ou “código aberto”. Em última análise, tudo se resume a disponibilizar amplamente códigos-fonte do aplicativo e do sistema e colocar o software sob uma licença que favoreça a autonomia do usuário.

De acordo com a Ovum, o código aberto já é a opção padrão em várias categorias de Big Data, desde armazenamento, análise e aplicativos até aprendizado de máquina.

Na mais recente pesquisa da Black Duck Software e da North Bridge, 90% dos entrevistados relataram que confiam no código aberto “para maior eficiência, inovação e interoperabilidade”, mais comumente por causa da “liberdade do aprisionamento do fornecedor; características competitivas e capacidades técnicas; capacidade de personalizar; e qualidade geral.”

Agora existem milhares de projetos de código aberto de sucesso que as empresas precisam escolher estrategicamente para se manterem competitivas.

Embora todas as empresas devam desenvolver sua própria estratégia e escolher os projetos de código aberto que sintam que irão impulsionar os resultados de negócios desejados, há alguns projetos que consideramos merecedores de forte consideração.

Como o código aberto pode ser o seu caminho para a agilidade nos negócios?

A seguir estão alguns dos projetos de código aberto de Big Data que têm o maior potencial para permitir que as empresas tenham extrema agilidade e respostas rápidas aos clientes, às necessidades de negócios e aos desafios do mercado.

  • O Apache Beam é um projeto que recebeu o nome a partir da combinação dos termos batch e streaming porque é um modelo único para ambos os casos. No modelo Beam, você só precisa criar um pipeline de dados uma vez e escolher entre várias estruturas de processamento posteriormente. Seu pipeline de dados é portátil e flexível para que você possa escolher fazer em batch ou streaming. Dessa forma, sua equipe pode se beneficiar de uma agilidade e flexibilidade muito maiores para reutilizar pipelines de dados e escolher o mecanismo de processamento correto para vários casos de uso.
  • O Apache Airflow é ideal para agendamento automatizado e inteligente de pipelines Beam e para otimizar processos e organizar projetos. Entre outros recursos benéficos, os pipelines são configurados por meio de código tornando-os dinâmicos e as métricas exibem gráficos para as instâncias do DAG e da Tarefa. Se, e quando houver uma falha, o Airflow tem a capacidade de executar novamente uma instância do DAG.
  • O Apache Cassandra é um banco de dados multi-mestre escalável e ágil que permite substituições de nó com falha e a replicação automática de dados em vários nós. É um banco de dados NoSQL com alta disponibilidade e escalabilidade. Ele difere do RDBMS tradicionais e de alguns outros bancos de dados NoSQL, na medida em que é projetado sem estrutura mestre-escravo, todos os nós são pares e tolerantes a falhas. Isso torna extremamente fácil a expansão para mais poder de computação sem qualquer tempo de inatividade.
  • O Apache Carbon Data é um formato de dados colunar indexado para análises incrivelmente rápidas em plataformas de Big Data, como o Hadoop e Spark. Esse novo tipo de formato de arquivo resolve o problema de consultar a análise para diferentes casos de uso. Com o Apache Carbon, o formato de dados é unificado para que você possa acessar por meio de uma única cópia de dados e usar apenas a capacidade de computação necessária, fazendo com que suas consultas sejam executadas muito mais rapidamente.
  • O Apache Spark é um dos projetos Apache mais utilizados e uma escolha popular para processamento de Big Data incrivelmente rápido (computação em cluster) com recursos integrados para streaming de dados em tempo real, SQL, aprendizado de máquina e processamento de gráficos. O Spark é otimizado para rodar na memória e permite análise de fluxo interativo para que você possa analisar grandes quantidades de dados históricos com dados ao vivo para tomar decisões em tempo real, como detecção de fraude, análise predicativa, análise de sentimentos e a próxima melhor oferta.
  • O TensorFlow é uma biblioteca de código aberto extremamente popular para machine learning que permite análises mais avançadas em escala. O TensorFlow foi projetado para treinamento e inferência distribuídos em grande escala, mas também é flexível o suficiente para suportar a experimentação com novos modelos de aprendizado de máquina e otimizações no nível do sistema. É muito legível, bem documentado e deve continuar crescendo em uma comunidade mais vibrante.
  • O Docker e o Kubernetes são tecnologias de contêiner e de gerenciamento automatizado de contêineres que aceleram a implementação de aplicativos. O uso de tecnologias como contêineres torna sua arquitetura extremamente flexível e mais portátil. Seu processo de DevOps se beneficiará de maior eficiência na implantação contínua.

Tão impressionantes quanto cada um desses projetos abertos são individualmente, são os avanços coletivos que melhor ilustram o enorme impacto que a comunidade de código aberto teve nas empresas e a mudança monumental de software legado e proprietário para sistemas baseados em código aberto – permitindo às empresas de todos os tamanhos, em todos os setores para aumentar a velocidade, a agilidade e os insights orientados por dados em todos os níveis ou em suas organizações.

Como as empresas podem se preparar para as mudanças do OSS à frente

Embora as mudanças que já ocorreram sejam de tirar o fôlego, este não é o fim da história para essas e outras forças de modelagem de mercado. Existem várias maneiras de ajudar as empresas a alavancar a mudança radical que já ocorreu e se adaptar às inovações que ainda estão por vir do mashup de código aberto, nuvem e Big Data.

  • Torne-se um campeão de código aberto no seu negócio. Junte-se às comunidades de código aberto em relação aos seus projetos e interesses. Eduque-se, sua equipe e gerenciamento sobre seus benefícios. Determine o que você pode aproveitar ao invés de “reinventar a roda”.
  • Contribuir para projetos de código aberto. Existem muitas empresas que usam código aberto hoje, mas infelizmente muitas delas não contribuem. Contribuindo para o projeto, outros podem se beneficiar do seu trabalho, mas sua empresa também se beneficia do seu trabalho. Isso significa mais feedback e mais recursos novos.
  • Torne-se um influenciador em projetos de código aberto chave para sua empresa. Ao contribuir para a comunidade de sistemas operacionais, as empresas desenvolvem influência na comunidade de código aberto em projetos importantes para o progresso de sua empresa. Essa influência ajuda você a direcionar as mudanças para o projeto, o que será um benefício especial para os projetos da sua empresa.
  • Mude a cultura de negócios para código aberto. A cultura open source é aberta, inovadora e colaborativa. Abraçar a transparência permite que a equipe aceite os diferentes feedbacks com graça, tenha a mente aberta e aceite a mudança.

Mudança sempre foi a única constante na existência humana e nos negócios. Mas a mudança está acontecendo mais rápido agora do que em qualquer outro momento da história. Mantendo a mente aberta, em sintonia com o código aberto e ciente das muitas maneiras de usar dados e análises, você estará bem preparado para o que aparecer no futuro.

 

Traduzido de https://www.enterpriseinnovation.net/article/open-source-big-data-projects-will-revolutionize-your-business-1983552059/page/0/1

Leave a Reply