Big Data Week Brasil

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
24
Sep

Ciência de dados e Big Data explicados para o cientista sem dados

De Alex Castrounis

Introdução

O que é ciência de dados? O que é big data? O que esses termos significam e por que é importante descobrir? Estes são tópicos quentes de fato, mas muitas vezes são mal compreendidos. Além disso, as indústrias envolvidas não concordaram universalmente com definições para ambos.

Esses são campos e conceitos extremamente importantes que estão se tornando cada vez mais críticos. O mundo nunca coletou ou armazenou tantos dados, e tão rápido quanto hoje. Além disso, a variedade e o volume de dados estão crescendo a um ritmo alarmante.

Por que você deveria se preocupar com ciência de dados e big data? Os dados são análogos ao ouro de várias maneiras. É extraordinariamente valioso e tem muitos usos, mas muitas vezes você tem que se aproveitar disso para perceber seu valor.

São esses novos campos? Há muitos debates sobre se a ciência de dados é um novo campo. Muitos argumentam que práticas semelhantes foram usadas e classificadas como estatísticas, análises, business intelligence e assim por diante. Em ambos os casos, a ciência de dados é um termo muito popular e proeminente usado para descrever muitos processos e técnicas diferentes relacionados a dados que serão discutidos aqui. Big data, por outro lado, é relativamente novo no sentido de que a quantidade de dados coletados e os desafios associados continuam a exigir hardware e técnicas novas e inovadoras para lidar com isso.

Este artigo destina-se a dar ao cientista não relacionado a dados uma visão geral sólida dos muitos conceitos e termos por trás da ciência de dados e do big data. Embora os termos relacionados sejam mencionados em um nível muito alto, o leitor é encorajado a explorar as referências e outros recursos para detalhes adicionais. Outro artigo que virá em seguida vai explorar tecnologias, algoritmos e metodologias relacionadas com muito mais detalhes.

Com isso, vamos começar!

Ciência de dados definida

A ciência de dados é complexa e envolve muitos domínios e habilidades específicas, mas a definição geral é que a ciência de dados abrange todas as maneiras pelas quais a informação e o conhecimento são extraídos dos dados.

Os dados estão em toda parte e são encontrados em quantidades enormes e exponencialmente crescentes. A ciência de dados como um todo reflete as maneiras pelas quais os dados são descobertos, extraídos, condicionados, analisados, interpretados, modelados, visualizados, relatados e apresentados, independentemente do tamanho dos dados sendo processados. Big data (como definido em breve) é uma aplicação especial da ciência de dados.

A ciência de dados é um campo muito complexo, que se deve em grande parte à diversidade e ao número de disciplinas e tecnologias acadêmicas que ele utiliza. A ciência de dados incorpora conhecimento de domínio de negócios, comunicação eficaz, ciência da computação e utilização de toda e qualquer técnica analítica e estatística relevante, visualização de dados, linguagens e pacotes de programação, infraestrutura de dados e assim por diante.

A ciência de dados é altamente aplicável a muitos campos, incluindo mídias sociais, medicina, segurança, saúde, ciências sociais, ciências biológicas, engenharia, defesa, negócios, economia, finanças, marketing, geolocalização e muito mais.

Big Data Definido

O Big Data é essencialmente uma aplicação especial da ciência de dados, na qual os conjuntos de dados são enormes e exigem a superação de desafios logísticos para lidar com eles. A principal preocupação é capturar, armazenar, extrair, processar e analisar com eficiência informações desses enormes conjuntos de dados.

O processamento e a análise desses enormes conjuntos de dados geralmente não são viáveis ​​ou viáveis ​​devido a restrições físicas e / ou computacionais. Técnicas e ferramentas especiais (por exemplo, software, algoritmos, programação paralela, etc.) são, portanto, necessárias.

Big Data é o termo usado para englobar esses grandes conjuntos de dados, técnicas especializadas e ferramentas customizadas. Geralmente, ela é aplicada a grandes conjuntos de dados para realizar análises gerais de dados e encontrar tendências, ou para criar modelos preditivos.

Você pode estar se perguntando por que o termo Big Data se tornou tão chamativo. Nós coletamos muitos dados de vários tipos em uma grande variedade de mecanismos de armazenamento de dados por um longo tempo, certo? Sim, nós temos, mas nunca antes desfrutamos de uma coleta de dados tão barata, capacidade de armazenamento e poder computacional como fazemos hoje. Além disso, anteriormente não tínhamos acesso fácil a tecnologias de sensoriamento de dados brutos e baratos, instrumentação e assim por diante, que levaram à geração dos enormes conjuntos de dados atuais.

Então, de onde exatamente esses dados vêm? Grandes quantidades de dados são coletadas de dispositivos móveis, sensoriamento remoto, geolocalização, aplicativos, dispositivos de multimídia, leitores de identificação por radiofrequência, redes de sensores sem fio e assim por diante.

Um componente primário do big data é o chamado modelo Three Vs (3Vs). Esse modelo representa as características e os desafios do big data quanto a volume, variedade e velocidade. Empresas como a IBM incluem um quarto “V”, a veracidade, enquanto a Wikipedia também observa a variabilidade.

O Big Data visa essencialmente resolver o problema de lidar com enormes quantidades de dados de qualidade variável, muitas vezes de muitos tipos diferentes, que estão sendo capturados e processados ​​às vezes em tremendas velocidades (em tempo real). Não é tarefa fácil para dizer o mínimo!

Portanto, em resumo, Big Data pode ser considerado um termo relativo que se aplica a grandes conjuntos de dados que exigem que uma entidade (pessoa, empresa, etc.) aproveite hardware especializado, software, técnicas de processamento, visualização e tecnologias de banco de dados para resolver os problemas associados aos 3Vs e modelos característicos similares.

Tipos de dados e conjuntos de dados

Os dados são coletados de muitas maneiras diferentes, como mencionado anteriormente. O ciclo de vida dos dados utilizáveis ​​geralmente envolve captura, pré-processamento, armazenamento, recuperação, pós-processamento, análise, visualização e assim por diante.

Uma vez capturados, os dados são geralmente chamados de estruturados, semi-estruturados ou não estruturados. Essas distinções são importantes porque estão diretamente relacionadas ao tipo de tecnologias de banco de dados e armazenamento necessário, ao software e métodos pelos quais os dados são consultados e processados ​​e à complexidade de lidar com os dados.

Dados estruturados referem-se a dados que são armazenados como um modelo (ou são definidos por uma estrutura ou esquema) em um banco de dados relacional ou planilha. Muitas vezes é facilmente consultável usando SQL (linguagem de consulta estruturada) desde que a “estrutura” dos dados seja conhecida. Um registro de pedido de venda é um bom exemplo. Cada pedido de venda tem uma data de compra, itens comprados, comprador, custo total, etc.

Dados não estruturados são dados que não são definidos por nenhum esquema, modelo ou estrutura e não são organizados de uma maneira específica. Em outras palavras, são apenas dados brutos armazenados. Pense em um sismógrafo (terremotos são um grande medo meu, a propósito!). Você provavelmente já viu as linhas rabiscadas capturadas por tal dispositivo, que essencialmente representam dados de energia como registrados em cada local do sismógrafo. O sinal gravado (isto é, dados) representa uma quantidade variável de energia ao longo do tempo. Não há estrutura neste caso, são apenas variações de energia representadas pelo sinal.

Segue-se naturalmente que os dados semi-estruturados são uma combinação dos dois. São basicamente dados não estruturados que também possuem dados estruturados (também conhecidos como metadados) anexados a ele. Toda vez que você usa seu smartphone para tirar uma foto, o obturador captura informações de reflexão de luz como um monte de dados binários (ou seja, uns e zeros). Esses dados não têm estrutura, mas a câmera também acrescenta dados adicionais que incluem a data e a hora em que a foto foi tirada, a última vez em que foi modificada, o tamanho da imagem etc. Essa é a parte estruturada. Formatos de dados como XML e JSON também são considerados dados semi-estruturados.

Mineração, descrição, modelagem e visualização de dados

Para que os dados sejam usados ​​de maneira significativa, eles são inicialmente capturados, pré-processados ​​e armazenados. Após esse processo, os dados podem ser extraídos, processados, descritos, analisados ​​e usados ​​para construir modelos descritivos e preditivos.

Estatísticas descritivas é um termo usado para descrever a aplicação de estatísticas em um conjunto de dados para descrever e resumir as informações que os dados contêm. Basicamente, ele inclui a descrição de dados no contexto de uma distribuição que tem média, mediana, modo, variância, desvio padrão e assim por diante. Estatísticas descritivas descrevem outras formas de análise e visualização também.

Estatísticas inferenciais e modelagem de dados, por outro lado, são ferramentas muito poderosas que podem ser usadas para obter uma compreensão profunda dos dados, bem como extrapolar (ou seja, prever) o significado e os resultados para condições fora daquelas que os dados foram coletados. Usando certas técnicas, os modelos podem ser criados e as decisões podem ser feitas dinamicamente com base nos dados envolvidos.

Além de estatísticas descritivas e estatística inferência, outro campo chamado de estatística computacional (um subconjunto da ciência computacional) pode muitas vezes desempenhar um grande papel na ciência de dados e aplicações de big data. A estatística computacional envolve o aproveitamento da ciência da computação, estatísticas e algoritmos para que os computadores implementem métodos estatísticos. Muitos desses métodos são utilizados intensamente em campos chamados análise preditiva ou modelagem preditiva. O aprendizado de máquina pode ser considerado uma aplicação de certos algoritmos no contexto da modelagem preditiva.

Frequentemente, os dados também são extraídos para serem analisados ​​visualmente. Muitas pessoas conseguem entender os dados de maneira mais rápida, profunda e natural, por meio do uso estratégico de gráficos, diagramas e tabelas apropriados. Esses métodos de exibição de informações podem ser usados ​​para mostrar dados categóricos e quantitativos. A aplicação desses tipos de exibição para representar dados é conhecida como visualização de dados.

Estas técnicas, metodologias, estatísticas e tópicos de visualização serão cobertos em maior extensão nos próximos artigos.

Gestão de Dados e Ferramentas do Comércio

Existem muitas tecnologias de software e banco de dados necessárias para a ciência de dados e o gerenciamento de big data. Muitos bancos de dados são projetados para aderir aos princípios do ACID, que significa Atomicidade, Consistência, Isolamento, Durabilidade.

 

Vamos começar discutindo tecnologias de banco de dados. Sistemas de gerenciamento de banco de dados (DBMS) e seus equivalentes relacionais (RDBMS) foram os sistemas de banco de dados mais utilizados por um longo tempo desde a década de 1980. Eles geralmente são muito bons para operações baseadas em transações e aderem aos princípios do ACID em geral.

A desvantagem dos sistemas relacionais é que esses bancos de dados são relativamente estáticos e tendenciosos em relação a dados estruturados, representam dados de maneiras não intuitivas e não naturais e incorrem em sobrecarga de processamento significativa e, portanto, têm menor desempenho. Outra desvantagem é que os dados armazenados baseados em tabela geralmente não representam muito bem os dados reais (isto é, objetos de domínio / negócios). Isso é conhecido como incompatibilidade de impedância objeto-relacional e, portanto, requer um mapeamento entre os dados baseados em tabela e os objetos reais do domínio do problema. Os sistemas de gerenciamento de banco de dados, conforme descrito, incluem Microsoft SQL Server, Oracle, MySql e assim por diante.

As tecnologias de banco de dados NoSql se tornaram muito modernas nos dias de hoje e por boas razões. NoSql é um termo usado para descrever sistemas de banco de dados não relacionais, altamente escaláveis, que permitem esquemas dinâmicos e manipulam grandes volumes de acesso a dados com alta frequência. Eles também representam dados de uma maneira mais natural, podem lidar facilmente com os três tipos de dados mencionados anteriormente e são muito eficientes.

Os bancos de dados NoSql são, portanto, amplamente utilizados para transações de alta escala. Os sistemas de banco de dados NoSql incluem MongoDB, Redis, Cassandra e CouchDb, para citar alguns. Observe que há vários tipos de bancos de dados NoSql, que incluem documento, gráfico, valor-chave e coluna larga.

O NewSQL é um tipo relativamente novo de sistema de gerenciamento de banco de dados. Esses sistemas tentam combinar as melhores características (por exemplo, ACID) e consultar a linguagem (ou seja, SQL) dos sistemas de gerenciamento de bancos de dados relacionais com o desempenho altamente escalável dos bancos de dados NoSQL. O júri ainda está no NewSQL para saber se vai conseguir popularidade suficiente para ganhar adoção e tração, como os bancos de dados relacionais e NoSQL.

Profissionais de Big Data viram a criação e a proliferação de tecnologias específicas necessárias para armazenamento de dados em grande escala, capacidade de processamento e análise de enormes quantidades de dados. Os sistemas mais populares incluem o Apache Hadoop, o Cloudera, o Hortonworks e o MapR. Há muitos outros tentando competir neste espaço também.

Para processamento e visualização de dados baseados em estatística e algoritmos, R, Python e Matlab são algumas escolhas populares.

Resumo

Nunca antes coletamos tantos dados variáveis ​​como fazemos hoje, nem precisamos lidar com isso tão rapidamente. A variedade e quantidade de dados que coletamos através de muitos mecanismos diferentes está crescendo exponencialmente. Esse crescimento requer novas estratégias e técnicas pelas quais os dados são capturados, armazenados, processados, analisados ​​e visualizados.

A ciência de dados é um termo abrangente que abrange todas as técnicas e ferramentas usadas durante o ciclo de vida de dados úteis para aproveitar fontes de dados existentes e criar novas fontes conforme necessário para extrair informações significativas e insights úteis. O big data, por outro lado, normalmente refere-se a conjuntos de dados extremamente grandes que exigem tecnologias e técnicas especializadas e muitas vezes inovadoras para “usar” com eficiência os dados.

Ambos os campos vão aumentar e se tornar muito mais importantes com o tempo. A demanda por profissionais qualificados em ambos os campos está crescendo a um ritmo acelerado, e eles estão se tornando alguns dos campos mais quentes e mais lucrativos para se trabalhar.

Espero que este artigo forneça uma explicação relativamente simples dos principais conceitos envolvidos com ciência de dados e big data. Armado com esse conhecimento, você deve estar mais apto a entender o que as últimas manchetes do setor significam, ou pelo menos não se sentir completamente fora do circuito em uma discussão sobre um dos tópicos.

Traduzido de: https://www.innoarchitech.com/data-science-big-data-explained-non-data-scientist

Leave a Reply