Big Data Week Brasil

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
9
Jul

OS PSICÓLOGOS QUEREM O TESOURO DA MÍDIA SOCIAL COM BIG SOCIAL

descobrir como os seres humanos fazem as coisas humanas é uma das atividades mais empolgantes que a ciência – psicologia, sociologia, economia, antropologia – pode fazer. É também um dos mais difíceis. Métodos confiáveis ​​e significativos que destilam o comportamento do mundo real em variáveis ​​experimentais foram, digamos, indescritíveis. Isso pode ser parte da razão pela qual a “crise de reprodutibilidade”, a preocupação com a validade de algumas descobertas científicas por causa de tensões estatísticas e metodológicas, atingiu primeiro as chamadas ciências leves e as mais difíceis.

Matt Salganik, um sociólogo de Princeton, está tentando resolver esse problema difícil. Ele quer saber como os seres humanos se comportam e por quê, especialmente em um mundo socialmente mediado. Para fazer isso, Salganik se tornou um nerd de dados hardcore. Os rastros digitais que todos agora deixam nos servidores fornecem um combustível inesgotável para a ciência do comportamento humano, diz ele, e aprender a usá-los sabiamente também pode consertar as várias crises que a ciência agora vê em suas próprias práticas. O novo livro de Salganik “Bit a Bit: Pesquisa Social na Era Digital”, lançado em 13 de dezembro, estabelece as novas (e não tão novas) regras para juntar ciência de dados e as ciências sociais.

 

WIRED: O livro tem uma espécie de história de origem interessante.

 

Salganik: Minha pesquisa de dissertação foi um experimento on-line. Criamos um site onde as pessoas podiam fazer o download de novas músicas, mas podíamos controlar as informações que as pessoas tinham sobre o que outras pessoas estavam fazendo. Isso nos permitiu criar e testar modismos sociais. Ao fazer isso em um site, em vez de em um laboratório tradicional no campus, conseguimos ter cerca de 100 vezes o número de participantes que você normalmente teria. Nós temos 27.000 pessoas.

 

O artigo foi publicado em novembro de 2006 e, desde então, venho fazendo pesquisas usando técnicas da era digital e ensinando aos alunos. Este livro é o resultado dessa experiência. Eu queria ajudar os pesquisadores a começarem a fazer esse tipo de pesquisa e ajudar os demais que já estão fazendo isso em um campo para ver as conexões com outros campos.

 

Quando o livro foi para revisão por pares tradicional, também foi on-line para uma revisão aberta paralela. Eu converti o livro em uma série de sites, e qualquer pessoa poderia vir e lê-los e anotá-los. Consegui coletar uma quantidade enorme de feedback que ajudou com o livro e consegui coletar muitos dados sobre como as pessoas interagiam com o livro na natureza. Todas as técnicas de big data que as grandes empresas de mídia e tecnologia usam, também as usamos. E agora lançamos um kit de ferramentas de revisão aberta que outros autores podem usar.

 

O feedback que você obteve através da revisão aberta foi muito diferente da revisão por pares mais formal?

 

O feedback que recebi da revisão por pares foi de especialistas que frequentemente tinham ideias sobre como achavam que o livro deveria ter sido escrito.

Hah!

Não, alguns deles eram boas ideias. Foi útil. O feedback que recebi da revisão aberta foi diferente. Incluiu não especialistas e quero que meu livro seja legível e útil para não especialistas. Então isso foi muito útil para diagnosticar alguns dos problemas na escrita. Havia uma anotação sobre eu pular um passo em uma discussão, e eu olhei para ela e pensei: ‘Ah sim, eu pulei um passo.’ Para os revisores e para mim foi um passo óbvio, mas para os não especialistas, não foi.

 

Quem você acha que será capaz de usar o livro? Quem é o público?

 

Espero que o público seja amplo. As pessoas nas ciências sociais estão enfrentando esse conjunto de questões. E depois, fora das universidades, muitas empresas têm cientistas de dados treinados em ciência da computação, engenharia e estatística, que agora trabalham com dados sociais. Eles são essencialmente cientistas sociais, mas eles não têm nenhum treinamento de cientistas sociais. Para essas pessoas, espero que o livro as introduza a algumas das ideias da ciência social e às maneiras pelas quais os cientistas sociais realizam seu trabalho. Eu fiz um ano sabático na Microsoft Research e havia alguns engenheiros muito sofisticados que simplesmente não sabiam muito sobre ciências sociais.

 

Em alguns lugares, você faz alguns pontos sobre as diferenças entre cientistas de dados e cientistas sociais. Onde essas culturas divergem?

 

Eu vejo essas comunidades como tendo muito a aprender umas com as outras e contribuem umas com as outras. Os cientistas sociais no passado geralmente trabalham com dados que foram especificamente criados para fins de pesquisa. No livro eu chamo isso de “dados feitos sob medida”. E os cientistas de dados tendem a trabalhar com “dados prontos”, feitos originalmente para um propósito e reaproveitados para pesquisa. Assim, por exemplo, se os cientistas sociais quisessem estudar a opinião pública, seu primeiro pensamento natural seria examinar uma pesquisa como a Pesquisa Social Geral, feita por pesquisadores de outros locais. A primeira parada de um cientista de dados pode ser o Twitter.

 

Algumas dessas diferenças vêm do que são valorizadas nessas diferentes comunidades. Para os cientistas sociais, muitas vezes é possível fazer uma declaração empírica sobre alguma teoria maior. Para os cientistas de dados, muitas vezes é mais para fazer algo limpo ou interessante ou novo com dados. Esses tipos de diferenças de valores podem levar a diferentes abordagens.

Também existem diferenças no treinamento. Os cientistas sociais são treinados em como os dados da pesquisa são coletados e como analisá-los; os cientistas de dados geralmente não têm esse treinamento, mas eles têm treinamento em outras coisas, como trabalhar com conjuntos de dados muito grandes. Assim, a ciência social pode aprender muito com as técnicas e os pontos de vista dos cientistas de dados, e da mesma forma os cientistas de dados podem aprender muito com os cientistas sociais. Se você quer estudar a opinião pública, não faz sentido dizer que a pesquisa social geral é melhor que o Twitter. Você precisa perguntar qual fonte de dados é mais útil para a pergunta que temos.

 

Um capítulo que particularmente me pegou teve a ver com ética. Você escreve que os cientistas sociais geralmente só pensam em ética quando têm que lidar com a burocracia aparentemente intratável das regras de um Conselho de Revisão Institucional para como tratam os sujeitos vivos, e que os cientistas de dados basicamente não pensam em ética.

 

Minha declaração foi definitivamente uma espécie de conselho e abrangente, mas é uma declaração do que o mundo é e não do que deveria ser. Entre os pesquisadores com quem falo, ninguém quer ser antiético, mas a ética de muitas pesquisas de ciências sociais da era analógica – experimentos de laboratório no campus, pesquisas, etnografia – foi mais ou menos resolvida. Geralmente há acordo sobre o que você pode e não pode fazer. A maneira como os cientistas sociais abordaram a ética antes de muitas pesquisas de big data se tornou, eu diria, um pouco rotineira.

 

E agora existe a possibilidade de fazermos coisas muito diferentes. Nossa capacidade de observar milhões de pessoas sem o consentimento ou a conscientização, e nossa capacidade de inscrever pessoas em experimentos sem consentimento ou consciência, essas são coisas novas que podemos fazer, e eu não acho que nós, como acadêmicos, descobrimos como usar esse poder com responsabilidade. Questões semelhantes surgiram na indústria e no governo. Um grande desafio para nós na era digital é descobrir como aproveitar essas oportunidades de uma maneira responsável. No livro, tento descrever alguns princípios que podemos seguir para ajudar as pessoas a pensar e falar sobre isso.

 

Esses são: respeito pelas pessoas, beneficência, justiça e respeito pela lei e pelo interesse público.

 

Sim, e essas ideias não são as que eu criei. A única razão pela qual estou confiante de que eles provavelmente serão úteis no futuro é que eles têm resistido. O Relatório Belmont, do qual tirei alguns desses princípios, foi publicado há mais de 40 anos. Uma das razões para seguir uma abordagem baseada em princípios do que uma abordagem baseada em regras é que podemos ter certeza de que as habilidades que vamos ter vão mudar. Para raciocinar sobre esses novos recursos, precisamos ter princípios um tanto abstratos.

 

A maioria dos pesquisadores que trabalham com as pessoas falam sobre o consentimento informado, certificando-se de que as pessoas com quem você está trabalhando saibam para o que estão se inscrevendo.

 

Essa é uma parte fundamental dos quatro princípios que expus. Esses são mais amplos do que apenas consentimento. Neste momento, há uma enorme ênfase no consentimento informado, e é obviamente importante, mas poderíamos estar colocando muita ênfase em algo específico e não na ideia mais ampla de respeito pelas pessoas, que é o princípio do qual o consentimento informado é derivado.

 

É interessante que você esteja sugerindo uma abordagem baseada em dados para os cientistas sociais no exato momento em que as ciências sociais estão lidando com uma crise de dados – problemas de reprodutibilidade e manipulações estatísticas que questionam algumas das principais descobertas do campo.

 

Eu diria que a transição da era analógica para a era digital, que é o que impulsiona muitas dessas novas fontes de dados, também está permitindo que os cientistas sociais tenham novas práticas de trabalho. Isso torna mais fácil para nós compartilhar nossos dados e códigos, e torna mais fácil para nós fornecer acesso à nossa pesquisa para todos, não apenas para pessoas que têm a sorte de estar em universidades com assinaturas de periódicos caros. A era digital tem a possibilidade de nos ajudar a mudar e melhorar nossas práticas científicas de maneiras que eu acho que as pessoas estão empolgadas e começando a abraçar.

 

O que, especificamente, mudou nessa transição para a era digital?

 

Quando comecei a pós-graduação, os tipos de dados com os quais os pesquisadores trabalhavam eram geralmente dados criados para pesquisadores por pesquisadores. Isso tinha algumas coisas boas sobre isso, porque os dados geralmente eram relacionados a tópicos de interesse científico. Geralmente estava disponível para todos os outros pesquisadores, o que é importante.

 

Agora há muitos dados sendo gerados como um subproduto das ações cotidianas. Isso é “dados de rastreamento digital” ou “escape digital”. Geralmente, é em uma escala muito maior, o que cria muitas oportunidades interessantes de pesquisa, mas também apresenta alguns problemas. Os dados geralmente têm os objetivos da empresa ou do governo. Isso é chamado de “confusão algorítmica”.

 

O que isso significa?

 

Aprender sobre o comportamento humano a partir de dados do Facebook é como aprender sobre o comportamento humano observando pessoas em um cassino. Você pode definitivamente aprender assistindo pessoas em um cassino, mas um cassino é um ambiente altamente projetado para encorajar algum comportamento e desencorajar outros comportamentos. Facebook é semelhante. Quando as pessoas olham para o Facebook, pensam: “Oh, esse é o comportamento natural das pessoas”. E isso não é verdade. Os objetivos do criador do sistema não são os objetivos do pesquisador em muitos casos.

 

E depois há acesso. O Facebook e o Twitter têm enormes quantidades de dados que não estão disponíveis para todos os pesquisadores, e há boas razões para isso – complicadas razões éticas, legais e comerciais. Mas se há uma situação em que alguns pesquisadores têm acesso e outros não, isso pode criar preocupações sobre a reprodutibilidade, o papel que algumas empresas desempenham em permitir que certos projetos avancem e outros não, e o papel que poderiam desempenhar no incentivo a certos tipos de resultados.

 

O desafio para todos nós é descobrir como esses dados que podem ser benéficos para os cientistas e para a sociedade em geral podem ser disponibilizados de maneira segura para as pessoas que fornecem os dados e seguras para as empresas.

 

Mas essa ciência vai muito além das mídias sociais.

 

Meus filhos, que são 8 e 4, estão crescendo conversando com Alexa. Eles vão interagir com o mundo de uma maneira diferente da que eu fiz. Esse tipo de impacto psicológico vai demorar um pouco para que possamos observar e entender, mas já estamos começando a ver grandes mudanças na indústria e nas relações sociais.

 

Há muitas oportunidades em geral em qualquer tipo de registro de transação. Facebook e Twitter, muito disso são dados que as pessoas estão criando intencionalmente, mas há uma grande possibilidade em dados mais implicitamente criados. Por exemplo, os dados de localização criados pelo meu celular. Bitcoin é outro bom exemplo disso. No processo de transações econômicas, esse ledger é criado. Eu tenho um colega fazendo ferramentas para os pesquisadores entenderem o que está acontecendo no ledger do Bitcoin.

 

Está ficando mais fácil para muitas pessoas interagirem entre si, seja através da plataforma de uma empresa ou através de sistemas peer-to-peer distribuídos. E, na medida em que todas essas interações são mediadas digitalmente, elas criam registros. Esses registros são realmente excitantes para os pesquisadores.

 

Traduzido de: https://www.wired.com/story/the-traces-of-your-digital-life-could-upend-social-science/

Leave a Reply