Big Data Week São Paulo

Um ótimo blog sobre Big Data Analytics com artigos, ebooks e vídeos abordando as aplicações de Big Data Analytics no Brasil e no mundo.
21
Apr

IA contra o COVID-19: a corrida para resolver barreiras em Big Data nos diagnósticos

Pesquisadores de todo o mundo uniram rapidamente combinações de redes neurais que se mostram uma verdadeira promessa no diagnóstico da COVID-19 por meio de raios X de tórax e tomografias computadorizadas. Porém a falta de dados está impedindo o avanço de muitas iniciativas. Um tipo de compartilhamento global de dados pode ser a resposta.

 

A chest X-ray, analyzed by Qure.ai’s software, picks up on abnormalities that suggest the likelihood of COVID-19 infection. X-rays are one of the quickest, simplest ways to diagnose the disease, and an army of AI specialists around the world are trying to speed up how the images are used to find cases. Most cite the lack of data as the prime obstacle to broader adoption of AI.
Qure.ai

Em um esforço frenético para coordenar o trabalho de salvar vidas ao redor de todo o mundo durante a pandemia da COVID-19, a era digital se encontra prejudicada em um tema bem específico: informação. Equipes de pesquisadores de inteligência artificial estão tentando usar décadas de avanços tecnológicos para ajudar no desafio de diagnosticar e tratar da doença, mas as informações de que necessitam para desenvolver seus softwares está pulverizada ao redor do globo, tornando-a praticamente inacessível.
A dramática falta de dados é evidente para a IA, em especial no desenvolvimento de testes de que diagnosticam a COVID-19 usando raios X ou tomografias computadorizadas dos pulmões.
Os testes definitivos para a doença são testes genéticos, chamados “RT-PCR,” e eles têm sido notoriamente escassos em muitas partes do mundo, inclusive nos Estados Unidos. Uma alternativa são os raios X e TCs. Raios X em particular estão amplamente disponíveis no mundo todo, e os resultados vêm muito mais rápido do que com o RT-PCR. Há uma concordância geral de que as TCs são mais sensíveis do que o RT-PCR, o que seria uma potencial vantagem para elas.
A análise de raios X e de TCs leva tempo, e muitos estudiosos de vários países uniram esforços em sistemas de deep learning que possam avaliar onde estão as anomalias nos exames. A ideia é aliviar o fardo sobre os radiologistas, que foram subitamente inundados por enxurradas de pacientes de COVID-19. Triar os exames como primeiro passo pode permitir uma análise preliminar, e pode colocar os casos prioritários na frente para que os radiologistas avaliem.

Milagre da IA?

Circulam artigos descrevendo um sucesso incrível, em particular na China, de vários projetos de diagnóstico por IA, incluindo o fabricante de software chinês Infervision, a divisão de saúde da empresa de seguros chinesa Ping Na, o gigante de pesquisas Alibaba, e as startups de tecnologia chinesas Deepwise Technology e Iflytek. Relatos da mídia fazem parecer que a IA é uma tecnologia milagrosa que pode simplesmente entrar em cena e começar a fazer diagnósticos.
A realidade é menos excitante. Apesar de algum sucesso, numeras iniciativas enfrentam desafios, sendo o acesso aos dados a maior barreira. Especialmente com uma nova doença como a COVID-19, que difere de outras infecções pulmonares, a presença de características distintivas não é sempre conclusiva. As análises precisam ser adaptadas para a nova condição.
“Vemos um ótimo potencial nessa tecnologia, mas sua implantação real é lenta,” de acordo com Wei Xu, do Instituto de Ciências da Informação Interdisciplinar na Universidade Tsinghua, em Beijing, na China, que respondeu às questões do ZDNet por e-mail.
Xu possui uma equipe com mais de mais de 30 pesquisadores, e que criou um sistema de deep learning para interpretar exames de tomografia computadorizada, desenvolvido em 16 hospitais na China, inclusive em Wuhan, e que alcançou a marca de 1.300 exames por dia. Esse sucesso inicial vai de encontro à realidade de que pode ser difícil avançar em alguns países. Com a situação na China melhorando, “estamos em progresso na implementação do sistema na Europa, mas o processo tem sido lendo,” escreveu Xu.

Auxílio aos radiologistas

Em teoria, é simples identificar o que o computador deveria buscar. Um raio X ou uma TC vai mostrar formações no pulmão associadas com várias condições respiratórias, como pneumonia, por exemplo. A característica nas imagens mais frequentemente relacionada à COVID-19, embora não exclusiva dessa doença, é chamada de “opacidade em vidro fosco,” um tipo de infiltrado na área do pulmão, causado por secreção de fluido. Opacidades e outras anomalias podem revelar até mesmo pacientes assintomáticos de COVID-19.
O que retarda o processo é que a rede neural tem que ser ajustada para extrair as opacidades nos pixels de uma imagem de alta resolução, o que exige dados. Também exige bastante tempo trabalhando com os médicos, que são quem sabe o que buscar nesses exames. Tanto os dados quanto a expertise são escassos durante o início de uma pandemia.
As redes neurais desenvolvidas por Xu e sua equipe estão sendo refinadas por cientistas da computação para que mantenham um alto grau de sofisticação durante vários anos, e eles estão fornecendo ferramentas já prontas para construir novos sistemas. O sistema projetado por eles combina duas redes de deep learning, “ResNet-50,” o padrão para reconhecimento de imagens há anos, e algo chamado “UNet++,” que foi criado na Arizona State University, em 2018, especificamente para o propósito de processar tomografias computadorizadas de tórax.
As redes neurais, como a maioria dessas aplicações, usam um processo chamado convoluções, que são o alicerce de todos os sistemas de reconhecimento de imagens. Uma rede neural convolucional sumariza padrões repetitivos nos dados. Através da sumarização, se você quiser, em níveis de abstração sucessivos, a rede neural forma um parâmetro matemático de quais pixels da imagem contêm uma anomalia, como opacidade, por exemplo.

Um problema de dados, um verdadeiro problema de Big Data

A teoria é sólida, mas na prática, as coisas se tornaram mais desafiadoras. “Sistemas de IA necessitam de muitas labels,” explicou Xu por e-mail. Labels são anotações criadas por humanos nas imagens, por radiologistas, que ajustam as configurações da rede neural para sumarizar adequadamente os pixels das imagens. “E a criação de labels requer tempo dos médicos, o que é difícil de se ter,” acrescenta Xu.
Wei Xu of Tsinghua University and colleagues at other Chinese institutions built an AI system that not only analyzes CT scans but also integrates with a radiologist’s workflow. Trying to bring the system to Europe has been slowed by various factors including lack of access to data, says Xu.
Jin et. al, 2020, AI-assisted CT imaging analysis for COVID-19 screening: Building and deploying a medical AI system in four weeks

Xu e sua equipe fizeram uma “pileline” inteiramente para COVID-19 com intuito de facilitar que um não especialista, em colaboração com um radiologista treinado, possa aplicar as labels às imagens, facilitando o treinamento da rede neural. O sistema foi alimentado por 1.136 casos de hospitais chineses, dos quais 723 deram positivo para CODIV-19. Outros casos têm diferentes tipos de infecções pulmonares, como pneumonia convencional. As convoluções do programa serão refinadas para diferenciar entre a ” opacidade em vidro fosco” e outras particularidades de COVID-19 das características de demais enfermidades.
Apesar de todo esse trabalho, e apesar de algum sucesso na implementação, obter mais dados que permitam o refinamento do programa é uma barreira, disse Xu. “É difícil para experts em IA entender o que os médicos necessitam.”
“Projetar esse tipo de IA requer profundo conhecimento em ciência da computação e prática da medicina, o que dificulta o treinamento,” disse Xu. Como resultado, “não creio que a IA vai substituir os médicos humanos em um futuro próximo, ela vai precisar trabalhar em conjunto com os médicos.”
O pipeline que integra a IA com o workflow dos radiologistas “é a parte mais valiosa do sistema de diagnóstico assistido por IA, e também o módulo mais demorado e desafiador de se desenvolver,” disse Xu ao ZDNet. Em contraste, o sistema Infervision, disse ele, “funciona como um processo alternativo que examina as TCs independentemente dos radiologistas.”
É possível que redes neurais que não requerem labels possam ajudar a aliviar a carga de dados sobre os profissionais da saúde, um aprendizado não supervisionado. Treinamento não supervisionado de uma rede neural se dá através de padrões pela estruturação de sumários, de dados sem anotações de pessoas.
Mas nesse ponto, isso vai mais na direção de uma pesquisa exótica do que de um caminho prático, fala Xu. “Sem nenhuma etiqueta, para guiar a aprendizagem, é como te perguntar ‘como você descreveria a água? Há muitas dimensões para descrevê-la, e é realmente difícil encontrar uma descrição precisa.”

Almejando uma IA totalmente automatizada

Alguns pesquisadores estão de fato tentando acabar com as labels, e os resultados são variados.
Jie Tian, diretor do Laboratório de Imagem Molecular na Academia Chinesa de Ciências, em Beijing, tem trabalhado com colegas de outras instituições para desenvolver um sistema que não precisa de anotações humanas, o que consideram “totalmente automatizado.”
Eles adotaram o formato de uma rede desenvolvida em 2018 chamada “DenseNet,” a qual possui um ótimo número de sumarizações combinadas dos pixels em múltiplos níveis de abstração.

 

The pipeline of a “fully automatic” Ai systems developed by Jie Tian of the Chinese Academy of Sciences in Beijing and colleagues at collaborating institutions. It can remove some of the work of radiologists to annotate CT scans. Because of the current lack of a larger dataset to optimize the program, the software may remain a research projects for the time being.
Wang et. al, A Fully Automatic Deep Learning System for COVID-19 Diagnostic and Prognostic Analysis

 

Tian e seus colegas treinaram a rede neural em dois estágios. Primeiro eles inseriram 4.016 exames de pessoas com câncer de pulmão, e ela foi ajustada para criar sumários que refletem as anomalias pulmonares em geral. Eles então acrescentaram mais 1.266 exames de pacientes confirmados com COVID-19, e os sumários obtidos na primeira etapa foram refinados para as anomalias predominantes na CODIV-19. Esse é um formato chamado “transferência de aprendizagem,” cada vez mais comum nas aplicações de IA.
O programa gerou bons resultados, disse Tian, mas o projeto continua essencialmente uma pesquisa científica. Se livrar das anotações humanas é esperto, porém ainda requer a adição de mais dados. “Devido à variedade de características da COVID-19 em diferentes regiões e países, precisamos de uma quantidade maior de dados antes de desenvolvermos nossa pesquisa em um software comercial de diagnóstico.”
“Estamos dando nosso melhor para otimizar a pesquisa e validar uma quantidade maior de dados,” ele acrescentou. “Consequentemente, não podemos desenvolver o sistema para uso comercial neste momento.”

O mundo precisa se unir

A carência de dados foi percebida por mais gente. Em um artigo do mês passado, estudiosos da Organização Mundial da Saúde, da United Nations Global Pulse, e do instituto Mila, de Montreal, investigaram sobre os cenários de aplicação de IA, de diagnóstico até potenciais curas, incluindo softwares de análise de exames de raios X e tomografias computadorizadas.
Os autores concluíram que “ML (machine learning) e IA podem ajudar na resposta contra COVID-19 em um amplo conjunto de domínios,” acrescentando, “entretanto, vemos que pouquíssimos sistemas têm maturidade operacional até aqui.”
Questionada sobre porque tão poucos programas atingiram essa maturidade, Alexandra Luccioni, uma autora desse artigo e diretora de Projetos Científicos no Mila, respondeu ao ZDNet, “é uma questão de compartilhar os dados em nível global. Atualmente esse não é o caso, não há muita cooperação global a respeito do compartilhamento dos dados.”
“Creio que ajudaria se a OMS constituísse um banco de dados central com mecanismos de identificação, e criptografia avançada,” disse a Dra. Luccioni. “Desse jeito as autoridades locais de saúde se sentiriam seguras e motivadas a compartilhar seus dados.”
“Hoje, que eu saiba, não existe nenhum repositório desse tipo,” acrescenta. Sua observação ecoa sobre a visão de outros médicos e profissionais da computação que declaram haver a necessidade de algum tipo de iniciativa de Big Data que dê aos pesquisadores mais material de trabalho.
Deixados por conta própria, pesquisadores como Wei Xu têm de lidar com problemas de privacidade de dados. “Diferentes países têm diferentes regulamentações sobre a privacidade dos pacientes, mesmo com o anonimato dos dados,” destacou o cientista. Sem um sistema abrangente para coordenar as coisas, “estamos trabalhando com métodos de processamento de dados que preservem a privacidade (usando criptografia) para lidar com a questão.”

A IA joga com seus pontos fortes

Enquanto os esforços dos acadêmicos encontram dificuldades, algumas empresas comerciais tiram vantagem dos anos trabalhando com médicos na análise de exames.
Uma dessas companhias é a startup de três anos e meio de idade chamada Qure.ai, baseada em Mumbai, na Índia, com escritórios em New York, que recebeu 16 milhões em capital de risco da Sequoia Capital e de outros financiadores. A Qure.ai usa softwares para analisar raios X e CTs através de IA há quase 3 anos. A empresa agora tem 105 sites no ar em 25 países, e há inclusive 35 cidades que estão usando a tecnologia especificamente para a COVID-19. As instalações de software para COVID-19 começaram a funcionar semanas atrás.
O software da companhia pode ser implementado remotamente em questão de horas, o que significa que os lockdowns não impedem novos sites de irem ao ar. A tecnologia pode até mesmo ser usada por unidades móveis que vão de porta em porta nas regiões mais pobres do mundo, realizando testes no local.
O Qure.ai está analisando 5 mil exames por semana, segundo disse o fundador e CEO Prashant Warier ao ZDNet em entrevista por telefone. A companhia espera que essa taxa vá aumentar para 5 mil por dia em poucas semanas.
“Nós estávamos muito bem preparados” antes da COVID-19 entrar em cena, contou Warier. A rede neural da companhia foi treinada por 2,5 milhões de exames nos últimos três anos, todas com anotações, para variados problemas respiratórios, incluindo pneumonia, tuberculose, enfisema, etc. Isso significa que a opacidade em vidro fosco “já fazia parte da sua capacidade” no modelo computacional, Warier.
Aqueles com menos dados terão dificuldades, observou. “Qualquer coisa que tiver 2 mil exames e é treinado num modelo de COVID vai funcionar muito bem em um cenário específico, mas quando começar a generalizar usando novas bases de dados, não vai funcionar muito bem.”
“Generalização é um grande desafio para variados tipos de dados de diferentes fontes,” disse Warier.
O sistema da Qure.ai usa networks convolucionais, mas “construímos muito mais coisas sobre ele,” diz, incluindo algoritmos para detectar automaticamente quais partes do pulmão estão em que áreas da imagem. Uma das maiores inovações é uma rede de processamento de linguagem natural, desenvolvida pela Qure.ai, capaz de extrair as palavras contidas nos exames e usá-las como labels. Isso pode reduzir a carga de trabalho de um radiologista para classificar a imagem.

Softwares comerciais também precisam de mais dados

Ainda que o que Warier afirma seja muito bom numericamente, em sensibilidade e especificidade – o número de pessoas diagnosticadas positivo para a doença em relação ao total dos que realmente a têm e, inversamente, o número de pessoas consideradas negativo em relação ao total das que não a têm – mais dados ainda são necessários para melhores resultados. “Queremos melhorar, absolutamente,” disse ele sobre ambas as medidas. Mesmo com a sensibilidade e especificidade do software já sendo muito altas, comenta, na casa dos 95% cada, há margem para melhorias, graças às diversas maneiras que a COVID-19 se manifesta ao redor do mundo. “O desafio é que nem todo mundo com opacidade tem COVID-19, pode ser uma infecção bacteriana,” comentou Warier ao ZDNet.
Ele ainda nota que há algo conhecido como “data distribuition drift.” Aparelhos diferentes de raios X, um da Phillips e outro da Fuji, mostrarão imagens de forma diferente. “Cada máquina de raios X tem uma assinatura diferente,” ele pontua, e “até mesmo as configurações de certa máquina podem variar de lugar pra lugar.” A Qure.ai tem até mesmo que diferenciar entre máquinas que usam filme e as que fazem imagens digitais modernas (podendo lidar com ambos os tipos).
A promessa de formas de inteligência artificial deep learning sempre foi que o programa de computador encontrasse coisas não pensadas pelos humanos, ou que não saibamos como perguntar. Conforme Qure.ai avança, Warier acredita que seja possível que o “modelo descubra algo novo.”
“Talvez o algoritmo pegue alguma característica que o radiologista não tenha pensado,” exemplifica. “O modelo pode aprender mais do que um radiologista sabe.”

Deixando milhares de flores desabrochar

Possivelmente, enquanto isso, graças à reduzida quantidade de dados, há um esforço para dar ferramentas a quem possa usar a IA em locais que sejam fonte dados. Esse é o insight da startup canadense DarwinAI, baseada em Waterloo, Ontario, com raízes na Universidade de Waterloo.
DarwinAI liberou o código de um modelo de deep learning de análise de raios X chamado COVID-Net. A rede neural convolucional foi desenvolvida usando 5.941 raios X de 2.839 pacientes, e que também estão disponíveis online.

 

The DarwinAI program for chest X-ray analysis, “COVID-Net,” can combine with an analysis tool called GSInquire to show which lung areas are being focused on by the neural network, to help physicians understand the network’s diagnosis. DarwinAI hopes open-sourcing the system will bring greater collaboration, especially with datasets around the world. “I know a lot of people out there claiming incredible accuracies for AI solutions and I want to make it very clear that we are not,” says DarwinAI Chief Scientist, and a co-founder, Alexander Wong.
Wang et. al, COVID-Net: A Tailored Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest Radiography Images

“Sei sobre muita gente declarando níveis de precisão impressionantes para soluções de IA, e quero deixar muito claro que não é o nosso caso,” contou o Cientista Chefe e cofundador do DarwinAI, Alexander Wong ao ZDNet. “O objetivo do COVID-Net é trazer inovação através de uma solução clinicamente viável, para ajudar, mas que neste momento não está pronto para ser entregue. Está nos estágios iniciais, e estamos nos esforçando ao máximo para incrementá-lo juntamente com o resto da comunidade global.”
“Queremos fazer tudo muito bem,” disse ele, “e trabalhar com sites clínicos e experts para fazer as coisas certas.”
Particularmente, o sistema precisa de mais dados, assume. Com base nos casos de 500 pacientes, o COVID-Net está com sensibilidade e especificidade de 80%, logo, perdendo 20% dos que realmente têm a doença, e classificando incorretamente 20% dos que estavam livres dela como se estivessem doentes.
Wong, coautor de um artigo sobre o sistema, junto com sua colega Linda Wang, disse que ele e sua equipe entraram em contato com vários hospitais e centros médicos para discutir como se pode trabalhar em conjunto na melhoria do sistema proposto, com uma quantidade maior de dados, o que tem sido o gargalo de sua implementação prática.
Ele espera atingir a marca de “no mínimo mais 500 casos para serem usados na aprendizagem do sistema, o que acreditamos atingir nos próximos meses, aproximando-o do uso clínico.”
Conforme os resultados são trabalhados, uma grande vantagem do COVID-Net, segundo Wong, é que ele pode ser “explicado.” Em seu artigo, Wong e Wang demonstraram como uma ferramenta para “IA explicável” desenvolvida pelo DarwinAI, o GSInquire, pode destacar as áreas da imagem de raio X que estão guiando a maioria dos sumários criados pela rede neural. Isso ajudaria o médico, em teoria, a entender porque o programa está chegando a certas conclusões, de maneira que possa fazer sentido para esse médico.

O caminho pela frente

Ao ser perguntado como os pesquisadores podem enfrentar o desafio de acúmulo de dados integrados à prática médica, Wong respondeu que “talvez isso pareça clichê, mas meu conselho é ser persistente, ter foco, trabalhar duro e estar aberto a trabalhar com mais gente, com outros experts, e então fazer melhor como um coletivo.”
O esforço enorme dos cientistas de IA e sua súbita imersão nas demandas críticas de um cenário real ainda não podem ajudar, mas têm profundo efeito no campo da IA. Neste momento, os cientistas precisam de auxílio para acessar os dados em uma escala muito maior. À medida que eles forem conseguindo, a presença da IA poderá ser impactante. A maneira como esses desafios mudam a disciplina de IA será um fenômeno muito interessante a se desdobrar nos próximos anos.

Sobre o artigo

Este artigo é uma tradução livre do original AI runs smack up against a big data problem in COVID-19 diagnosis.
Autor: Tiernan Ray. Tiernan Ray has been covering technology and business for over 24 years. He was most recently technology editor for Barron’s where he wrote daily market coverage for the Tech Trader blog and wrote the weekly print column of that name. He has also worked for Bloomberg and SmartMoney, and for the prestigious ComputerLetter newsletter covering venture capital investments in tech. His work has been published in the New York Times, Fortune magazine, and CNN Money. He is a graduate of Princeton University and a native of New York City.
Photo by Patrick Assalé on Unsplash