Você está aqui: Página Inicial / Tecnologia / Como o "Big Data" vai nos ajudar a cometer erros

Tecnologia

The Observer

Como o "Big Data" vai nos ajudar a cometer erros

por The Observer — publicado 11/04/2014 05h39, última modificação 11/04/2014 07h01
A tentativa da Google de prever a disseminação da gripe usando termos de buscas mostra que muitos dados podem causar muita confusão
Reprodução
Mapa de tendências de gripe do Google

O mapa de tendências de gripe do Google. Qual o valor científico dele?

Por John Naughton

Um conceito de utilidade duradoura raramente surge do setor de pesquisas de mercado, mas o ciclo de hype [entusiasmo] de Gartner é uma exceção que prova a regra. É um gráfico que descreve o ciclo de vida de uma inovação tecnológica em cinco fases. Primeiro há o "gatilho", que provoca um entusiasmo febril e uma rápida escalada do interesse público, o que eventualmente leva a um "pico de expectativas infladas" (fase 2), depois do qual ocorre um declínio acentuado enquanto novas experiências revelam que a inovação deixa de produzir as afirmações originais – extravagantes – que haviam feito sobre ela. A curva então desce até um "buraco de decepção" (fase 3), depois do qual há uma lenta mas constante ascensão em interesse (a "ladeira de esclarecimento" -- fase 4), quando as empresas descobrem aplicações que realmente funcionam. A última fase é o "platô de produtividade", em que as aplicações úteis da ideia finalmente chegam à corrente dominante. O tempo entre as fases 1 e 5 varia conforme a tecnologia e pode durar várias décadas.

Enquanto o vagão do "Big Data" [grandes dados] acumula vapor, é adequado perguntar onde ele se situa atualmente no ciclo de entusiasmo. A resposta depende de que domínio de aplicação estamos falando. Se é a aplicação de análise de dados em grande escala para fins comerciais, então muitas grandes corporações, e especialmente as gigantes da internet, já estão na fase 4. O mesmo se aplica se o domínio consistir em ciências com uso intensivo de dados, como genômica, astrofísica e física de partículas: as torrentes de dados que são gerados nesses campos estão muito além da capacidade de processamento de meros humanos.

Mas os evangelizadores dos grandes dados têm horizontes mais largos que a ciência e os negócios: eles vêm a tecnologia como uma ferramenta para aumentar nossa compreensão da sociedade e do comportamento humano e para melhorar a elaboração de políticas públicas. Afinal, se o seu ponto forte é a "elaboração de políticas com base em evidências", então quanto mais provas você tiver, melhor. E já que os grandes dados podem fornecer toneladas de provas, como não gostar?

Então, onde no ciclo de entusiasmo se encontram atualmente as aplicações sociais da tecnologia de grandes dados? A resposta é a fase 1, a rápida ascensão ao pico das expectativas infladas, o período em que as pessoas acreditam em todo rumor positivo que escutam e são muitos surdas aos céticos e aos críticos.

É principalmente culpa do Google. Quatro anos atrás, seus pesquisadores causaram uma tempestade ao revelar (em um trabalho publicado na revista Nature) que as buscas na web feitas por usuários do Google forneciam informação melhor e mais recente sobre a disseminação da gripe nos Estados Unidos do que os métodos de coleta de dados dos Centros para Controle e Prevenção de Doenças do governo dos EUA. Esse trabalho provocou um frenesi de especulação sobre outras possíveis aplicações em políticas públicas da análise de dados em escala maciça.

Como colocou o economista Tim Harford: "Não apenas as Tendências da Gripe da Google eram rápidas, precisas e baratas, como livres de teorias. Os engenheiros da Google não se incomodaram em desenvolver uma hipótese sobre quais termos de busca – sintomas da gripe" ou "farmácias perto de mim" – poderiam estar relacionados à disseminação da própria doença. A equipe da Google apenas pegou seus principais 50 milhões de termos de busca e deixou os algoritmos fazerem o trabalho".

Assim foi desencadeado o ciclo de hype. Se a Google podia fazer isso pela gripe, certamente poderia ser feito para muitas outras questões sociais. E talvez possa. Mas neste caso em particular o entusiasmo veio a ser prematuro. A Nature relatou recentemente que as Tendências de Gripe da Google perderam o rumo. "Depois de fornecer de maneira confiável um relato rápido e preciso de surtos de gripe em vários invernos", relata Harford, "o modelo rico em dados e sem teoria perdeu o faro de para onde a gripe estava indo. O modelo da Google indicou um surto grave, mas quando chegaram os dados lentos e constantes [do órgão governamental americano], mostraram que as estimativas da Google de disseminação de doenças semelhantes à gripe estavam exageradas por um fator de quase 2."

Então o que deu errado? Simplesmente isto: a Google não sabe nada sobre as causas da gripe. Ela apenas conhece as correlações entre termos de busca e surtos. Mas, como sabe qualquer estudante secundarista, correlação é algo muito diferente de causalidade. E causalidade é a única base que temos para a verdadeira compreensão.

Os entusiastas dos grandes dados parecem incrivelmente não se perturbar com isso. Em muitos casos, dizem eles, saber que duas coisas são correlacionadas é tudo de que você precisa. E, de fato, no comércio isso pode parecer racional. Eu compro coisas para mim mesmo e para meus filhos na Amazon, por exemplo, o que leva a companhia a concluir que serei tentado não apenas pelas cartas de Hugh Trevor-Roper como também por novos lançamentos de artistas de rap. Isto é tolice, mas não causa prejuízo. Aplicar o tipo de análise de dado que produz esses absurdos à política pública, porém, não seria engraçado. Mas é onde os evangelizadores mais radicais dos grandes dados querem nos pegar. Devemos lhes dizer que vão plantar batatas.

Leia mais em Guardian.co.uk

registrado em: ,