O Fim da Teoria: O dilúvio de dados torna o método científico obsoleto

Versão traduzida do artigo que é quase um manifesto. Quer concordemos ou não com as ideias aqui, é indiscutível que a forma como fazemos e respondemos perguntas está mudando…Encontrei esta referência em várias obras que discutem novos efeitos e sentidos para big data. Originalmente está disponível em:

<http://www.uvm.edu/pdodds/files/papers/others/2008/anderson2008a.pdf>

“Todos os modelos estão errados, mas alguns são úteis.” Então proclamou o estatístico George Box há 30 anos e ele estava certo. Mas que escolha nós tivemos? Apenas modelos, de equações cosmológicas a teorias do comportamento humano, para explicar o mundo ao nosso redor. Até agora. Hoje empresas como a Google, que cresceram em uma era de dados massivamente abundantes, não precisam se contentar com modelos errados. Na verdade, eles não precisam se contentar com modelos. Sessenta anos atrás, os computadores digitais tornaram as informações legíveis. Vinte anos atrás, a Internet tornou acessível. Há dez anos, o primeiro mecanismo de pesquisa rastreava um único banco de dados. Agora, o Google e empresas com ideias semelhantes estão peneirando a era mais analisada e medida da história, tratando esse enorme corpus como laboratório da condição humana. Esses são os filhos da Idade do petabyte. A Era Petabyte é diferente. Kilobytes foram armazenados em disquetes. Megabytes foram armazenados em discos rígidos. Terabytes foram armazenados em matrizes de disco. Petabytes são armazenados na nuvem. À medida que avançamos nesse progressão, passamos da analogia da pasta para a analogia do gabinete de arquivo para o analogia da biblioteca para – bem, em petabytes ficamos sem analogias organizacionais. Na escala de petabytes, a informação não é uma questão de regra de três, mas de estatísticas dimensionalmente agnósticas. Exige uma abordagem totalmente diferente, a perda da amarração de dados como algo que pode ser visualizado em sua totalidade. Obriga-nos a visualizar os dados matematicamente primeiro e estabelecer um contexto para eles posteriormente. Por exemplo, O Google conquistou o mundo da publicidade com nada além do que matemática aplicada. Não pretendia saber nada sobre a cultura e convenções da publicidade – apenas supunha que melhores dados, com melhores ferramentas analíticas, ganhariam o dia. E a Google estava certa. A filosofia fundamental da Google é que não sabemos por que essa página é melhor do que aquela: se as estatísticas dos links recebidos dizem que é, isso é bom o suficiente. Nenhuma análise semântica ou causal é necessária. É por isso que o Google pode traduzir idiomas sem na verdade, “conhecê-los” (dados de corpus iguais, o Google pode traduzir o klingon em farsi tão facilmente quanto pode traduzir francês para alemão). E assim pode associar anúncios ao conteúdo sem nenhum conhecimento ou suposição sobre o conteúdo.

Falando na O’Reilly Emerging Technology Conference em março passado, Peter Norvig, diretor de pesquisa do Google, ofereceu uma atualização à máxima de George Box: “Todos os modelos estão errados e cada vez mais você pode ter sucesso sem eles”.

Este é um mundo em que grandes quantidades de dados e matemática aplicada substituem todas as outras ferramentas em uso. Fora com toda teoria do comportamento humano, da linguística à sociologia. Esqueça taxonomia, ontologia e psicologia. Quem sabe por que as pessoas fazem o que fazem? O ponto é que eles fazem isso, e podemos rastrear e medir isso com uma incrível fidelidade. Com dados suficientes, os números falam por si.

O grande alvo aqui não é publicidade. É ciência. O método científico é construído em torno de hipóteses testáveis. Estes modelos, na maioria das vezes, são sistemas visualizados nas mentes dos cientistas. Os modelos são então testados e experimentos confirmam ou falsificam modelos teóricos de como o mundo funciona. É assim que a ciência trabalha há centenas de anos. Os cientistas são treinados para reconhecer que correlação não é causalidade, que nenhuma conclusão deve ser tirada simplesmente com base na correlação entre X e Y (poderia ser apenas uma coincidência). Em vez disso, você deve entender os mecanismos subjacentes que conectam os dois. Depois de ter um modelo, você pode conectar os conjuntos de dados com confiança. Dados sem modelo são apenas ruído.

Mas, diante de dados massivos, essa abordagem da ciência – hipótese, modelo, teste – está se tornando obsoleta.

Considere a física: os modelos newtonianos eram aproximações grosseiras da verdade (erradas no nível atômico, mas ainda úteis). Cem anos atrás, a mecânica quântica com base estatística ofereceu uma imagem melhor – mas a mecânica quântica é outro modelo, e, como tal, também é falho, sem dúvida uma caricatura de uma realidade subjacente mais complexa. A razão pela qual a física se transformou em especulação teórica sobre grandes modelos unificados n-dimensionais nas últimas décadas (a fase “bela história” de um disciplina carente de dados) é que não sabemos como executar os experimentos que falsificariam as hipóteses – as energias são muito altas, os aceleradores muito caros e assim por diante. Agora a biologia está caminhando na mesma direção. Os modelos que aprendemos na escola sobre genes “dominante” e “recessivo” que dirigem um processo estritamente mendeliano revelaram-se uma simplificação da realidade ainda maior do que as leis de Newton. A descoberta de interações gene-proteína e outros aspectos da epigenética desafiou a visão do DNA como destino e até apresentou evidências de que o ambiente pode influenciar traços herdáveis, algo que antes era considerado impossibilidade.

Em resumo, quanto mais aprendemos sobre biologia, mais nos encontramos distantes de um modelo que pode explicá-la.

Agora existe uma maneira melhor. Petabytes nos permitem dizer: “Correlação é suficiente”. Podemos parar de procurar modelos. Podemos analisar os dados sem hipóteses sobre o que pode mostrar. Podemos jogar os números na maior computação que o mundo já viu e permitir que algoritmos estatísticos encontrem padrões onde a ciência não pode.

O melhor exemplo prático disso é o seqüenciamento do gene por J. Craig Venter. Ativado por sequenciadores de alta velocidade e supercomputadores que analisam estatisticamente os dados que produzem, o projeto de Venter passou de sequenciar organismos individuais para seqüenciamento de ecossistemas inteiros. Em 2003, ele começou a sequenciar grande parte do oceano, refazendo a viagem do capitão Cook. E em 2005 ele começou a sequenciar o ar. No processo, ele descobriu milhares de espécies anteriormente desconhecidas de bactérias e outras formas de vida. Se as palavras forem “descobrir uma nova espécie” lembram Darwin , você pode estar preso à maneira antiga de fazendo ciência. Venter pode dizer quase nada sobre as espécies que encontrou. Ele não sabe como eles são, como eles vivem, ou muito mais sua morfologia. Ele nem tem todo o genoma delas. Tudo o que ele tem é um sinal estatístico – uma sequência única que, diferente de qualquer outra sequência do banco de dados, o que deve representar uma nova espécie. Essa sequência pode se correlacionar com outras que se assemelham às das espécies sobre as quais sabemos mais. Nesse caso, Venter pode fazer algumas suposições sobre os animais – que eles convertem a luz solar em energia de uma maneira particular, ou que eles descendam de um ancestral comum. Além disso, ele não tem um modelo melhor dessa espécie do que o Google tem da sua página do MySpace. São apenas dados. Ao analisá-lo com recursos de computação com qualidade do Google, Venter avançou a biologia mais do que qualquer outra pessoa de sua geração.

Esse tipo de pensamento está pronto para se tornar popular.

Em fevereiro, a National Science Foundation anunciou o Cluster Exploratory, um programa que financia pesquisas projetadas para serem executadas em uma plataforma de computação distribuída em larga escala desenvolvida pela Google e IBM em conjunto com seis universidades-piloto. O cluster consistirá em 1.600 processadores, vários terabytes de memória e centenas de terabytes de armazenamento, juntamente com o software, incluindo o Tivoli da IBM e as versões de código aberto do Sistema de arquivos do Google e MapReduce. Os primeiros projetos incluirão simulações do cérebro e do sistema nervoso e outra pesquisa biológica que fica em algum lugar entre o wetware e o software.

Aprender a usar um “computador” dessa escala pode ser um desafio.

Mas a oportunidade é grande: a nova disponibilidade de grandes quantidade de dados, juntamente com as ferramentas estatísticas para triturar esses números, oferece uma maneira totalmente nova de entender o mundo.

A correlação substitui a causalidade, e a ciência pode avançar mesmo sem modelos coerentes, teorias unificadas ou realmente qualquer explicação mecanicista.

Não há razão para nos apegarmos aos nossos velhos hábitos. É hora de perguntar: o que a ciência pode aprender com o Google?

Chris Anderson (canderson@wired.com) é o editor-chefe da Wired.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

%d blogueiros gostam disto:
search previous next tag category expand menu location phone mail time cart zoom edit close