Sciam
Clique e assine Sciam
Notícias

Campeonato de basquete amplia interesse por big data

Prêmios espetaculares de até 1 bilhão de dólares mobilizam estudiosos  

Shutterstock
Por Geoffrey Giller 

A “March Madness” [período de torneios de basquete da Associação Atlética Universitária Nacional, maior evento de basquete universitário do mundo] ainda nem terminou, mas uma coisa já é certa: ninguém ganhará o “Bilhão de Buffet”.

Antes mesmo que metade dos jogos do torneio terminasse todas as chaves de grupos inscritos no concurso do Yahoo para ganhar um bilhão de dólares tinham pelo menos um nome riscado em vermelho. Emboraalguns possam culpar upsets viradas de jogo como o jogador nº 14 seed [num tipo de ranking] do Mercer eliminar o nº 3 do Duke ou o nº 12 do Harvard bater o nº 5 do Cincinnati, as chances nunca estiveram a favor de ninguém, exceto Warren Buffet, que ofereceu a tentadora soma de US$ 1 bilhão para qualquer pessoa que escolhesse uma chave perfeita.

As estimativas para a probabilidade de acertar 63 de 63 vencedores variaram de uma em mais de 9 quintilhões (para o número total de resultados possíveis) a uma em 7,4 bilhões (o que presume que nenhuma equipe seed nº16 derrote um time seed nº 1, algo que nunca aconteceu na divisão masculina).

Apesar das chances baixíssimas, se não improváveis, a oferta gerou mais interesse que o normal para a criação da chave perfeita. E, embora a sorte possa desempenhar um papel tão relevante quanto a matemática pura na determinação dos vencedores, isso não impediu que estatísticos e matemáticos tentassem criar o algoritmo perfeito para calcular essa probabilidade.

Um website, o Kaggle, está até oferecendo um prêmio, embora significativamente menor que US$ 1 bilhão, para o melhor modelo de previsão, com o melhor desempenho. A boa notícia é que alguém de fato ganhará os US$ 15 mil que a Intel, patrocinadora da competição, prometeu. Mas o Kaggle não é um site comum. Ele é um local onde pessoas entusiasmadas por dados e especialistas confrontam suas habilidades entre si na luta pela chance de ganhar prêmios de diversas empresas que procuram resolver problemas através do chamado “crowdsourcing” (informações obtidas através dos esforços de muitos). Além disso, o prêmio não irá para a melhor chave, mas para o modelo que tiver o melhor desempenho durante todo o torneio desportivo. Os concorrentes empregam seus modelos para atribuir uma pontuação provável para cada uma das possíveis duplas na chave, de tal modo que quaisquer “zebras” que anulariam as chaves, não eliminem um competidor completamente da competição.

De acordo com Will Cukierski, um cientista de dados do Kaggle, ao contrário do desafio de previsão do basquete, a maioria das competições que o site promove envolve problemas reais que grandes empresas, como a Amazon e o Facebook, querem resolver. Em uma instância, por exemplo, a companhia de seguros Allstate quis prever prováveis pagamentos de pedidos de indenização com base em características de carros envolvidosem acidentes. Emgeral os prêmios giram em torno de US$ 25 mil, embora o maior tenha sido de US$ 3 milhões, informa Cukierski. No decorrer de uma competição, os concorrentes podem ver o ranking de seus modelos em um placar, que exibe sua pontuação e classificação.

Embora a competição entre pessoas de diversas áreas ocorra no Kaggle, Cukierski salienta que há uma característica comum: “a capacidade de lidar com dados e utilizar a chamada modelagem preditiva”. Há muitos estudantes no site que aproveitam a oportunidade para colaborar e aprender, além de “físicos, econometristas (profissionais que desenvolvem modelos de previsões econômicas com base na unificação de teoria e estatística econômicas, técnicas matemáticas e tecnologia computacional), estatísticos, atuários (profissionais que mensuram e administram riscos; a profissão exige conhecimentos em teorias e aplicações matemáticas, estatística, economia, probabilidade e finanças), e empresários”. Apesar dos prêmios, as competições são mais um hobby que uma fonte de renda para a maioria das pessoas. “Trata-se mais da realidade nua a crua do crowdsourcing”, resume Cukierski. “É quase impossível remunerar as pessoas por hora... Se você fizer as contas na ponta do lápis e computar os valores esperados e todo o resto, você verá que o esforço não vale à pena exclusivamente pelos prêmios”.

A maioria dos problemas no Kaggle requer a aplicação da chamada “big data” (o conjunto de soluções tecnológicas capaz de lidar com dados digitais em grande volume, variedade e velocidade) para resolver. Essa abordagem é útil para problemas “famintos de dados”, segundo Cukierski. Isso significa que eles “melhoram à medida que você os alimenta com mais e mais dados”. Um exemplo desse tipo é um mecanismo de recomendação de filmes, como o que a Netflix usa. De fato, em 2009, o site realizou uma competição semelhante às do Kaggle para aprimorar suas recomendações e concedeu um prêmio de US$ 1 milhão para o vencedor. Um problema como esse é “muito sutil” e requer um modelo capaz de considerar uma vasta gama de parâmetros, observa Cukierski.

 Cukierski acredita, no entanto, que o uso de big data tornou-se um modismo exagerado. “Na realidade, toda essa ideia de big data existe dentro de um grande ciclo de ‘febre publicitária’”, impulsionada principalmente por um modelo de software específico para lidar com informações, chamado Hadoop. “Não que o Hadoop não seja útil”, argumenta Cukierski, mas quando as empresas tentam aplicá-lo para resolver problemas pequenos, “as pessoas que são cientistas de dados e realmente têm conhecimento estatístico dão risada, porque você não precisa do Hadoop para resolver a maioria dos problemas”.

Boyd Davis, vice-presidente e gerente geral da Divisão de Software do Centro de Dados da Intel, espera que a competição de basquete do Kaggle ajude a mostrar o potencial da big data para empresas que ainda não adotaram o mecanismo. “Incorporar [o novo conceito] ainda é difícil, especialmente para líderes empresariais que não são pessoas tecnológicas”, justifica. Começar com as chaves da competição March Madness, para as quais muitas pessoas já empregam certo nível de estatística e múltiplas fontes de dados, é uma boa forma de lançar e popularizar o conceito de big data. “A competição do Kaggle nos dará uma oportunidade para mostrar que é possível obter um resultado muito melhor (tomara!) se você usar muito mais fontes de dados e depois “casar” as informações com análises de dados”, observa Davis. (Recentemente, a Intel lançou a Plataforma de Dados Intel (Intel Data Platform) com base no Hadoop, para empresas processarem big data, o que, na opinião de Cukierski, é parte da razão pela qual a companhia patrocinou a competição).

Cukierski concorda com Boyd que utilizar esportes é uma boa forma de apresentar as pessoas ao campo da ciência de dados. Elaborar chaves “é um dos poucos processos em que as pessoas tolerarão certa quantidade de estatística em suas vidas reais”, avalia ele. “Elas não percebem, mas por trás das aparências elas estão praticando uma forma rudimentar de modelagem matemática”.

Sobre o Autor: Geoffrey Giller é um estagiário editorial na Scientific American. Siga-o no Twitter em @GeoffreyGiller.

As opiniões expressas são as do autor e não necessariamente as da Scientific American.

 

 

 

 

Sciam, 27 de março de 2014-03-29