CHANCE DE GOL

  

BOLA+NÚMEROS - desde 1999

Voltar para o Início


AGUARDE
POR QUE AS PROBABILIDADES MUDAM AO LONGO DO TEMPO?
Artigo anterior: Calculando probabilidades

Uma das dificuldades mais recorrentes que vejo quando jornais, TVs, sites etc. falam de probabilidades de título, classificação ou rebaixamento é a compreensão da mudança dessas probabilidades ao longo do tempo. Mais de uma vez vi comentaristas esportivos criticando os "matemáticos" por "mudarem os números toda semana". Para alguns desses jornalistas, "isso prova que nem os próprios 'matemáticos' se entendem", para outros "assim é fácil, mudando os números todo dia até eu acerto o campeão".

Essa incompreensão talvez tenha atingido seu auge no Campeonato Brasileiro de 2009, quando "os 'matemáticos' disseram que o Fluminense tinha 99% de probabilidade de rebaixamento" e o tricolor carioca acabou permanecendo na Série A. E o fundo do poço aconteceu em 31/10/2011, numa lamentável coluna em que o comentarista José Ilan (então na Rede Globo) critica, menospreza e ridiculariza os "matemáticos", como se fossem idiotas incapazes de observar obviedades que qualquer criança enxergaria.

Antes de falar em números, é importante dar nomes aos bois e eliminar a primeira das confusões mais freqüentes cometidas pela imprensa em geral: Matemática e Estatística são carreiras universitárias diferentes, que formam bacharéis com preparo e capacitação diferentes e que recebem registros profissionais diferentes. Portanto, "Estatístico" e "Matemático" não são sinônimos. Se você não chama o seu dentista de "médico" nem chama o William Bonner de "repórter", então por favor não chame um estatístico de "matemático" nem chame um matemático de "estatístico".

Dito isso, vamos ao que de fato interessa: por que os Estatísticos mudam os números todo dia? Tudo se origina de um conceito básico tão importante quanto desconhecido do grande público: a probabilidade condicional. Todo mundo tem uma noção básica do conceito de probabilidade, aprendida em exemplos como a moeda que tem 50% de chances de dar cara e 50% de dar coroa ou o dado que tem 1/6 de chance de sair cada uma das faces. Só que o "mundo real" não é estático e o Campeonato Brasileiro é um processo de sete meses de duração, obviamente muito mais complexo do que um simples lançamento de uma moeda ou um dado. E é nesse ponto que entra em cena a probabilidade condicional.

Observemos um exemplo básico para entender como funciona "essa tal" de probabilidade condicional. Imagine que temos uma urna com duas bolas brancas e duas bolas pretas. Você deve sortear duas bolas da urna e, se forem duas brancas, você ganha um prêmio. A pergunta óbvia é: qual é a probabilidade de você ganhar o prêmio?

Pois bem, antes do início do sorteio, temos as seguintes possibilidades de bolas a serem sorteadas:

(branca1,branca2) *
(branca1,preta1)
(branca1,preta2)
(branca2,branca1) *
(branca2,preta1)
(branca2,preta2)
(preta1,branca1)
(preta1,branca2)
(preta1,preta2)
(preta2,branca1)
(preta2,branca2)
(preta2,preta1)

Dessas 12 possibilidades, existentes nesse momento, duas (as identificadas com asterisco) correspondem ao resultado que vale o prêmio. Logo, a probabilidade de você ganhar o prêmio é evidentemente igual a 2/12 = 16,67 %

Imagine agora que você sorteou a primeira bola e saiu a "branca1".

As possibilidades agora foram reduzidas a três:

(branca1,branca2) *
(branca1,preta1)
(branca1,preta2)

E a probabilidade de você ganhar o prêmio mudou para 1/3 = 33,33 %

Agora imagine que a primeira bola sorteada fosse a "preta1". As possibilidades restantes seriam:

(preta1,branca1) (preta1,branca2) (preta1,preta2)

e a probabilidade de você ganhar o prêmio mudaria para 0/3 = zero!

Mas como pode uma probabilidade mudar ao longo do tempo? A resposta é simples: trata-se de probabilidades condicionais, ou seja, probabilidades calculadas dadas as (ou à luz das) informações existentes até aquele momento! Na terminologia estatística, as três probabilidades que acabamos de calcular podem ser representadas da seguinte forma:

Saindo das bolas e urnas e voltando ao futebol, imagine agora que o Seu Time está em ótima fase, que o Rival está em péssima fase e que ambos se enfrentarão na próxima rodada. No início do jogo, você está otimista e confiante na vitória do Seu Time. Porém, no final do primeiro tempo o placar mostra 3x0 para o Rival e o Seu Time teve um jogador importante expulso. Não é natural você "jogar a toalha" e achar que a derrota é irreversível? Só que o segundo tempo começa e, em menos de 5 minutos, o Seu Time diminui a diferença para 3x2. Você volta a alimentar esperanças de vitória mas ainda está ressabiado. Essa "flutuação de humor" é perfeitamente normal, não é? E o que é essa "flutuação de humor" se não a manifestação das "probabilidades condicionais" (ainda que não sejam expressas em números) geradas pelo seu "processador interno"? Essa historinha fictícia poderia perfeitamente ser representada por probabilidades condicionais da seguinte forma:

Sendo assim, se as probabilidades (condicionais) podem mudar ao longo do sorteio das bolinhas e ao longo dos 90 minutos de um jogo, então porque não poderiam mudar ao longo de um campeonato? O que os sites divulgam, portanto, são exatamente essas probabilidades condicionais: a probabilidade de o time X ser campeão, a probabilidade de o time Y ser rebaixado e a probabilidade de o time Z se classificar para a Taça Libertadores são valores calculados DADAS as informações contabilizadas até aquele momento (a tabela de classificação, os resultados até aquela rodada, a agenda de jogos futuros de cada time etc.)!

É uma conseqüência óbvia, portanto, que, à medida que o tempo vai passando e as rodadas vão acontecendo, o conjunto de informações contabilizadas vai naturalmente se modificando e, por conseguinte, as probabilidades de cada time ser campeão, ser rebaixado, se classificar etc. também sofram alterações!

No famoso campeonato de 2009, portanto, a probabilidade de o Fluminense ser rebaixado DADO o cenário daquele momento (a tabela de classificação, a quantidade de rodadas faltantes, os jogos que cada time ainda tinha por fazer etc.) era de 99%. Uma rodada depois, porém, a probabilidade do rebaixamento do Fluminense DADO o novo cenário (a tabela de classificação atualizada, a redução da agenda de jogos futuros de cada time) era, digamos, de 85%. Mais uma rodada depois, a probabilidade DADO o cenário atualizado era de 78% e assim sucessivamente até que após a última rodada a probabilidade DADO o cenário final (a tabela final de classificação e a inexistência de jogos ainda não disputados) era de 0%. Simples assim.

Antes de passar para o próximo tópico, não custa lembrar de outro equívoco frequentemente cometido, relacionado a expressões como "previsão matemática" ou "previsão estatística" que, embora sejam corriqueiras no meio acadêmico, são entendidas pela população em geral (em função da palavra "previsão") como sinônimas de "adivinhação", "vidência" ou "profecia". Essa associação incorreta de significados acaba fazendo com que muita gente por aí interprete uma probabilidade alta de rebaixamento do time X como se fosse uma afirmação definitiva e imutável de que "o time X VAI ser rebaixado"!

Consequentemente, se probabilidades não são afirmações, não há sentido algum considerar como "acerto" ou "erro" a ocorrência ou não do "rebaixamento do time X"! Estatisticamente, só se pode falar em erro se um evento ao qual se atribuiu probabilidade 100% não acontecer ou se um evento ao qual se atribuiu probabilidade zero vier a acontecer! Voltaremos a isso no próximo e último artigo.

Um conceito tão importante quanto a probabilidade condicional é o conceito de parâmetro. Os exemplos usuais são de situações simples, como lançamentos de moedas ou de dados, em que nós não só podemos considerar todas as faces com a mesma probabilidade de ocorrência (1/2 para a moeda e 1/6 para o dado) como também podemos considerar que essa probabilidade não se altera ao longo do tempo, isto é, que a chance de sair cara na 50ª jogada continua igual a 50%, independentemente dos resultados das 49 jogadas anteriores. Mesmos nos exemplos de sorteios de bolas, embora a composição da urna possa mudar ao longo do tempo, se existe n bolas a probabilidade de cada uma ser sorteada será sempre de 1/n.

No futebol, por outro lado, seria evidentemente irreal e simplista considerar que todos os times são iguais e que todos os resultados possíveis são igualmente prováveis. Além de sempre existirem times melhores que outros, há uma flutuação ao longo do tempo que não pode ser ignorada: especialmente numa competição longa como o Campeonato Brasileiro ou as Eliminatórias para a Copa do Mundo, qualquer time apresenta oscilações entre fases de melhor forma técnica (quando sua probabilidade de vencer um jogo é "maior") e fases de pior desempenho (quando sua chance de vitória é "menor"). Essas características, intrínsecas ao "mundo real", suscitam a utilização de parâmetros e conseqüentemente de uma abordagem mais sofisticada que a de um lançamento de moeda ou de um sorteio das bolinhas. São esses parâmetros e essa sofisticação que provocam um fenômeno que não raro acontece com os números divulgados pelo Chance de Gol: as probabilidades aparentemente exageradas de o time X ser campeão ou de o time Y ser rebaixado.

Imaginemos, então, que Almeida e Barbosa estejam disputando um campeonato de "par ou ímpar" no qual será sagrado campeão o primeiro que atingir 5 vitórias. Imaginemos também que, após 4 jogos, Barbosa está com 8 vitórias contra 5 vitórias de Almeida. Qual é, então a probabilidade de Almeida ser campeão? E qual será a probabilidade condicional após o próximo jogo?

Para termos uma melhor visualização do processo de cálculo que nos levará a essas respostas, lembremos que, de todos os resultados possíveis dos jogos futuros, Almeida somente será campeão se ganhar os cinco próximos jogos ou se perder no máximo um jogo antes da quinta vitória, o que equivale às seguintes seqüências de resultados ("A" representa vitória de Almeida e "B" representa vitória de Barbosa):

Jogo 14
Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
A
A
A
A
A
 
A 10x8 B
B
A
A
A
A
A
A 10x9 B
A
B
A
A
A
A
A 10x9 B
A
A
B
A
A
A
A 10x9 B
A
A
A
B
A
A
A 10x9 B
A
A
A
A
B
A
A 10x9 B

Agora, se Almeida vencer o Jogo 14, o placar passará para 8 x 6 a favor de Barbosa. Nessa hipótese, Almeida precisará, para ser campeão, de quatro vitórias consecutivas ou, no máximo, perder um jogo antes da quarta vitória:

Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
A
A
A
A
 
A 10x8 B
B
A
A
A
A
A 10x9 B
A
B
A
A
A
A 10x9 B
A
A
B
A
A
A 10x9 B
A
A
A
B
A
A 10x9 B

Analogamente, se Almeida perder o Jogo 14, o placar passará para 9 x 5 a favor de Barbosa e, nesse caso, Almeida precisará necessariamente de cinco vitórias seguidas para ser campeão:

Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
A
A
A
A
A
A 10x8 B

Assim, para conhecer as probabilidades de Almeida ser campeão, vamos, em primeiro lugar, abordar esse problema sob a ótica mais simples, supondo que em cada jogo as probabilidades de vitória são sempre 50% para Almeida e 50% para Barbosa. Nesse caso, as probabilidades de cada seqüência favorável a Almeida são:

Jogo 14
Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
Probabilidade
A
A
A
A
A
 
A 10x8 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/32
B
A
A
A
A
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/64
A
B
A
A
A
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/64
A
A
B
A
A
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/64
A
A
A
B
A
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/64
A
A
A
A
B
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/64

E a probabilidade de Almeida ser campeão é igual a 1/32 + (5 x 1/64) = 10,94 %.

Na hipótese de Almeida vencer o Jogo 14, sua probabilidade de ser campeão passa a ser:

Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
Probabilidade
A
A
A
A
 
A 10x8 B
1/2 x 1/2 x 1/2 x 1/2 = 1/16
B
A
A
A
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/32
A
B
A
A
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/32
A
A
B
A
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/32
A
A
A
B
A
A 10x9 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/32

E a probabilidade condicional de Almeida ser campeão passa a ser igual a 1/16 + (4 x 1/32) = 18,75 %.

Finalmente, na hipótese de Almeida perder o Jogo 14, sua probabilidade de ser campeão passa a ser:

Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
Probabilidade
A
A
A
A
A
A 10x8 B
1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/32

O que é igual a 1/32 = 3,13 %.

Logo, podemos escrever:

Porém, assim como ocorre no futebol, podemos considerar que os jogos passados fornecem informações sobre a qualidade técnica de cada participante. Se Barbosa ganhou mais jogos que Almeida, isso pode significar que Barbosa seja, em algum sentido, "melhor" que Almeida. Podemos, por exemplo, utilizar os números de vitórias de cada participante como um parâmetro: no nosso exemplo, o parâmetro de Barbosa poderia ser igual a 8 e o de Almeida igual a 5. Então, esses parâmetros nos permitiriam, por exemplo, basear os cálculos na suposição de que a probabilidade de Barbosa vencer um jogo seja igual a 8/13 e a probabilidade de vitória de Almeida seja igual a 5/13. Nesse caso, a probabilidade de Almeida ser campeão seria calculada da seguinte forma:

Jogo 14
Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
Probabilidade
A
A
A
A
A
 
A 10x8 B
5/13 x 5/13 x 5/13 x 5/13 x 5/13 = 3125/371293
B
A
A
A
A
A
A 10x9 B
8/13 x 5/13 x 5/13 x 5/13 x 5/13 x 5/13 = 25000/4826809
A
B
A
A
A
A
A 10x9 B
5/13 x 8/13 x 5/13 x 5/13 x 5/13 x 5/13 = 25000/4826809
A
A
B
A
A
A
A 10x9 B
5/13 x 5/13 x 8/13 x 5/13 x 5/13 x 5/13 = 25000/4826809
A
A
A
B
A
A
A 10x9 B
5/13 x 5/13 x 5/13 x 8/13 x 5/13 x 5/13 = 25000/4826809
A
A
A
A
B
A
A 10x9 B
5/13 x 5/13 x 5/13 x 5/13 x 8/13 x 5/13 = 25000/4826809

E a probabilidade de Almeida ser campeão é igual a 3125/371293 + (5 * 25000/4826809) = 3,43 %

Agora, na hipótese de Almeida vencer o Jogo 14, o seu parâmetro passa a ser igual a 6, as probabilidades de vitória de Barbosa e Almeida passam a ser respectivamente iguais a 8/14 e 6/14 e a probabilidade de Almeida ser campeão passa a ser:

Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
Probabilidade
A
A
A
A
 
A 10x8 B
6/14 x 6/14 x 6/14 x 6/14 = 1296/38416
B
A
A
A
A
A 10x9 B
8/14 x 6/14 x 6/14 x 6/14 x 6/14 = 10368/537824
A
B
A
A
A
A 10x9 B
6/14 x 8/14 x 6/14 x 6/14 x 6/14 = 10368/537824
A
A
B
A
A
A 10x9 B
6/14 x 6/14 x 8/14 x 6/14 x 6/14 = 10368/537824
A
A
A
B
A
A 10x9 B
6/14 x 6/14 x 6/14 x 8/14 x 6/14 = 10368/537824

E a probabilidade condicional de Almeida ser campeão passa a ser igual a 1296/38416 + (4 * 10368/537824) = 11,08 %.

Por fim, na hipótese de Almeida vencer o Jogo 14, o parâmetro de Barbosa passa a ser igual a 9, as probabilidades de vitória de Barbosa e Almeida passam a ser respectivamente iguais a 9/14 e 5/14 e a probabilidade de Almeida ser campeão passa a ser:

Jogo 15
Jogo 16
Jogo 17
Jogo 18
Jogo 19
Placar Final
Probabilidade
A
A
A
A
A
A 10x8 B
5/14 x 5/14 x 5/14 x 5/14 x 5/14 = 3125/537824

O que é igual a 3125/537824 = 0,58 %.

Então, podemos escrever agora:

O que se pode perceber desses números? Numa primeira olhada, é fácil notar que, em todas as três situações, a probabilidade de Almeida ser campeão, calculada com parâmetros, é menor do que a mesma probabilidad,e calculada sob a premissa inicial (de que cada em jogo haja 50% de chances de vitória para cada contendor). E o que isso significa? Por que isso acontece? A explicação é simples: se o parâmetro de Barbosa é maior que o de Almeida, então Barbosa será favorito em todos os jogos. Conseqüentemente, as seqüências de resultados que levam Barbosa a ser campeão não só são mais numerosas como também têm maiores probabilidades de ocorrência. Logo, quando somamos "muitas" parcelas com "grandes" probabilidades, o resultado inevitavelmente será uma probabilidade "muito alta" de Barbosa ser campeão e uma probabilidade "muito baixa" de Almeida vencer o campeonato.

Voltando do "par ou ímpar" para o futebol, diversos fatores adicionais obviamente precisam ser considerados, como por exemplo:
- No "par ou ímpar", não há distinção entre as vitórias; no futebol, 1x0 é diferente de 2x0 que é diferente de 3x0, que é diferente de 3x1, que e diferente de 3x2 e assim por diante.
- No "par ou ímpar" só existem vitória e derrota; no futebol, também existe o empate.
- No "par ou ímpar", as únicas informações existentes são os jogos entre Almeida e Barbosa; no futebol, existem muitos times jogando uns contra os outros;
- No "par ou ímpar", supusemos que todos os jogos têm peso igual e que o lugar onde eles são realizados não interfere no resultado; no futebol, existe o efeito "jogar em casa" e existe o "envelhecimento" das informações (para o Time X de hoje, a informação sobre o Time X da semana passada é muito mais relevante do que a informação sobre o Time X de cinco anos atrás).

ISso significa que o cálculo de probabilidades de futebol passa pela elaboração de parâmetros, os quais são (não só mas também) os x's ("parâmetros de diferença") e os y's ("parâmetros de força") abordados nos dois primeiros artigos.

À parte a complexidade matemática desses cálculos, o importante é ter em mente que a sua essência é basicamente a mesma do exemplo do campeonato de "par ou ímpar": Se o Time X tem parâmetros melhores que seus adversários, então ele tenderá a ser favorito à vitória em todos os seus jogos. Sendo favorito à vitória em todos (ou quase todos) os seus jogos, as seqüências de resultados que o conduzem ao título terão probabilidades "grandes" de ocorrência em comparação com as seqüências de resultados que levam os outros times ao título. E, conseqüentemente, a soma dessas probabilidades "grandes" será uma probabilidade igualmente "grande" de esse time ser campeão, promovido para a divisão superior, classificado para a próxima fase etc.

É exatamente essa a explicação para a ocasional aparição, nas rodadas iniciais de campeonatos longos, de times com probabilidades inesperadamente altas de título, promoção, classificação etc. E, naturalmente, vale explicação análoga para a existência de times com probabilidades inesperadamente grandes de eliminação ou rebaixamento.

Para finalizar e amarrar tudo, vamos analisar um exemplo real: Flamengo x Universidad de Chile pelas nas oitavas de finais da Copa Sul-Americana de 2011. No jogo de ida a Universidad venceu por 4x0, virtualmente eliminando o Flamengo.

Pergunta número 1: Seria implausível que, antes da realização do primeiro jogo, um estatístico calculasse probabilidades de classificação às quartas de finais de 60% para o Flamengo e 40% para a Universidad de Chile?
Resposta: Não! Esse estatístico estaria simplesmente dizendo que a probabilidade condicional de classificação do Flamengo, DADAS as informações existentes e os parâmetros calculados até então, era igual a 60% e, por conseguinte, que a probabilidade condicional etc. da Universidad de Chile era igual a 40%.

Pergunta número 2: Seria inaceitável que, após o jogo de ida, quando o Flamengo perdeu por 4x0, esse estatístico passasse a apontar probabilidades de classificação às quartas de finais de 2% para o Flamengo e 98% para a Universidad de Chile?
Resposta: Não! Novamente, esse estatístico estaria agora simplesmente informando que agora a probabilidade condicional de classificação do Flamengo, DADO que o jogo de ida foi 4x0 para a Universidad e DADOS os novos parâmetros (calculados com a incorporação do 4x0 e de outros jogos ao banco de dados e com a eliminação dos jogos que superaram os 24 meses de idade), era igual a 2% e, por conseguinte, que a probabilidade da Universidad de Chile era igual a 98%.

Pergunta número 3: E se no jogo de volta o Flamengo vencesse por 5x0? O estatístico teria "errado" e deveria ser execrado e ridicularizado internet afora?
Resposta: Não! Em primeiro lugar, lembrem-se de que em nenhum momento o estatístico afirmou que "a Universidad de Chile VAI se classificar". E, em segundo lugar, a possibilidade de classificação do Flamengo estava contemplada e medida em 2%. Logo, não há como falar em "erro"!

Em tempo: embora não se possa falar em "erro" e "acerto" de previsões probabilísticas, é possível medir a qualidade dessas previsões. E esse será o tema do próximo (e último) artigo.

Resta agora esperar que os próximos torcedores, jornalistas e blogueiros leiam estes artigos antes de fazer suas postagens e procurem humildemente apreender os conceitos por trás das probabilidades anunciadas pelos diversos matemáticos. A discordância e a crítica são direito de todos, mas não há como discordar ou criticar algo sem um mínimo conhecimento de causa!

Próximo artigo: Estatísticas e medidas: quão "bom" ou "ruim" é o Chance de Gol