CHANCE DE GOL

  

BOLA+NÚMEROS - desde 1999

Voltar para o Início


AGUARDE
CALCULANDO PROBABILIDADES
Artigo anterior: Introdução

No artigo anterior, mostrei como são calculados os rankings, que são parâmetros de diferença técnica entre os times. São parâmetros importantes mas insuficientes para cálculos mais sofisticados. Sabemos que um time é "2 gols melhor" que outro mas isso não nos diz se numa hipotética série de jogos entre eles um marcaria em média 2,1 gols e o outro 0,1 gols por jogo ou se um marcaria 8,5 e o outro marcaria 6,5 gols por jogo. É intuitivo que quanto mais gols acontecem num jogo, maior é a probabilidade de alguém sair vencedor e menor é a probabilidade do empate. Precisamos, então, de um parâmetro adicional que permita obter essas médias.

Esse parâmetro é obtido de forma semelhante ao anterior, mas agora relacionado à soma dos gols marcados pelos times. Suponhamos agora que o banco de dados possua os seguintes jogos:
Time E 2x2 Time F,
Time F 2x1 Time G
e Time G 1x1 Time E.

Esses resultados podem ser escrito como um sistema de equações, parecido com o mostrado no artigo anterior:
yE + yF = 4
yF + yG = 3
e yG + yE = 2;

cujas soluções (que poderiam ser chamadas "parâmetros de soma") são:
Time E: yE = 1,5
Time F: yF = 2,5
Time G: yG = 0,5

Esses parâmetros (que, diferentemente dos "parâmetros de diferença" mostrados no artigo anterior, são únicos e "absolutos") podem ser interpretados como a contribuição média do time para a quantidade de gols num jogo. Valores altos podem ser interpretados como o time tendo um ataque muito forte e/ou uma defesa muito fraca, fatores que contribuem para que um jogo tenha muitos gols. Por outro lado, valores baixos podem ser interpretados como o time tendo um ataque muito ruim e/ou uma defesa muito boa, fatores que contribuem para que um jogo tenha poucos gols.

Assim como no cálculo dos "parâmetros de diferença", a existência de muitos confrontos entre as mesmas equipes, a presença do efeito de mando de campo e do peso associado à idade dos jogos obrigam o uso de técnicas mais sofisticadas para se resolver o sistema de equações e obter os "parâmetros de soma" de cada time.

Agora, tendo dois parâmetros para cada time, é possível calcular a "média teórica" de gols num confronto entre dois times. Suponhamos que os times E e F tenham, respectivamente, rankings 2,4 e 1,8. Então, surge um último (e mais simples) sistema de equações:

Gols marcados por E - Gols marcados por F = 0,6 (pois xE - xF = 2,4 - 1,8 = 0,6)
Gols marcados por E + Gols marcados por F = 4 (pois yE + yF = 1,5 + 2,5 = 4)

As soluções desses sistemas são GE (gols marcados por E) = 2,3 e GF (gols marcados por F) = 1,7, o que significa que se esses times se enfrentassem muitas vezes, ocorreriam em média 2,3 gols do time E e 1,7 gols do time F.

A partir disso, é possível calcular as probabilidades de vitória do time E, de empate e de vitória do time F num futuro jogo entre eles. As quantidades de gols marcados por cada time podem ser descritas por um modelo chamado Distribuição de Poisson. Aqui a matemática começa a ficar mais complexa e por isso vou poupar o leitor das passagens algébricas. O relevante aqui é que através desse modelo é possível calcular a probabilidade de o time E marcar 0 gols, 1 gol, 2 gols e assim por diante. Idem para o time F. Com essas probabilidades calculadas, podemos multiplicá-las para obter as probabilidades de cada resultado, por exemplo:

Probabilidade de o Jogo ser 1x0 para o time E = (Probabilidade de o time E marcar 1 gol) x (Probabilidade de o time F marcar 0 gols)
ou, na notação utilizada pelos estatísticos,
P(1x0) = P(GE = 1) x P(GF = 0)

Por fim, as probabilidades de vitória, empate e derrota são obtidas a partir da soma das probabilidades dos resultados correspondentes, ou seja:
P(E ganhar de F) = P(1x0) + P(2x0) + P(2x1) + P(3x0) + ...
P(E e F empatarem) = P(0x0) + P(1x1) + P(2x2) + P(3x3) + ...
P(E perder para F) = P(0x1) + P(0x2) + P(1x2) + P(0x3) + ...

É claro que existem fórmulas para simplificar essas somas, mas são complexas demais para serem apresentadas aqui. O próximo passo seria listar todas as combinações possíveis de resultados para os jogos futuros do campeonato, ver em quais combinações cada time é campeão (ou rebaixado, classificado para a fase seguinte etc.) e somar as probabilidades dessas combinações, obtendo as probabilidades de cada time ser campeão (ou rebaixado etc.). O procedimento realmente seria esse, mas é absolutamente impraticável. Só para se ter uma idéia, os Campeonatos Brasileiros das Séries A e B têm 380 jogos cada um. Para calcular as probabilidades de título, rebaixamento etc. antes do início do campeonato seria necessário multiplicar as três possibilidades (vitória, empate e derrota) do primeiro jogo pelas três possibilidades do segundo jogo, depois pelas três possibilidades do segundo jogo e assim por diante. Isso totalizaria (tome fôlego)

20.233.769.276.448.396.532.924.684.142.503.939.180.754.626.076.689.080.542.571.586.206.101.673.319.830.518.008.727.118.465.
001.740.770.996.110.790.167.939.584.018.728.031.779.967.965.588.631.496.362.638.240.742.766.327.789.293.190.999.463.601

combinações a serem analisadas! Se juntássemos todos os computadores do mundo não faríamos nem cócegas nesse número monstruoso. Para piorar, mesmo se existisse um ultramegacomputador que conseguisse fazer esse cálculo, existem cenários em que dois ou mais times precisam desempatar pelo saldo de gols e essa análise se restringe a vitórias, empates e derrotas...

O que se faz, então, é simular (através da Distribuição de Poisson) quantos gols cada time marcaria em cada jogo, calcular a partir desses jogos simulados com quantos pontos, vitórias e saldo de gols cada time terminaria o campeonato e anotar quem foram, nesse cenário, o campeão, os rebaixados, os classificados para a Libertadores etc. Isso é repetido muitos milhares de vezes e, no fim do processo, obtém-se a porcentagem de campeonatos simulados em que cada time foi campeão, a porcentagem em que cada time foi rebaixado e assim por diante. O resultado não é a probabilidade exata (que seria obtida mediante a análise de todos os "infinitilhões" de combinações) mas é sempre uma aproximação muito precisa.

Para podermos concluir os cálculos, resta agora um último problema a resolver. O que fazer, por exemplo, se um time for campeão em 100% das simulações? Isso significa que ele já é matemática e irreversivelmente campeão? Ou ainda pode haver alguma combinação de resultados, ainda que com probabilidade microscópica de ocorrer, que permita que esse time não seja campeão? Para responder a essa pergunta (e à pergunta análoga sobre quando acontece de um time não é campeão em nenhuma simulação) é rodada uma análise adicional, cuja matemática foge ao escopo deste artigo. É a essas situações que se referem as expressões "quase 100%" e "quase 0%" que de vez em quando aparecem nas páginas dos campeonatos:

* "quase 100%" significa que o evento (o time ser campeão, por exemplo) aconteceu em 100% das simulações mas a análise adicional detectou que ainda existe pelo menos uma combinação possível de resultados em que o evento não acontece (o time não é campeão, no exemplo);
* "quase 0%" significa que o evento (o time ser campeão, por exemplo) aconteceu em 0% das simulações mas a análise adicional detectou que ainda existe pelo menos uma combinação possível de resultados em que o evento acontece (o time é campeão, no exemplo).

Próximo artigo: Por que as probabilidades mudam ao longo do tempo?