Expected Goals

Última atualização: 29/09/2017. Atualizado até a rodada 25 do Brasileirão.

Este post ficará fixado no menu do blog, desta maneira, o leitor sempre poderá acessar ele e verificar qual o xG da última rodada do campeonato brasileiro. Para clubes ou jogadores. Serão apresentados sempre os 30 primeiros colocados, no caso do xG dos jogadores. A seguir, os links dos Expected Goals de jogadores e clubes.

xG para jogadores: clique aqui.

xG para clubes: clique aqui.

Nota: O propósito do xG (aqui neste blog) não é prever, antes do chute ser realizado, se a bola vai entrar ou não. Nós usamos o xG para avaliar a qualidade de uma chance de gol e, portanto, a qualidade da performance de um clube/jogador.

Portanto, olhamos o xG como a probabilidade de um chute se tornar um gol quando um jogador médio do campeonato tenta finalizar na mesma situação. Isso nos dá a seguinte interpretação: “Se um jogador médio tentasse esse chute 100 vezes, nesta mesma oportunidade de gol, ele provavelmente marcaria 25 gols”, o que corresponderia a uma oportunidade de gol com xG igual a 0,25. Neste blog, nós assumimos esta definição de xG.

 

*************************************************************************************

 

SOBRE O EXPECTED GOALS (xG):

O Brasileirão já chegou na metade. Hora de fazer um balanço de como estão as equipes até aqui. O elevado número de partidas já realizadas nos dá a possibilidade de analisar a produção de gols e “chances de gol” das equipes. Algumas medidas bastante utilizadas são a média gols por partida e a média de finalizações por gol. Ambas servem para avaliar a produção/eficiência do ataque de um clube. Porém, a média de gols não leva em conta as bolas que não entraram. Um time pode produzir várias finalizações, mas por conta de um atacante azarado, de habilidade duvidosa – ou em uma noite não muito inspirada -, a bola pode não entrar. Neste caso, a média de gols por partida não é uma estatística suficiente para avaliar a produção de chances de gol, nem a eficiência das finalizações.

Outra opção é o percentual de finalizações no alvo. Dividimos o número de chutes ao gol pelo total de chutes e comparamos com a média do campeonato. Se a média do clube é maior do que a do campeonato, podemos concluir que o time em questão possui melhor pontaria do que a média. Adicionalmente, podemos verificar qual a probabilidade de a bola entrar, dado que o chute foi na direção do gol. Essas duas estatísticas são importantes, mas possuem muitas limitações. Elas não avaliam a distância do chute, o ângulo que o batedor estava do gol no momento do chute, entre outros fatores. Sabemos que finalizações mais próximas do alvo são mais eficazes e que chutes frontais são mais perigosos do que chutes em diagonal. Tudo isso pode fazer a diferença na hora de avaliar como o ataque das equipes está se saindo. Uma equipe que não consegue deixar o atacante “na cara do gol”, tem muito mais dificuldade de marcar do que equipes que criam “chances claras”. Uma finalização a 10 metros do gol “valem” muito mais do que finalizações a 35, 40 ou 45 metros.

Para levar em consideração vários fatores do jogo, calculamos o Expected Goals (xG) para cada clube. O xG é um modelo econométrico que considera diversos aspectos da jogada para calcular uma probabilidade de gol.

Definição de xG: o xG é a probabilidade de uma finalização se tornar um gol. Isso nos dá a seguinte interpretação: “Se um jogador médio tentasse esse chute 100 vezes, nesta mesma oportunidade de gol (distância, ângulo do chute, etc…), ele provavelmente marcaria 25 gols”, o que corresponderia a uma oportunidade de gol com xG igual a 0,25. Neste blog, nós assumimos esta definição de xG.

Por levar em conta várias características de cada jogada que resultou em uma finalização (distância, ângulo do chute, contra-ataque, cabeceio ou chute, escanteio ou falta, etc.), o xG tem como resultado uma fotografia mais fidedigna da produção/eficiência dos clubes/jogadores em uma a partida.

 

Como o xG se diferencia das estatísticas usuais? Por exemplo, Avaí e Cruzeiro se enfrentaram no domingo de 23 de julho na Ressacada, pela décima sexta rodada do Brasileirão 2017. O Avaí vinha de um empate com o líder do campeonato e buscava pontos para fugir da zona do rebaixamento. Tarefa difícil, pois Cruzeiro estava brigando no G6 e não perdia ha quatro jogos. Contudo, naquela tarde ensolarada, pouco mais de seis mil pessoas assistiram um Cruzeiro que controlou o jogo, 72% de posse de bola, finalizou muito mais do que a equipe catarinense e mesmo assim saiu derrotado. O Cruzeiro finalizou 26 vezes, enquanto o Avaí apenas 5. Dados do campeonato brasileiro desde 2013, mostram que a chance de um chute se terminar em um gol é de 9,5%. Na realidade, esse número vale para o futebol no mundo inteiro! Em qualquer liga de qualquer país, a frequência de gols por chute tende a ficar em torno de 9,5%. Como o Cruzeiro finalizou 26 vezes, esperaríamos que a Raposa marcasse pelo menos 2 gols (0,095*26 = 2,47 gols).  Quando olhamos apenas para os chutes que acertam o alvo, os dados do campeonato brasileiro mostram que a probabilidade de a bola entrar sobe para 27,7%. Se considerarmos apenas os chutes que chegaram no gol do goleiro Douglas, foram 9 finalizações desse tipo, esperaríamos que o Cruzeiro marcasse pelo menos 2 gols (0,277*9 = 2,49 gols). O jogo terminou com vitória do Avaí por 1×0. As seis mil pessoas presentes assistiram o Avaí vencer a Raposa pela primeira vez em sua história. Olhando apenas para a frequência chutes ao gol, temos a impressão de que um verdadeiro milagre ocorreu na partida. O que aconteceu naquela tarde? Faltou sorte aos atacantes mineiros? Talvez. Mas o xG nos dá uma visão mais clara sobre as oportunidades de gol criadas pelo Cruzeiro naquele jogo.

O número de gols esperados para o Cruzeiro naquela partida foi de 1,26 gols – calculado pelo xG. Exatamente a metade dos 2,47 ou 2,49 gols esperados, quando considerando apenas a frequência de finalizações. Olhando para o xG, vemos que o milagre não foi tão grande assim. Esse quase gol e meio a menos (2,47-1,26=-1,21 gols), se deve a características específicas das finalizações do Cruzeiro na partida. O clube mineiro finalizou muitas vezes de longa distância, o que diminui a probabilidade de acerto. E poucas finalizações tiveram probabilidade condicional de gol (xG é condicional à distância, ângulo, tipo de jogada, etc.) maior do que os 9,5% mencionados acima: das 26 finalizações, apenas 4 delas tiveram probabilidade condicional de terminar em gol superiores a 9,5%. Portanto, o xG estimado, traz evidências de que o Cruzeiro não conseguiu criar oportunidades “tão claras” de gol como se imaginaria se olhássemos apenas a média de chutes da equipe. A finalização cruzeirense com a maior probabilidade condicional de gol, foi uma realizada por Sassá aos 13 minutos do segundo tempo; a probabilidade de gol para um chute naquela distância, ângulo e tudo mais, é de 13,6%. Essa foi a finalização com maior probabilidade condicional de conversão em gol que o Cruzeiro teve na partida toda. Já o chute de Júnior Dutra, que resultou no gol do Avaí, teve probabilidade condicional de 53%. Foi um chute a 8,4 metros do gol, de frente para a goleira, onde o atacante dá um toque na bola antes da finalização, resultado; 53% de probabilidade de resultar em gol. Um jogador médio do campeonato brasileiro, que se deparasse com essa oportunidade de gol 100 vezes, estufaria as redes em 53 delas. Olhando para o xG da jogada, vemos que o Avaí não foi tão sortudo em fazer o gol. As probabilidades ajudaram, digo, a criação de uma “chance clara” ajudou. A criação de uma jogada que possibilita uma finalização como a que Júnior Dutra realizou, dá ao clube mais de 50% de marcar. As jogadas que o Cruzeiro criou não chegaram nem perto dessa probabilidade. O Avaí terminou a partida com xG de 0,7 enquanto o Cruzeiro obteve 1,26. Portanto, podemos ver que apesar de chutar mais e controlar o jogo, o Cruzeiro não criou muito mais “chances de gol” do que o Avaí.

 

O que o xG indica (em termos práticos): O xG nos dá uma medida mais confiável do que os resultados individuais das partidas, ou as estatísticas incondicionais. xG pode ser pensado como a avaliação das “chances” de gol. Podemos calcular o xG para jogadores ou equipes.

Um alto xG indica que o time consegue criar chances “mais claras” de gol. Se equipe que possui xG = 20, por exemplo, significa que um jogador médio do campeonato brasileiro teria feito 20 gols, se deparado com as mesmas chances de gol criadas por essa equipe. Sendo assim, se um clube marca mais gols do que seu xG, então seus atacantes foram mais eficientes do que a média do campeonato. Já, se a diferença entre o número de gols marcados e o xG é negativa, então está faltando pontaria aos atacantes.

 

Nosso modelo de xG: Estimamos um modelo Logit para avaliar a probabilidade de uma finalização acabar em gol. Vária variáveis (eventos da partida) são consideradas e cada uma possui um parâmetro a ser estimado. Para estimação dos parâmetros do modelo, foram utilizados todos os jogos do campeonato brasileiro desde 2013.

O modelo que usamos é um modelo Logit onde a variável dependente é a finalização. Essa variável é binária; toma valor 1 para finalização convertida em gol e 0, caso contrário. Podemos pensar na regressão logística como um caso especial de uma regressão linear – aquela regressão geralmente estimada por mínimos quadrados ordinários (MQO) -, quando a variável dependente é binária, e quando usamos os logaritmos das odds como variáveis dependentes. Entenda odds exatamente como você interpreta aquelas proporções nos sites de aposta. Colocando de maneira simples, o modelo prediz a probabilidade de ocorrência de um evento ajustando os dados a uma função logística. A equação do modelo segue a seguinte especificação:

logit
Especificação da equação logística. Essa é a especificação que utilizamos para estimar os parâmetros do nosso modelo de Expected Goals (xG).

Nesse modelo, os betas são os parâmetros que nós estimamos usando os dados do brasileirão, que são os X’s. As variáveis X são as variáveis explicativas. O vetor de variáveis explicativas, X, é composto por duas variáveis contínuas: distância do chute ao gol e ângulo do chute; e mais onze variáveis binárias: contra-ataque, lateral arremessado direto na área, pênalti, falta, escanteio, finalização com cabeça/pé, finalização gerada por um lançamento, finalização gerada por um cruzamento, finalização gerada de jogada pessoal, Big Chance (uma variável gerada pela Opta para classificar boas chances de gol), e, finalmente, finalização gerada por assistência intencional.

A base de dados que utilizamos para estima esse modelo é composta de mais de 1,7 mil jogos do Brasileirão. Esses jogos geram mais de 2,5 milhões de eventos, dos quais 42 mil são finalizações ao gol.  Utilizamos mais de 42 mil finalizações, para estimar os parâmetros do modelo (os betas da equação acima).   Para cada uma dessas 42 mil finalizações, nós computamos diversas variáveis que descrevem esse evento. Essas variáveis são: distância do chute; o ângulo entre a posição da finalização e a goleira; contra-ataque; se a finalização vem de uma cobrança de falta, escanteio, pênalti ou jogada normal; se foi com o pé ou cabeça; se o finalizador recebeu (ou não) um passe para finalizar, entre outras coisas (esses são os X’s da equação acima).

Todos os parâmetros estimados são estatisticamente significativos a 1% de nível de significância. Depois de estimados os parâmetros do modelo, nós estamos prontos para avaliar a probabilidade de gol de cada finalização do campeonato brasileiro.

Com os parâmetros estimados, calculamos o xG de cada finalização do campeonato brasileiro deste ano. Cada finalização recebe um xG, que é baseado no que a média de um jogador do Brasileirão (de 2013 a 2017) faria com cada chance de gol, levando em conta as várias características (eventos) do lance em questão.

 

 

Qualquer dúvida em relação ao modelo, entre em contato conosco aqui.