Bias vs. Variância (Parte 3)

Depois de tanto tempo, a terceira parte da série Bias vs. Variância saiu!

Apenas relembrando, a série foi dividida da seguinte forma:

  • Primeira parte: conceito de bias e variância
  • Segunda parte: cálculo do bias e da variância
  • Terceira parte: métodos de redução do bias e da variância

Em resumo, enquanto o bias está ligado à capacidade das predições do modelo se aproximarem dos valores reais, a variância está relacionada à consistência dos resultados do modelo em diferentes conjuntos de dados.

Apesar de sabermos calcular “explicitamente” o bias e a variância de um modelo, dependendo do tamanho do conjunto de dados (número de variáveis e samples) e da complexidade do modelo, o processo pode ser computacionalmente caro. Desta forma, precisamos ter outras maneiras de inferir se estamos com problemas de bias ou variância.

Ao compararmos os erros no conjunto de treinamento e validação, podemos nos deparar com os seguintes cenários:

Erro no treinamento é alto e Erro no treinamento ~ Erro na validação

Quando temos um alto erro no treinamento com valor próximo ao erro na validação, temos um clássico problema de underfitting, que como já vimos, é um problema de alto bias.

Erro no treinamento é baixo e Erro no treinamento << Erro na validação

Quando temos um baixo erro no treinamento e alto erro na validação, temos um clássico problema de overfitting, que como já vimos, é um problema de alta variância.

O cenário ideal é termos um baixo erro no treinamento com valor próximo ao erro na validação (baixo bias e baixa variância).

Para saber como lidar com esses problemas, vamos ver o efeito de algumas intervenções no modelo.

Complexidade do modelo

Relembrando o que foi discutido no primeiro post:

bias-variance

Quanto maior a complexidade do modelo, maior a variância e menor o bias. Algumas medidas podem ajudar a encontrar o nível de complexidade ideal.

Alto Bias

  • Adicionar mais variáveis
  • Adicionar novas variáveis a partir de combinações das variáveis existentes

Alta Variância

  • Selecionar um conjunto menor de variáveis

Outra possível ação é utilizar modelos com regularização (modelos que penalizam a utilização de muitas variáveis):

  • Aumentar o parâmetro de regularização quando o problema é alta variância
  • Reduzir o parâmetro de regularização quando o problema é alto bias

Tamanho do conjunto de treinamento

O ajuste do modelo depende diretamente do conjunto de treinamento, sendo assim, até certo ponto, aumentar o tamanho do conjunto de treinamento pode ajudar a reduzir o erro no conjunto de validação/teste. Entretanto, se já possuímos uma quantidade razoável de dados e o modelo não consegue se ajustar bem nem aos dados de treinamento, aumentar a quantidade de dados não deve ajudar muito, pois estamos com um problema de underfitting (alto bias).

Aumentar o tamanho do conjunto de treinamento não ajuda quando o modelo possui alto bias

No caso do modelo se ajustar muito aos dados de treinamento (overfitting, alta variância), aumentar a quantidade de dados pode ajudar a aumentar o poder de generalização do modelo.

Alta variância

Aumentar o tamanho do conjunto de treinamento pode ajudar a reduzir a variância

Em um futuro post, pretendo falar dos chamados ensembles, que são técnicas que nos ajudam a lidar com este tradeoff entre bias e variância, ao combinar vários modelos para gerar um modelo com melhor desempenho.

Até o próximo post!

Bias vs. Variância (Parte 1)

Bias vs. Variância (Parte 2)

Anúncios

Tags:,

4 responses to “Bias vs. Variância (Parte 3)”

  1. Felipe Santana says :

    Ótima serie de posts, é difícil encontrar um material tão bem explicado, principalmente em português!
    Parabéns!!

Trackbacks / Pingbacks

  1. Bias vs. Variância (Parte 1) | Eric Couto - 21 de janeiro de 2014
  2. Bias vs. Variância (Parte 2) | Eric Couto - 21 de janeiro de 2014

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: