Bias vs. Variância (Parte 1)

É comum, ao construirmos e escolhermos parâmetros para um modelo, nos depararmos com a seguinte questão: como reduzir o erro do modelo?

Para respondermos essa pergunta de maneira correta, em primeiro lugar, devemos entender os 2 principais componentes do erro em nossas predições: bias e variância. Conhecendo melhor esses tipos de erro, podemos entender as possíveis fontes de erro em nosso modelo e como minimizá-lo.

Imagine que temos muitos dados e podemos realizar o processo de treinamento do nosso modelo com diferentes conjuntos de treinamento. Devido à aleatoriedade dos conjuntos, teremos diferentes modelos para o mesmo problema. Agora, imagine que nós vamos medir o quanto esses modelos se diferenciam dos valores reais e o quanto se diferenciam entre si. Neste caso, teremos os seguintes tipos de erro:

  • Bias: é a diferença entre o valor esperado da predição do nosso modelo (média das predições) e o valor real que queremos predizer.
  • Variância: é a variabilidade das predições.

Matematicamente, se nossa função real é Y = f(X) + ε, e queremos estimar um modelo h(x) que aproxima a função f(x), o bias (1) e a variância (2) serão, respectivamente:

bias_variance

(1) Bias e (2) variância de uma modelo h(x) que aproxima a função f(x)

Mostrar como o erro do modelo é decomposto em bias e variância não é o objetivo do post, mas quem estiver interessado em estudar mais profundamente, a demonstração pode ser encontrada aqui nos slides de 5-10.

De forma resumida e mais clara, o bias está relacionado à habilidade do modelo em se ajustar aos dados, ou seja, se o seu problema é um underfitting, o seu modelo tem um alto bias. Já a variância está relacionada a habilidade do modelo se ajustar a novos dados, ou seja, se o seu problema é um overfitting, o seu modelo tem uma alta variância.

O nosso objetivo é reduzir o bias e a variância o máximo que pudermos, entretanto, nos deparamos com um trade-off entre under e overfitting, conforme ilustrado no gráfico abaixo:

bias-variance

Bom, legal entender a decomposição do erro em bias e variância, mas como posso calculá-los se preciso repetir a construção do mesmo modelo com novos dados? Quais as medidas que posso tomar para a redução do bias e da variância?

Trataremos de todos esses assuntos no próximo post da série! 😉

Bias vs. Variância (Parte 2)

Bias vs. Variância (Parte 3)

Anúncios

Tags:,

Trackbacks / Pingbacks

  1. Bias vs. Variância (Parte 3) | Eric Couto - 21 de janeiro de 2014
  2. Bias vs. Variância (Parte 2) | Eric Couto - 21 de janeiro de 2014

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: