Bloco A, sala 513-2
A princípio, aumentar o número de atributos tem o potencial de melhorar o desempenho
Na prática, em muitos casos, mais atributos podem levar a uma degração no desempenho
Número de exemplos de treinamento necessário cresce exponencialmente com o número de dimensões
XX⊺=⎣⎢⎢⎢⎡σ(x1,x1),σ(x1,x2),…,σ(x1,xn)σ(x2,x1),σ(x2,x2),…,σ(x2,xn)⋮σ(xn,x1),σ(xn,x2),…,σ(xn,xn)⎦⎥⎥⎥⎤
∑im∥x∥2∑im∥x−xaproximado∥2≤ϵ
Devido à maldição da dimensionalidade, no entanto, a adição de atributos irrelevantes à base de dados, geralmente, "confunde" o algoritmo de aprendizado
Simulações mostram uma degração média de 5 a 10% quando atributos irrelevantes são adicionados
Seleção de atributos antes do aprendizado
Produz uma representação mais compacta do conceito a ser aprendido
O processo de seleção de atributos, às vezes, pode ser muito mais custoso que o processo de aprendizado
Ou seja, quando somarmos os custos das duas etapas, pode não haver vantagem
Manual
Ideal se for baseado em um entendimento profundo sobre ambos:
Entretanto, tende a ser bastante custoso.
Automático
Filtros: método usado antes do processo de aprendizado para selecionar o subconjunto de atributos
Wrappers: o processo de escolha do subconjunto de atributos está “empacotado” com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no “espaço” de atributos.
O número de possíveis combinaçõe de atributos é O(2m), em que m é o número total de atributos.
Portanto, na maioria dos casos práticos, uma busca exaustiva não é viável.
Solução: busca heurística
Busca para Frente (Seleção Forward)
Similar a Seleção Forward
Começa com todo o conjunto de atributos, eliminando um atributo a cada passo
Podemos usar a acurácia de um modelo como critério de avaliação (wrapper)
Tanto na Seleção Forward quanto na Eliminação Backward , pode-se adicionar um peso por subconjuntos pequenos
Por exemplo, pode-se requerer não apenas que a medida de avaliação crescer a cada passo, mas que ela cresça mais que uma determinada constante