Bloco A, sala 513-2
Quantidade grande de parâmetros
Inadequadas a imagens de alta resolução
Tempo para computar as ativações/pré-ativações.
Ignoram a estrutura espacial existente em imagens
Se as imagens são linearizadas os pixels próximos e os localizados em regiões distantes tratados indistintamente.
A própria rede teria que detectar as dependências existentes na estrutura espacial da distribuição próximas às imagens de entrada.
Uma CNN é adaptada para explorar a correlação espacial existente em imagens
Inspirada no funcionamento do cérebro (córtex visual).
Conceitos:
Operações
Neurônios em uma CONV utilizam conectividade local (em vez de conectividade global)
Essa região é o campo receptivo local dessa unidade.
O tipo de camada principal em uma CNN é a camada de convolução (convolution layer, CONV).
Cada neurônio em uma CONV aplica um operador de convolução (filter, kernel) sobre seu campo receptivo.
Um operador de convolução é uma matriz!
Analogia: a convolução corresponde a mover uma lanterna da direita para a esquerda, e de cima para baixo, até chegar ao canto inferior direito da imagem de entrada.
A cada região iluminada, o filtro da convolução é aplicado na tentativa de detectar alguma característica visual.
No contexto de uma CNN, a aplicação de uma convolução corresponde a computar o produto escalar (dot product) entre a entrada e o filtro.
A definição geral é mais complexa...
Resultado: outra matriz!
Os neurônios em uma CONV aplica um filtro (operação de convolução) ao
seu campo receptivo
Neurônios de uma mesma camada de profundidade aplicam o mesmo filtro.
O objetivo de cada filtro é ativar quando detecta um tipo particular de característica na entrada.
Neurônios de uma mesma coluna de profundidade estão conectados à mesma região da entrada.
Idealmente cada fatia irá aprender um tipo de filtro diferente durante o treinamento da CNN.
Cada entrada em um volume de saída é resultante da computação de um neurônio que analisa uma pequena região na entrada e
compartilha parâmetros com neurônios no mesmo mapa de ativação.
As convoluções utilizam de maneira diferente os elementos que estão nos cantos, bordas e no meio da imagem
Os elementos dos cantos e bordas podem ser "subutilizados"
Corresponde a adicionar simetricamente zeros a cada fatia (depth slice) do volume de entrada.
Aumenta as dimensões da entrada.
Uma imagem com 32x32 pixels é preenchida com zeros para aplicar uma máscara de 3x3