Introdução básica em Visão Computacional, um dos campos dentro de IA e Aprendizado de Máquina, responsável por permitir que essas aplicações possam obter informação de imagens, vídeos e qualquer fonte visual, e com essa informação tomar decisões. Como em carros autônomos lendo em tempo real imagens da câmera, instalada geralmente no para-brisa, e detectando faixas de trânsito, placas, sinalizações e pessoas e reagindo a essas informações, alertando o motorista ou até agindo no lugar dele para evitar um acidente.
A vantagem principal de um sistema Aprendizado de Máquina focado em Visão Computacional são suas capacidades de, com um modelo bem treinado, analisar milhares de fontes visuais em tempo menor do que a capacidade humana é capaz.
Em 2015, a aplicação ResNet criada por Kaiming He e equipe, venceu a competição ILSVRC (ImageNet Large Scale Visual Recognition Challenge) com um projeto com melhor performance que um humano, para classificação, localização e detecção de imagens, usando um conjunto de 15 milhões de dados para treinar, validar e testar seu modelo.
Uma aplicação de ML para Visão Computacional irá rotular uma imagem em níveis de pixel, e então realizar uma convolução (operação matemática, dentro da área de análise funcional, onde dadas duas funções, resulta em uma terceira) e classificar a imagem de acordo com os rótulos.
Imagem Digital
Uma imagem digital pode ser do tipo de raster ou do tipo vetorial. Uma imagem vetorial é criada com o uso de figuras geométricas básicas como linhas e curvas, organizadas de maneira a representar a imagem desejada. Já as Imagens digitais do tipo raster são representacoes bi-dimensionais precisas, de conjuntos finitos de pontos expressos por números, criando uma matriz, onde cada ponto é um pixel e cada pixel pode ter uma cor específica.
Existem algumas fases para o processamento de uma Imagem Digital, fases essas apresentadas no livro Digital Image Processing e resumidas da seguinte maneira:
Aquisição: Capturar a imagem com um sensor e então converter para uma entidade tangível.
Aprimoramento: Extrair detalhes não perceptíveis, melhoria geral da qualidade da imagem.
Restauração: Falhas como ruído, borrões ou desfocagem são removidas para ter a imagem mais limpa possível.
Cor: Lidar com as cores de imagens em diversos formatos como RGBA ou RGB.
Onduleta: Fundamento para representar imagens em diversos níveis de resolução.
Compressão e descompressão: Alterações de resolução ou tamanho da imagem.
Processamento morfológico: Definir estruturas e formas do objeto presente.
Segmentação: Identificação de características específicas na imagem através da segmentação da mesma.
Representação e descrição: Extrair os atributos que resultam em uma informação quantitativa de interesse do processo, visualizar os dados processados.
Reconhecimento: Rotular o determinado objeto de acordo com suas descrições.
Top comments (0)