Workshop sobre Visão Computacional

Transcrição

[00:00:03] João Souto se apresenta como cientista de dados na empresa 1 Grau e Meio, onde trabalha com visão computacional.

[00:00:40] Ele trabalha com a aplicação de detecção de incêndios florestais.

[00:00:57] Sua apresentação é sobre como a máquina detecta imagens e como usar isso em um projeto.

[00:02:06] Seu objetivo é desmistificar o uso da tecnologia, que pode parecer complexo, mas pode ser aplicado em um projeto facilmente.

[00:02:38] Em 10 slides, ele mostrará como aplicar inteligência artificial (IA).

[00:02:39] Visão computacional é um conjunto de tecnologias computacionais utilizadas para identificar padrões em imagens. O objetivo, no caso da IA, é prever em imagens.

[00:04:06] Os algoritmos de visão computacional mais usados são:

  • Classificação de imagens, em que se identifica qual objeto ou cena está presente na imagem e se atribui um único rótulo.
  • Detecção de objetos, em que se identifica quais objetos estão presentes e onde estão na imagem. Ele lida bem com a sobreposição de objetos e a detecção de múltiplos objetos.
  • Segmentação de objetos, que vai além da detecção. Ele delimita os limites precisos dos objetos em relação ao resto da imagem.

[00:05:55] Aplicação da visão computacional:

  • Carros autônomos (identificação de pedestres, sinais de trânsito e outros veículos para garantir a segurança na navegação).
  • Diagnóstico médico por imagem (identificação de doenças precocemente em ressonâncias e tomografias, reduzindo o erro humano).
  • Agricultura de precisão (identificação de pragas, áreas de estresse hídrico e deficiência de nutrientes para maior produtividade das safras).
  • Monitoramento ambiental (identificação de animais, fenômenos climáticos e outros nas imagens de drones, câmeras ou satélites, proporcionando maior automação do processo de detecção, possibilitando melhoria nas demais etapas).

[00:08:45] Para entender como a máquina detecta imagens, foi feito um paralelo entre o olho humano e uma máquina.

[00:09:56] O olho humano detecta três canais de cores combinados que formam todo o espectro de cores que conhecemos, o RGB, que significa vermelho, verde e azul.

[00:11:56] Na máquina, cada pixel com cores é pintado por três cores sobrepostas, em níveis de 0 a 255. Quanto mais próximo de 255, mais branco é a cor.

[00:14:57] No exemplo teórico mostrado, de uma mesa de xadrez, o algoritmo recebe a imagem e passa filtros dentro da imagem. Quanto mais próximo de 255, mais próxima do branco é a cor, ou seja, um vetor que representa o branco.

[00:19:46] Para treinar sua própria IA, você deve:
1- Definir o(s) objeto(s) que se pretende detectar e onde encontrar imagens que o contenham.
2- Abrir uma conta no Roboflow (uma plataforma de anotação e gestão de dataset gratuita).
3- Criar um projeto novo.
4- Subir imagens (ou vídeos do YouTube) e anotá-las seguindo um padrão de anotação.
5- Exportar dataset como linhas de código (copiá-las).
6- Abrir o notebook e colar o código do Roboflow para rodar as células.

[00:25:51] Pílulas do conhecimento:
1- Para treinar uma boa aplicação de visão computacional, é necessário ver com os próprios olhos as imagens disponíveis, em seguida, anotá-las de forma clara e coerente, seguindo a mesma estratégia.
2- Se há dúvida na anotação, evite a imagem. O modelo treinado refletirá essa dúvida.
3- “Garbage IN > Garbage OUT” (lixo para dentro, lixo para fora).

[00:28:30] Para conhecer mais do trabalho do palestrante, acesse seu portfólio de visão computacional jpaosoutto-vision.streamlit.app, seu LinkedIn https://linkedin.com/in/joao-pedro-soutto-chaves, e seu Github https://github.com/jpaosoutto95.

[00:37:45] A biblioteca cv2 (OpenCV), que é muito boa para receber imagens, transformá-las em vetores RGB ou BGR, pode ser utilizada.

[00:41:19] Para facilitar o treinamento da IA, criar um projeto no Roboflow é uma boa opção.