Figura 1: Exemplo de dataset no Kaggle	Figura 2: Exemplo do dataset no Roboflow

AfroPython Conf 2025

Treinamento do YOLOv8

# Instalação do Ultralytics YOLOv8
pip install ultralytics==8.3.39
# Treinamento do modelo YOLOv8 com o dataset de placas veiculares
yolo train model=yolov8n.pt data=combined/data.yaml epochs=100 imgsz=640

Ajustes de hiperparâmetros:

epochs: número de épocas de treinamento
imgsz: tamanho da imagem de entrada

Ao final do treinamento, o modelo é salvo no diretório runs/detect/train/weights/best.pt

Recurso	OpenAI API (gpt-4o)	Google AI Studio (gemini-1.5-flash)
Modalidade de Entrada	Texto, Imagem e Áudio	Áudio, Imagem, Vídeo e Texto
Modalidade de Saída	Texto	Texto
Gratuito para Uso Básico	Não	Sim

O Poder da Visão Computacional Multimodal

Extraindo Informações de Vídeos com Python e LLMs

Mauricio Souza Menezes

Objetivos da Apresentação

Problema a Ser Resolvido

Problema a Ser Resolvido

Soluções Propostas

Introdução à Visão Computacional

O que é Visão Computacional?

Treinamento de YOLO para Placas Veiculares

O que é YOLO(You Only Look Once)?

Treinamento de YOLO para Placas Veiculares

Pipeline de Treinamento

Dataset Utilizado

Formato do Dataset

Treinamento do YOLOv8

Extração de Placas Veiculares com YOLOv8

Introdução aos Modelos de Linguagem (LLMs)

O que são LLMs?

LLMs Multimodais

Comparação entre APIs de LLMs

OCR de Placas Veiculares com LLMs (OpenAI)

OCR de Placas Veiculares com LLMs (Google)

Desafios do OCR vs. Vantagens do LLM

Aplicações Futuras da Visão Computacional Multimodal

Aplicação Prática: Reconhecimento de Placas Veiculares

OBRIGADO

DÚVIDAS QUE O CHATGPT NÃO RESPONDA