Introducción
La IA de borde está transformando la implementación de los sistemas de visión artificial, trasladando la inteligencia de la nube directamente a dispositivos que operan en tiempo real. Las plataformas NVIDIA Jetson lo hacen posible al combinar aceleración de GPU, bajo consumo de energía y paquetes de software de IA optimizados.
Con el último modelo YOLO26 de Ultralytics, los desarrolladores pueden lograr una inferencia más rápida, una mayor precisión de detección y una implementación eficiente en sistemas integrados. Al combinarse con NVIDIA DeepStream SDK y la optimización de TensorRT, YOLO26 se convierte en una potente solución para el análisis de vídeo en tiempo real en el edge.
Esta guía le guiará a través de Integración de extremo a extremo de YOLO26 con DeepStream en Jetson, lo que permite canales de detección de objetos escalables y listos para producción.
¿Por qué DeepStream para Edge AI?
La ejecución de scripts de inferencia sin procesar funciona para la experimentación, pero las implementaciones de producción requieren:
Procesamiento de vídeo de alto rendimiento
Aceleracion de hardware
Escalabilidad de múltiples transmisiones
Manejo eficiente de la memoria
Arquitectura basada en pipeline
DeepStream ofrece:
✅ Decodificación de vídeo acelerada por GPU
✅ Tuberías de memoria de copia cero
✅ Soporte de inferencia por lotes
✅ Seguimiento y análisis integrados
✅ Soporte para RTSP y transmisión por cámara
En lugar de procesar fotogramas manualmente, DeepStream crea canales optimizados utilizando GStreamer.
Descripción general de la arquitectura del sistema
La pila de implementación se ve así:
Camera / Video Stream
↓
Video Decode (NVDEC)
↓
DeepStream Pipeline
↓
TensorRT Engine (YOLO26)
↓
Object Detection Metadata
↓
Display / Stream / Analytics Componentes clave:
| Componente | Propósito |
|---|---|
| yolo26 | Modelo de detección de objetos |
| TensorRT | Motor de inferencia optimizado |
| corriente profunda | Canal de análisis de vídeo |
| GPU Jetson | Aceleracion de hardware |
Requisitos de hardware
Plataformas Jetson compatibles:
Jetson Nano (rendimiento limitado)
Supersónico Xavier NX
Supersónico AGX Xavier
Supersónico Orin Nano
Supersónico Orin NX
Jetson AGX Orin (recomendado)
Mínimo recomendado:
RAM 8GB
JetPack 6.x
CUDA + TensorRT instalado
Pila de software
Asegúrese de que esté instalado lo siguiente:
Kit de desarrollo de software JetPack
Juego de herramientas CUDA
TensorRT
Kit de desarrollo de software de DeepStream
Python 3.8 +
Marco de Ultralytics
Verificar instalación:
deepstream-app --version-all Paso 1: Instalar Ultralytics YOLO26
Clonar e instalar dependencias:
pip install ultralytics Inferencia de prueba:
yolo predict model=yolo26.pt source=bus.jpg Si la inferencia funciona, proceda a exportar.
Paso 2: Exportar YOLO26 a ONNX
DeepStream utiliza motores TensorRT, así que primero exporte el modelo.
yolo export model=yolo26.pt format=onnx opset=12 Salida:
yolo26.onnx Verificar el modelo ONNX:
pip install onnxruntime
python -c "import onnx; onnx.load('yolo26.onnx')" Paso 3: Convertir ONNX a motor TensorRT
Utilice TensorRT para optimizar la inferencia para la GPU Jetson.
/usr/src/tensorrt/bin/trtexec \
--onnx=yolo26.onnx \
--saveEngine=yolo26.engine \
--fp16 Optimización INT8 opcional (avanzada):
--int8 --calib=calibration.cache Beneficios:
Baja latencia
el uso de memoria reducida
Optimización específica del hardware
Paso 4: Integrar YOLO26 con DeepStream
DeepStream requiere un analizador personalizado para las salidas YOLO.
Estructura de directorios
deepstream_yolo26/
├── config_infer_primary.txt
├── yolo26.engine
├── labels.txt
└── custom_parser.cpp Configurar la inferencia primaria
Crear:
config_infer_primary.txt
[property]
gpu-id=0
net-scale-factor=0.003921569
model-engine-file=yolo26.engine
labelfile-path=labels.txt
batch-size=1
network-mode=2
num-detected-classes=80
process-mode=1
gie-unique-id=1 Modos de red:
0 → FP32
1 → INT8
2 → FP16
Analizador de cuadro delimitador personalizado
Los modelos YOLO generan tensores de forma diferente a los detectores estándar.
Debe implementar un analizador que convierta las salidas sin procesar en:
cajas delimitadoras.
identificadores de clase
puntuaciones de confianza
Compilar analizador:
make Salida:
LZ4ezwuSpTeD9pQKcUaPpHYUhy53QerXiD Paso 5: Modificar la configuración de la aplicación DeepStream
Edit:
deepstream_app_config.txt Establecer inferencia primaria:
[primary-gie]
enable=1
config-file=config_infer_primary.txt Paso 6: Ejecutar DeepStream Pipeline
Lanzamiento:
deepstream-app -c deepstream_app_config.txt Debería ver:
✅ Detecciones en tiempo real
✅ Cuadros delimitadores renderizados
✅ Utilización de GPU activa
Consejos para optimizar el rendimiento
1. Utilice FP16 o INT8
FP16 normalmente proporciona:
Inferencia 2–3 veces más rápida
Pérdida mínima de precisión
INT8 ofrece el máximo rendimiento pero requiere calibración.
2. Aumentar el tamaño del lote (transmisión múltiple)
batch-size=4 Útil para múltiples cámaras RTSP.
3. Habilitar la memoria de copia cero
DeepStream utiliza automáticamente buffers NVMM para evitar copias de CPU.
4. Utilice el decodificador de hardware
Asegúrese de que el oleoducto utilice:
nvv4l2decoder En lugar de decodificación de software.
Rendimiento esperado (aproximado)
| Inteligencia del | FPS (YOLO26 FP16) |
|---|---|
| Supersónico Nano | 6–10 FPS |
| Javier NX | 25–40 FPS |
| Orin Nano | 40–70 FPS |
| AGX Orín | 90–150 FPS |
El rendimiento varía según la resolución y el tamaño del modelo.
Casos de uso del mundo real
YOLO26 + DeepStream permite:
Vigilancia de ciudades inteligentes
Analítica minorista
Monitoreo de seguridad industrial
Análisis de tráfico
Percepción robótica
Sistemas de inspección autónomos
Localización de averías
El motor no carga
Reconstruir el motor directamente en Jetson:
trtexec --onnx=model.onnx Los motores TensorRT son específicos del hardware.
No aparecen cuadros delimitadores
Comprobar:
ruta de la biblioteca del analizador
recuento de clases
nombres de tensores de salida
FPS bajo
Verificar el uso de la GPU:
tegrastats Causas comunes:
Decodificación de CPU
Inferencia FP32
configuración de lote incorrecta
Mejores prácticas para la producción
Construir motores TensorRT en el hardware de destino
Utilice transmisiones RTSP para escalabilidad
Habilitar complementos de seguimiento
Metadatos de inferencia de registros
Contenerizar con Docker
Conclusión
La integración de YOLO26 con DeepStream en NVIDIA Jetson desbloquea una canalización de inteligencia artificial de borde altamente optimizada capaz de realizar análisis de video en tiempo real a escala de producción.
Combinando:
Precisión de detección de YOLO26
Aceleración de TensorRT
Eficiencia del pipeline de DeepStream
Hardware de borde Jetson
Los desarrolladores pueden implementar sistemas de IA escalables y de baja latencia sin depender de la infraestructura de la nube.
Este flujo de trabajo constituye una base sólida para aplicaciones de visión de borde de próxima generación en todas las industrias.