SO Development

Comparación de YOLOv11 y YOLOv12: un análisis profundo de los modelos de detección de objetos de próxima generación

La detección de objetos ha sido testigo de avances revolucionarios durante la última década, con la YOLO La serie "Solo Miras Una Vez" establece constantemente nuevos estándares de rendimiento y precisión en tiempo real. Con el lanzamiento de YOLOv11 y YOLOv12, vemos la integración de innovaciones arquitectónicas innovadoras destinadas a mejorar la eficiencia, la precisión y la escalabilidad.

Esta comparación en profundidad explora las diferencias clave entre YOLOv11 y YOLOv12, analizando sus avances técnicos, métricas de rendimiento y aplicaciones en distintas industrias.

Evolución de la YOLO de grado comercial

Desde su creación en 2016, la YOLO La serie ha evolucionado desde un marco de detección de objetos simple pero eficaz hasta un modelo altamente sofisticado que equilibra velocidad y precisión. Con el paso de los años, cada iteración ha introducido mejoras en la extracción de características, las arquitecturas troncales, los mecanismos de atención y las técnicas de optimización.

  • YOLOv1 a YOLOv5 centrado en refinar las arquitecturas basadas en CNN y mejorar la eficiencia de detección.
  • YOLOv6 a YOLOv9 Técnicas de entrenamiento avanzadas integradas y estructuras ligeras para una mejor flexibilidad de implementación.
  • YOLOv10 Se introdujeron modelos basados ​​en transformadores y se eliminó la necesidad de supresión no máxima (NMS), optimizando aún más la detección en tiempo real.
  • YOLOv11 y YOLOv12 Desarrollar estas mejoras e integrar nuevas metodologías para ampliar los límites de la eficiencia y la precisión.
ultralíticos-yolov11

YOLOv11: Características y avances clave

YOLOv11, lanzado a fines de 2024, introdujo varias mejoras fundamentales destinadas a optimizar tanto la velocidad como la precisión de detección:

1. Red troncal basada en transformador

Una de las mejoras más notables de YOLOv11 es la transición de una arquitectura basada exclusivamente en CNN a una estructura principal basada en transformadores. Esto mejora la capacidad del modelo para comprender las relaciones espaciales globales, optimizando la detección de objetos complejos y superpuestos.

2. Diseño de cabezal dinámico

YOLOv11 incorpora un cabezal de detección dinámico que ajusta la potencia de procesamiento según la complejidad de la imagen. Esto se traduce en una asignación más eficiente de recursos computacionales y una mayor precisión en escenarios de detección complejos.

3. Entrenamiento sin NMS

Al eliminar la supresión no máxima (NMS) durante el entrenamiento, YOLOv11 mejora la velocidad de inferencia manteniendo la precisión de detección.

4. Asignación de doble etiqueta

Para mejorar la detección de objetos densamente empaquetados, YOLOv11 emplea una estrategia de asignación de etiquetas dual, utilizando técnicas de asignación de etiquetas tanto de uno a uno como de uno a muchos.

5. Autoatención parcial (APE)

YOLOv11 aplica selectivamente mecanismos de atención a regiones específicas del mapa de características, mejorando sus capacidades de representación global sin aumentar la sobrecarga computacional.

Puntos de referencia de rendimiento

  • Precisión media promedio (mAP):5%
  • Velocidad de inferencia:60 FPS
  • Recuento de parámetros:~ 40 millones
Miniatura de YOLO11

YOLOv12: La próxima evolución en Detección de objetos

YOLOv12, lanzado a principios de 2025, se basa en las innovaciones de YOLOv11 al tiempo que introduce optimizaciones adicionales destinadas a aumentar la eficiencia.

1. Módulo de Atención de Área (A2)

Este módulo optimiza el uso de los mecanismos de atención al dividir el mapa de características en áreas específicas, lo que permite un gran campo receptivo manteniendo la eficiencia computacional.

2. Redes de agregación de capas eficientes residuales (R-ELAN)

R-ELAN mejora la estabilidad del entrenamiento al incorporar conexiones residuales a nivel de bloque, lo que mejora tanto la velocidad de convergencia como el rendimiento del modelo.

3. Integración de FlashAttention

YOLOv12 presenta FlashAttention, una técnica de gestión de memoria optimizada que reduce los cuellos de botella de acceso, mejorando la eficiencia de inferencia del modelo.

4. Refinamientos arquitectónicos

Se han realizado varias mejoras estructurales, entre ellas:

  • Eliminación de la codificación posicional
  • Ajuste de la relación del perceptrón multicapa (MLP)
  • Reducir la profundidad del bloque
  • Aumentar el uso de operaciones de convolución para mejorar la eficiencia computacional

Puntos de referencia de rendimiento

  • Precisión media promedio (mAP):6%
  • Latencia de inferencia:64 ms (en la GPU T4)
  • Eficiencia: Supera a YOLOv10-N y YOLOv11-N en relación velocidad-precisión
ultralíticos-yolov12

YOLOv11 vs. YOLOv12: Una comparación directa

Característica

YOLOv11

YOLOv12

Columna vertebral

basado en transformador

Híbrido optimizado con atención de área

Cabeza de deteccion

Adaptación dinámica

Procesamiento mejorado con FlashAttention

Método de entrenamiento

Entrenamiento sin NMS

Técnicas eficientes de asignación de etiquetas

Técnicas de optimización

Autoatención parcial

R-ELAN con optimización de memoria

mapa

61.5%

40.6%

Velocidad de inferencia

60 FPS

Latencia de 1.64 ms (GPU T4)

Eficiencia Computacional

Alto

Más alto

Aplicaciones en todas las industrias

Tanto YOLOv11 como YOLOv12 sirven para una amplia gama de aplicaciones en el mundo real, lo que permite avances en varios campos:

1. Vehículos autónomos

La detección mejorada de objetos en tiempo real mejora la seguridad y la navegación en los automóviles autónomos, lo que permite una mejor detección de carriles, reconocimiento de peatones y evitación de obstáculos.

2. Atención sanitaria e imágenes médicas

La capacidad de detectar anomalías con alta precisión acelera el diagnóstico médico y la planificación del tratamiento, especialmente en radiología y patología.

3. Venta al por menor y gestión de inventario

El seguimiento automatizado de productos y el monitoreo de inventario reducen los costos operativos y mejoran la eficiencia de la gestión de existencias.

4 Vigilancia y seguridad

Las capacidades avanzadas de detección de amenazas hacen que estos modelos sean ideales para la videovigilancia inteligente y el monitoreo de multitudes.

5. Robótica y automatización industrial

Las capacidades de percepción mejoradas permiten a los robots realizar tareas complejas con mayor autonomía y precisión.

Tareas de YOLOv8

Direcciones futuras en el desarrollo de YOLO

A medida que la detección de objetos continúa evolucionando, varias áreas de investigación prometedoras podrían dar forma a las próximas iteraciones de YOLO:

  • Optimización de hardware mejorada:Adaptación de modelos para dispositivos edge e implementación móvil.
  • Aplicaciones de tareas ampliadas:Adaptación de YOLO para aplicaciones más allá de la detección de objetos, como la estimación de pose y la segmentación de instancias.
  • Metodologías de formación avanzadas:Integración de técnicas de aprendizaje autosupervisado y semisupervisado para mejorar la generalización y reducir la dependencia de los datos.
Detección de objetos

Conclusión

Tanto YOLOv11 como YOLOv12 representan hitos significativos en la evolución de la detección de objetos en tiempo real. Mientras que YOLOv11 destaca por su precisión gracias a su estructura basada en transformadores, YOLOv12 amplía los límites de la eficiencia computacional mediante innovadores mecanismos de atención y técnicas de procesamiento optimizadas.

La elección entre estos modelos depende, en última instancia, de los requisitos específicos de la aplicación, ya sea priorizando la precisión (YOLOv11) o la velocidad y la eficiencia (YOLOv12). A medida que avanza la investigación, el futuro de YOLO promete avances aún más revolucionarios en aprendizaje profundo y visión artificial.

Visite nuestro servicio de anotación de datos


Esto cerrará en 20 segundos