SO Development

De YOLO a SAM: La evolución de la detección y segmentación de objetos

Introducción

En el cambiante mundo de la visión artificial, pocas tareas han atraído tanta atención e impulsado tanta innovación como la detección y segmentación de objetos. Desde las primeras técnicas basadas en características creadas a mano hasta los modelos de IA avanzados actuales, capaces de segmentar cualquier cosa, el camino ha sido verdaderamente revolucionario. Uno de los puntos de inflexión más significativos se produjo con el lanzamiento de... YOLO (Solo se mira una vez) Familia de detectores de objetos, que enfatiza el rendimiento en tiempo real sin comprometer significativamente la precisión.

Avanzando rápidamente hasta 2023, surgió otro gran avance: Meta AI. Segmentar cualquier modelo (SAM)SAM representa un cambio hacia modelos de propósito general con capacidades de disparo cero, capaces de comprender y segmentar objetos arbitrarios, incluso aquellos que nunca han visto antes.

Este blog explora la fascinante trayectoria de la detección y segmentación de objetos, rastreando su linaje desde YOLO hasta SAM y descubriendo cómo el campo ha evolucionado para satisfacer las crecientes demandas de automatización, autonomía e inteligencia.

Los primeros días de la detección de objetos

Antes del auge del aprendizaje profundo, la detección de objetos era un proceso basado en reglas y computacionalmente costoso. El flujo de trabajo clásico implicaba:

  • Extracción de características utilizando técnicas como SIFT, HOG o SURF.

  • Propuesta de región utilizando ventanas deslizantes o búsqueda selectiva.

  • Clasificación utilizando modelos de aprendizaje automático tradicionales como SVM o árboles de decisión.

La falta de capacidad de entrenamiento de extremo a extremo y el alto costo computacional significaban que estos métodos a menudo eran lentos y poco confiables en condiciones del mundo real.

Detector Viola-Jones

Una de las primeras soluciones prácticas para la detección de rostros fue la Algoritmo de Viola-JonesCombinaba imágenes integrales y características similares a Haar con una cascada de clasificadores, demostrando una alta velocidad para su época. Sin embargo, era especializado y no generalizable a otras clases de objetos.

Modelos de piezas deformables (DPM)

Los DPM introdujeron cierta flexibilidad, tratando los objetos como composiciones de partes. Si bien obtuvieron resultados respetables en pruebas de rendimiento como PASCAL VOC, su dependencia de funciones personalizadas y una optimización compleja dificultaron la escalabilidad.

Los primeros días de la detección de objetos

La YOLO Revolution

El lanzamiento de YOLO en 2016 por Joseph Redmon marcó un cambio de paradigma significativo. YOLO introdujo un red neuronal de extremo a extremo que realizó simultáneamente la clasificación y la regresión del cuadro delimitador en una sola pasada hacia adelante.

YoLoV1 (2016)

  • Se trató la detección como un problema de regresión.

  • Dividió la imagen en una cuadrícula; cada celda de la cuadrícula predijo cuadros delimitadores y probabilidades de clase.

  • Conseguido velocidad en tiempo real (~45 FPS) con una precisión decente.

  • Inconveniente:Tuve dificultades con objetos pequeños y múltiples objetos muy juntos.

YOLOv2 y YOLOv3 (2017-2018)

  • Se introdujeron cuadros de anclaje para una mejor localización.

  • Se utilizaron Darknet-19 (v2) y Darknet-53 (v3) como redes troncales.

  • Se adoptó YOLOv3 detección multiescala, mejorando la precisión en objetos de distintos tamaños.

  • Superó a detectores anteriores como Faster R-CNN en velocidad y comenzó a cerrar la brecha de precisión.

De YOLOv4 a YOLOv7: Progreso liderado por la comunidad

Después de que Redmon se retiró del desarrollo, la comunidad dio un paso al frente.

  • YoLoV4 (2020):Se introdujeron las técnicas CSPDarknet, activación de Mish y Bolsa de regalos/Bolsa de especiales.

  • YoLoV5 (2020)Aunque no es oficial, YOLOv5 de Ultralytics se hizo popular debido a su base PyTorch y su facilidad de uso plug-and-play.

  • YOLOv6 y YOLOv7:Se incorporaron optimizaciones adicionales, estructuras troncales personalizadas y un mayor mAP en los conjuntos de datos COCO y VOC.

Estas iteraciones redujeron significativamente la brecha entre los detectores en tiempo real y sus contrapartes más lentas y precisas.

YOLOv8 a YOLOv12: Hacia arquitecturas modernas

  • YoLoV8 (2023):Enfocado en la modularidad, segmentación de instancias y usabilidad.

  • YOLOv9 a YOLOv12 (2024-2025): integrado transformadores, módulos de atención y comprensión del lenguaje visualacercando YOLO a las capacidades de modelos generalistas como SAM.

La revolución YOLO

CNN basadas en regiones: la familia R-CNN

Antes de YOLO, el marco dominante era CNN, desarrollado por Ross Girshick y su equipo.

R-CNN (2014)

  • Se generaron 2000 propuestas de regiones mediante búsqueda selectiva.

  • Se introdujo cada región en una CNN (AlexNet) para la extracción de características.

  • Características clasificadas de SVM; cuadros delimitadores refinados de regresión.

  • Preciso pero dolorosamente lento (~47 s/imagen en la GPU).

R-CNN rápida (2015)

  • Velocidad mejorada mediante el uso de una CNN compartida para toda la imagen.

  • Usado Agrupación de ROI para extraer características de tamaño fijo de las propuestas.

  • Mucho más rápido, pero todavía depende de métodos de propuesta de región externa.

R-CNN más rápido (2016)

  • Introdujo Red de Propuestas Regionales (RPN).

  • Capacitación completa de principio a fin.

  • Se convirtió en el estándar de oro en precisión durante varios años.

Máscara R-CNN

  • Se amplió Faster R-CNN añadiendo un rama de segmentación.

  • Los usuarios de la app Smart Spaces con Google Wallet disfrutan de acceso móvil sin contacto con cualquier lector HID® Signo™ con NFC. segmentación de instancia.

  • Extremadamente influyente, ampliamente adoptado en el ámbito académico y la industria.

 
La familia R-CNN

Detectores sin ancla: una nueva era

Las cajas de anclaje eran una muleta que añadía complejidad. Los investigadores buscaban sin ancla Enfoques para simplificar el entrenamiento y mejorar la generalización.

CornerNet y CentroNet

  • Predice directamente las esquinas o centros de los objetos.

  • Computación reducida y rendimiento mejorado en casos extremos.

FCOS (Detección de objetos de una etapa totalmente convolucional)

  • Se eliminaron anclas, propuestas y posprocesamiento.

  • Se trató la detección como un problema de predicción por píxel.

  • Inspiró métodos más nuevos en conducción autónoma y robótica.

Estos modelos presagiaron avances posteriores en predicción densa e inspiró enfoques de segmentación más flexibles.

Detectores sin ancla

El auge de los transformadores de visión

La revolución de la PNL provocada por los transformadores pronto se reflejó en la visión por computadora.

ViT (Transformador de visión)

  • Dividí las imágenes en parches y los procesé como palabras en PNL.

  • Escalabilidad demostrada con grandes conjuntos de datos.

DETR (Transformador de detección)

  • Detección de objetos de extremo a extremo mediante transformadores.

  • Sin NMS, anclas ni propuestas: solo predicciones directas.

  • Más lento pero más robusto y extensible.

Las variantes de DETR ahora sirven como columna vertebral para muchos modelos de segmentación, incluidos SAM.

DETR (Transformador de detección)

Segmentación en el punto de mira: de Mask R-CNN a DeepLab

Segmentación semántica vs. instancia vs. panóptica

  • Semántico:Clasifica cada píxel (por ejemplo, DeepLab).

  • Ejemplo:Distingue entre múltiples instancias de la misma clase (por ejemplo, Mask R-CNN).

  • Panóptico:Combina ambos (por ejemplo, Panoptic FPN).

Familia DeepLab (v1 a v3+)

  • Usado Circunvoluciones atróficas (dilatadas) para un mejor contexto.

  • Excelentes resultados de segmentación semántica.

  • A menudo se combina con CNN de red troncal o transformadores.

Estos enfoques sobresalieron en entornos estructurados pero carecían de generalidad.

De Mask R-CNN a DeepLab

Presentamos SAM: el modelo Segment Anything de Meta AI

Lanzado en 2023, SAM (Segment Anything Model) de Meta AI abrió nuevos caminos.

Generalización de disparo cero

  • entrenado en más de mil millones de mascarillas a través de 11 millones de imágenes.

  • ¿Puede segmentar? cualquier objeto con:

    • Mensaje de texto

    • Apuntar y hacer clic

    • Cuadro delimitador

    • Indicaciones de forma libre

Arquitectura

  • Sobre la base de un Columna vertebral de ViT.

  • Características:

    • Codificador de indicaciones

    • Codificador de imagen

    • Descodificador de máscara

  • Altamente paralelo y eficiente.

Puntos fuertes

  • Funciona de inmediato en conjuntos de datos no vistos.

  • Produce máscaras con píxeles perfectos.

  • Excelente en segmentación interactiva.

Análisis comparativo: YOLO vs. R-CNN vs. SAM

CaracterísticaYOLOMás rápido/Máscara R-CNNSAM
Speed (Rapidez)Gestión del riesgoDe media a lentaMedia
ExactitudAltoMuy AltaExtremadamente alto (a nivel de píxel)
SegmentaciónSólo en versiones recientesSegmentación de instancias fuerteUso general, disparo cero
usabilidad¡FácilRequiere ajusteConecta y reproduce
AplicacionesSistemas en tiempo realInvestigación y medicinaVisión multipropósito

SAM no es un reemplazo para YOLO o R-CNN sino más bien un herramienta complementaria para aplicaciones que requieren segmentación flexible e interactiva.

Aplicaciones en la Industria

Vehículos autónomos

  • YOLO: Detección de carriles y peatones.

  • Máscara R-CNN: Detección de límites de objetos.

  • SAM: Comprensión de entornos complejos, segmentación de objetos raros.

Sector Sanitario

  • Máscara R-CNN y DeepLab: Detección de tumores, segmentación de órganos.

  • SAM: Anotación de anomalías raras en exploraciones radiológicas con datos mínimos.

Agricultura

  • YOLO: Detección de plagas, malezas y cultivos.

  • SAM: Contar frutas o segmentar partes de plantas para análisis de rendimiento.

Comercio minorista y vigilancia

  • YOLO: Seguimiento de objetos en tiempo real.

  • SAM: Etiquetado de artículos en inventario o segmentación de multitudes.

Desafíos y limitaciones

  • YOLO:Todavía tiene dificultades con objetos extremadamente pequeños.

  • R-CNN: Computacionalmente intensiva.

  • SAM:

    • Uso intensivo de memoria GPU.

    • Puede sobresegmentar o subsegmentar en escenas saturadas.

    • Se necesita una mejor comprensión multimodal.

El futuro: hacia modelos de visión generalistas

Con modelos como GPT-4V y Gemini Al mostrar un razonamiento multimodal, la tendencia en la visión se dirige hacia modelos de cimientos que puede:

  • Comprender imágenes, vídeos y textos.

  • Detectar, describir y razonar sobre el contenido.

  • Realice segmentación, clasificación y generación, todo en uno.

la fusión de La velocidad de YOLO, La precisión de R-CNNy el ámbito La flexibilidad de SAM Podrían constituir la columna vertebral de la IA de próxima generación.

El futuro: hacia modelos de visión generalistas

Conclusión

Desde los avances en tiempo real de YOLO hasta las capacidades generalistas de SAM, la evolución de la detección y segmentación de objetos refleja la trayectoria más amplia de la propia IA: hacia faster, más inteligente, y más generalizable sistemas. Cada hito se ha basado en el anterior, acercándonos a máquinas que ven y comprenden el mundo como nosotros.

De cara al futuro, una cosa está clara: el futuro de la visión por computadora no reside en elegir entre YOLO y SAM, sino en integrando las fortalezas de ambos para construir sistemas de IA que sean tan Adaptable, rápido e inteligente como los desafíos que están diseñados para resolver.

Visita nuestro servicio de IA generativa


Esto cerrará en 20 segundos