Introducción
En el cambiante mundo de la visión artificial, pocas tareas han atraído tanta atención e impulsado tanta innovación como la detección y segmentación de objetos. Desde las primeras técnicas basadas en características creadas a mano hasta los modelos de IA avanzados actuales, capaces de segmentar cualquier cosa, el camino ha sido verdaderamente revolucionario. Uno de los puntos de inflexión más significativos se produjo con el lanzamiento de... YOLO (Solo se mira una vez) Familia de detectores de objetos, que enfatiza el rendimiento en tiempo real sin comprometer significativamente la precisión.
Avanzando rápidamente hasta 2023, surgió otro gran avance: Meta AI. Segmentar cualquier modelo (SAM)SAM representa un cambio hacia modelos de propósito general con capacidades de disparo cero, capaces de comprender y segmentar objetos arbitrarios, incluso aquellos que nunca han visto antes.
Este blog explora la fascinante trayectoria de la detección y segmentación de objetos, rastreando su linaje desde YOLO hasta SAM y descubriendo cómo el campo ha evolucionado para satisfacer las crecientes demandas de automatización, autonomía e inteligencia.
Los primeros días de la detección de objetos
Antes del auge del aprendizaje profundo, la detección de objetos era un proceso basado en reglas y computacionalmente costoso. El flujo de trabajo clásico implicaba:
Extracción de características utilizando técnicas como SIFT, HOG o SURF.
Propuesta de región utilizando ventanas deslizantes o búsqueda selectiva.
Clasificación utilizando modelos de aprendizaje automático tradicionales como SVM o árboles de decisión.
La falta de capacidad de entrenamiento de extremo a extremo y el alto costo computacional significaban que estos métodos a menudo eran lentos y poco confiables en condiciones del mundo real.
Detector Viola-Jones
Una de las primeras soluciones prácticas para la detección de rostros fue la Algoritmo de Viola-JonesCombinaba imágenes integrales y características similares a Haar con una cascada de clasificadores, demostrando una alta velocidad para su época. Sin embargo, era especializado y no generalizable a otras clases de objetos.
Modelos de piezas deformables (DPM)
Los DPM introdujeron cierta flexibilidad, tratando los objetos como composiciones de partes. Si bien obtuvieron resultados respetables en pruebas de rendimiento como PASCAL VOC, su dependencia de funciones personalizadas y una optimización compleja dificultaron la escalabilidad.

La YOLO Revolution
El lanzamiento de YOLO en 2016 por Joseph Redmon marcó un cambio de paradigma significativo. YOLO introdujo un red neuronal de extremo a extremo que realizó simultáneamente la clasificación y la regresión del cuadro delimitador en una sola pasada hacia adelante.
YoLoV1 (2016)
Se trató la detección como un problema de regresión.
Dividió la imagen en una cuadrícula; cada celda de la cuadrícula predijo cuadros delimitadores y probabilidades de clase.
Conseguido velocidad en tiempo real (~45 FPS) con una precisión decente.
Inconveniente:Tuve dificultades con objetos pequeños y múltiples objetos muy juntos.
YOLOv2 y YOLOv3 (2017-2018)
Se introdujeron cuadros de anclaje para una mejor localización.
Se utilizaron Darknet-19 (v2) y Darknet-53 (v3) como redes troncales.
Se adoptó YOLOv3 detección multiescala, mejorando la precisión en objetos de distintos tamaños.
Superó a detectores anteriores como Faster R-CNN en velocidad y comenzó a cerrar la brecha de precisión.
De YOLOv4 a YOLOv7: Progreso liderado por la comunidad
Después de que Redmon se retiró del desarrollo, la comunidad dio un paso al frente.
YoLoV4 (2020):Se introdujeron las técnicas CSPDarknet, activación de Mish y Bolsa de regalos/Bolsa de especiales.
YoLoV5 (2020)Aunque no es oficial, YOLOv5 de Ultralytics se hizo popular debido a su base PyTorch y su facilidad de uso plug-and-play.
YOLOv6 y YOLOv7:Se incorporaron optimizaciones adicionales, estructuras troncales personalizadas y un mayor mAP en los conjuntos de datos COCO y VOC.
Estas iteraciones redujeron significativamente la brecha entre los detectores en tiempo real y sus contrapartes más lentas y precisas.
YOLOv8 a YOLOv12: Hacia arquitecturas modernas
YoLoV8 (2023):Enfocado en la modularidad, segmentación de instancias y usabilidad.
YOLOv9 a YOLOv12 (2024-2025): integrado transformadores, módulos de atención y comprensión del lenguaje visualacercando YOLO a las capacidades de modelos generalistas como SAM.

CNN basadas en regiones: la familia R-CNN
Antes de YOLO, el marco dominante era CNN, desarrollado por Ross Girshick y su equipo.
R-CNN (2014)
Se generaron 2000 propuestas de regiones mediante búsqueda selectiva.
Se introdujo cada región en una CNN (AlexNet) para la extracción de características.
Características clasificadas de SVM; cuadros delimitadores refinados de regresión.
Preciso pero dolorosamente lento (~47 s/imagen en la GPU).
R-CNN rápida (2015)
Velocidad mejorada mediante el uso de una CNN compartida para toda la imagen.
Usado Agrupación de ROI para extraer características de tamaño fijo de las propuestas.
Mucho más rápido, pero todavía depende de métodos de propuesta de región externa.
R-CNN más rápido (2016)
Introdujo Red de Propuestas Regionales (RPN).
Capacitación completa de principio a fin.
Se convirtió en el estándar de oro en precisión durante varios años.
Máscara R-CNN
Se amplió Faster R-CNN añadiendo un rama de segmentación.
Los usuarios de la app Smart Spaces con Google Wallet disfrutan de acceso móvil sin contacto con cualquier lector HID® Signo™ con NFC. segmentación de instancia.
Extremadamente influyente, ampliamente adoptado en el ámbito académico y la industria.

Detectores sin ancla: una nueva era
Las cajas de anclaje eran una muleta que añadía complejidad. Los investigadores buscaban sin ancla Enfoques para simplificar el entrenamiento y mejorar la generalización.
CornerNet y CentroNet
Predice directamente las esquinas o centros de los objetos.
Computación reducida y rendimiento mejorado en casos extremos.
FCOS (Detección de objetos de una etapa totalmente convolucional)
Se eliminaron anclas, propuestas y posprocesamiento.
Se trató la detección como un problema de predicción por píxel.
Inspiró métodos más nuevos en conducción autónoma y robótica.
Estos modelos presagiaron avances posteriores en predicción densa e inspiró enfoques de segmentación más flexibles.

El auge de los transformadores de visión
La revolución de la PNL provocada por los transformadores pronto se reflejó en la visión por computadora.
ViT (Transformador de visión)
Dividí las imágenes en parches y los procesé como palabras en PNL.
Escalabilidad demostrada con grandes conjuntos de datos.
DETR (Transformador de detección)
Detección de objetos de extremo a extremo mediante transformadores.
Sin NMS, anclas ni propuestas: solo predicciones directas.
Más lento pero más robusto y extensible.
Las variantes de DETR ahora sirven como columna vertebral para muchos modelos de segmentación, incluidos SAM.

Segmentación en el punto de mira: de Mask R-CNN a DeepLab
Segmentación semántica vs. instancia vs. panóptica
Semántico:Clasifica cada píxel (por ejemplo, DeepLab).
Ejemplo:Distingue entre múltiples instancias de la misma clase (por ejemplo, Mask R-CNN).
Panóptico:Combina ambos (por ejemplo, Panoptic FPN).
Familia DeepLab (v1 a v3+)
Usado Circunvoluciones atróficas (dilatadas) para un mejor contexto.
Excelentes resultados de segmentación semántica.
A menudo se combina con CNN de red troncal o transformadores.
Estos enfoques sobresalieron en entornos estructurados pero carecían de generalidad.

Presentamos SAM: el modelo Segment Anything de Meta AI
Lanzado en 2023, SAM (Segment Anything Model) de Meta AI abrió nuevos caminos.
Generalización de disparo cero
entrenado en más de mil millones de mascarillas a través de 11 millones de imágenes.
¿Puede segmentar? cualquier objeto con:
Mensaje de texto
Apuntar y hacer clic
Cuadro delimitador
Indicaciones de forma libre
Arquitectura
Sobre la base de un Columna vertebral de ViT.
Características:
Codificador de indicaciones
Codificador de imagen
Descodificador de máscara
Altamente paralelo y eficiente.
Puntos fuertes
Funciona de inmediato en conjuntos de datos no vistos.
Produce máscaras con píxeles perfectos.
Excelente en segmentación interactiva.

Análisis comparativo: YOLO vs. R-CNN vs. SAM
| Característica | YOLO | Más rápido/Máscara R-CNN | SAM |
|---|---|---|---|
| Speed (Rapidez) | Gestión del riesgo | De media a lenta | Media |
| Exactitud | Alto | Muy Alta | Extremadamente alto (a nivel de píxel) |
| Segmentación | Sólo en versiones recientes | Segmentación de instancias fuerte | Uso general, disparo cero |
| usabilidad | ¡Fácil | Requiere ajuste | Conecta y reproduce |
| Aplicaciones | Sistemas en tiempo real | Investigación y medicina | Visión multipropósito |
SAM no es un reemplazo para YOLO o R-CNN sino más bien un herramienta complementaria para aplicaciones que requieren segmentación flexible e interactiva.
Aplicaciones en la Industria
Vehículos autónomos
YOLO: Detección de carriles y peatones.
Máscara R-CNN: Detección de límites de objetos.
SAM: Comprensión de entornos complejos, segmentación de objetos raros.
Sector Sanitario
Máscara R-CNN y DeepLab: Detección de tumores, segmentación de órganos.
SAM: Anotación de anomalías raras en exploraciones radiológicas con datos mínimos.
Agricultura
YOLO: Detección de plagas, malezas y cultivos.
SAM: Contar frutas o segmentar partes de plantas para análisis de rendimiento.
Comercio minorista y vigilancia
YOLO: Seguimiento de objetos en tiempo real.
SAM: Etiquetado de artículos en inventario o segmentación de multitudes.
Desafíos y limitaciones
YOLO:Todavía tiene dificultades con objetos extremadamente pequeños.
R-CNN: Computacionalmente intensiva.
SAM:
Uso intensivo de memoria GPU.
Puede sobresegmentar o subsegmentar en escenas saturadas.
Se necesita una mejor comprensión multimodal.
El futuro: hacia modelos de visión generalistas
Con modelos como GPT-4V y Gemini Al mostrar un razonamiento multimodal, la tendencia en la visión se dirige hacia modelos de cimientos que puede:
Comprender imágenes, vídeos y textos.
Detectar, describir y razonar sobre el contenido.
Realice segmentación, clasificación y generación, todo en uno.
la fusión de La velocidad de YOLO, La precisión de R-CNNy el ámbito La flexibilidad de SAM Podrían constituir la columna vertebral de la IA de próxima generación.

Conclusión
Desde los avances en tiempo real de YOLO hasta las capacidades generalistas de SAM, la evolución de la detección y segmentación de objetos refleja la trayectoria más amplia de la propia IA: hacia faster, más inteligente, y más generalizable sistemas. Cada hito se ha basado en el anterior, acercándonos a máquinas que ven y comprenden el mundo como nosotros.
De cara al futuro, una cosa está clara: el futuro de la visión por computadora no reside en elegir entre YOLO y SAM, sino en integrando las fortalezas de ambos para construir sistemas de IA que sean tan Adaptable, rápido e inteligente como los desafíos que están diseñados para resolver.

