AI Modelos de IA Anotación de datos
Modelo de IA YOLO26

YOLO26: La próxima evolución de la visión artificial en tiempo real

Introducción Durante casi una década, la familia YOLO (You Only Look Once) ha definido lo que significa la visión por computadora en tiempo real. Desde el revolucionario YOLOv1 en 2015 hasta sus sucesores cada vez más eficientes y precisos, cada generación ha ampliado los límites entre velocidad, precisión y capacidad de implementación. En 2026 llegó un nuevo hito. YOLO26 no es simplemente otra actualización incremental, representa un rediseño fundamental de cómo se entrenan, optimizan e implementan los sistemas de detección de objetos, especialmente para dispositivos de borde y sistemas de IA del mundo real. Desarrollado con una filosofía de vanguardia, YOLO26 presenta detección de extremo a extremo sin posprocesamiento tradicional, estabilidad mejorada durante el entrenamiento y capacidades de visión multitarea, lo que lo convierte en uno de los modelos de visión por computadora más prácticos jamás lanzados. Este artículo explora: ✅ La evolución que conduce a YOLO26 ✅ Innovaciones en la arquitectura ✅ Por qué es importante la detección sin NMS ✅ Mejoras en el rendimiento ✅ Aplicaciones del mundo real ✅ Cómo los desarrolladores pueden usar YOLO26 hoy ✅ El futuro de la IA de visión El viaje a YOLO26 La detección de objetos históricamente luchó con un difícil equilibrio: Los modelos más rápidos sacrificaron la precisión Los modelos precisos requerían un cálculo pesado La implementación en tiempo real siguió siendo difícil Las versiones anteriores de YOLO resolvieron gradualmente estos problemas: YOLOv5–v8 mejoraron la usabilidad y el entrenamiento modular YOLOv9–v11 introdujeron un aprendizaje de gradiente más inteligente y mejoras en la eficiencia YOLOv10 comenzó a moverse hacia canalizaciones de detección de extremo a extremo YOLO26 completa esta transición. En lugar de corregir las limitaciones con heurísticas adicionales, rediseña el proceso en sí. La investigación que analiza el modelo destaca que YOLO26 establece un nuevo equilibrio entre eficiencia y precisión, superando a muchos detectores anteriores tanto en velocidad como en precisión. ¿Qué es YOLO26? YOLO26 es un modelo de visión artificial multitarea en tiempo real optimizado para: Detección de objetos Segmentación de instancias Estimación de pose Seguimiento Clasificación A diferencia de los detectores anteriores, YOLO26 está diseñado principalmente para implementación en el borde, lo que significa que se ejecuta de manera eficiente en: CPU Dispositivos móviles Sistemas integrados Hardware de robótica Plataformas Jetson y ARM El modelo admite tamaños escalables, lo que permite a los desarrolladores elegir entre configuraciones livianas y de alta precisión según las restricciones del hardware. El mayor avance: detección sin NMS El problema con el YOLO tradicional Los modelos YOLO anteriores dependían de la supresión no máxima (NMS). NMS elimina los cuadros delimitadores duplicados después de la predicción, pero genera problemas: Latencia adicional Complejidad de ajuste de hiperparámetros Inestabilidad en escenas abarrotadas Inconsistencias en la implementación Solución YOLO26 YOLO26 elimina NMS por completo. En cambio, la detección se vuelve completamente de extremo a extremo: las predicciones se aprenden directamente durante el entrenamiento en lugar de filtrarse después. Este cambio: Reduce el tiempo de inferencia Simplifica la implementación Mejora la consistencia entre dispositivos Los investigadores señalan que eliminar el posprocesamiento heurístico resuelve la latencia de larga data frente a la latencia de larga duración. Compensaciones de precisión en los sistemas de detección de objetos. Innovaciones arquitectónicas clave YOLO26 introduce varios mecanismos nuevos. 1. Equilibrio de pérdida progresiva (ProgLoss) Los detectores de objetos de entrenamiento a menudo sufren gradientes inestables. ProgLoss ajusta dinámicamente el énfasis del aprendizaje durante el entrenamiento, lo que permite: Convergencia más rápida Generalización mejorada Optimización estable en conjuntos de datos pequeños 2. Asignación de etiquetas para objetivos pequeños (STAL) Los objetos pequeños son tradicionalmente difíciles de detectar. STAL mejora la asignación de etiquetas al priorizar objetos pequeños y distantes, lo que resulta fundamental para: Vigilancia Imágenes de drones Conducción autónoma Imágenes médicas 3. Optimizador MuSGD Inspirado en las estrategias de optimización utilizadas en modelos de IA de gran tamaño, MuSGD mejora: Estabilidad del entrenamiento Preparación para la cuantificación Implementación de baja precisión 4. Eliminación de la pérdida focal de distribución (DFL) Las versiones anteriores de YOLO utilizaban pérdidas de regresión de cuadro delimitador complejas. YOLO26 simplifica este proceso, lo que permite: Exportación más sencilla a ONNX/TensorRT Inferencia más rápida Menor sobrecarga de memoria En qué aspectos YOLOv1 falló y por qué es importante Las limitaciones de YOLOv1 no fueron accidentales: revelaron conocimientos profundos. Objetos pequeños La resolución de la cuadrícula limitó la granularidad de detección Los objetos pequeños a menudo desaparecían dentro de las celdas de la cuadrícula Escenas abarrotadas Una predicción de clase de objeto por celda Los objetos superpuestos confundían el modelo Precisión de localización Predicciones de cuadro delimitador gruesas Puntuaciones de IoU más bajas que los métodos basados ​​en regiones Cada debilidad se convirtió en una pregunta de investigación que impulsó YOLOv2, YOLOv3 y más allá. Filosofía de diseño Edge-First Uno de los objetivos definitorios de YOLO26 es la latencia predecible. Los modelos tradicionales estaban centrados en la GPU. YOLO26 se centra en: Aceleración de CPU Inferencia integrada Dispositivos de IA de bajo consumo Los puntos de referencia muestran mejoras significativas en la inferencia de CPU y un rendimiento confiable incluso sin GPU. Este cambio hace que la IA sea accesible más allá de los centros de datos. Mejoras de rendimiento YOLO26 mejora en tres ejes críticos: Velocidad Inferencia más rápida debido a la eliminación de NMS Sobrecarga computacional reducida Precisión Mejor detección de objetos pequeños Rendimiento mejorado en escenas densas Eficiencia Modelos más pequeños con mayor mAP Cuantización estable para implementación en el borde Los estudios que comparan YOLO26 con generaciones anteriores resaltan una versatilidad y eficiencia de implementación superiores en las plataformas de hardware de borde. Visión multitarea: un modelo, muchas tareas YOLO26 avanza hacia una IA con visión unificada. Las tareas admitidas incluyen: Detección Segmentación Estimación de pose Seguimiento Cuadros delimitadores orientados Esto reduce la necesidad de mantener modelos separados para cada tarea, lo que simplifica los procesos de producción. Aplicaciones en el mundo real YOLO26 abre nuevas posibilidades en todas las industrias. Sistemas autónomos Robots que navegan en entornos dinámicos Sistemas de inspección con drones Ciudades inteligentes Monitoreo de tráfico Análisis de multitudes Automatización de seguridad Asistencia sanitaria Asistencia con imágenes médicas en tiempo real Seguimiento de instrumentos quirúrgicos Fabricación Detección de defectos Automatización de control de calidad Venta minorista y logística Análisis de estanterías Automatización de almacenes Debido a que se ejecuta de manera eficiente en dispositivos de borde, el procesamiento puede ocurrir localmente, lo que mejora la privacidad y reduce los costos de la nube. Experiencia del desarrollador Una de las razones por las que YOLO se volvió dominante es la usabilidad, y YOLO26 continúa esa tradición. Los desarrolladores se benefician de: Canales de entrenamiento simples Exportación a múltiples tiempos de ejecución Ajuste sencillo Inferencia de video en tiempo real Flujo de trabajo típico: Preparar el conjunto de datos Entrenar usando pesos entrenados previamente Exportar modelo Implementar en el dispositivo de borde No se requiere una configuración compleja de posprocesamiento. YOLO26 frente a versiones anteriores de YOLO Característica YOLOv8–11 YOLO26 NMS requerido Sí No Optimización de borde Moderada Compatibilidad nativa con múltiples tareas Entrenamiento unificado parcial Estabilidad Buena Complejidad de implementación mejorada Media Baja YOLO26 marca la transición de detectores rápidos a sistemas de IA listos para la implementación. Desafíos y limitaciones A pesar de las mejoras, aún existen desafíos: Las escenas superpuestas densas siguen siendo difíciles El entrenamiento de grandes conjuntos de datos sigue siendo un proceso computacional intensivo La detección de vocabulario abierto es limitada La integración de transformadores aún está evolucionando Los modelos futuros pueden combinar la eficiencia de YOLO con el razonamiento del modelo base. El futuro después de YOLO26 YOLO26 señala un cambio más amplio en la visión por computadora: 👉 De IA centrada en GPU → IA de borde 👉 De tuberías → aprendizaje de extremo a extremo 👉 De tarea única → sistemas de percepción unificados Los desarrollos futuros pueden incluir: Integración de visión y lenguaje Detección autosupervisada Aprendizaje continuo en el dispositivo Pilas de percepción de IA autónomas Conclusión YOLO26 es más que una actualización de versión. Representa un cambio filosófico en la ingeniería de visión artificial: simplifica la arquitectura y mejora el rendimiento en el mundo real. Al eliminar cuellos de botella heredados como NMS, introducir estrategias de entrenamiento más inteligentes y priorizar la implementación en el borde, YOLO26 acerca la IA a donde más importa: el mundo real. A medida que la IA pasa de los laboratorios de investigación a los dispositivos cotidianos, modelos como

AI Modelos de IA Anotación de datos
El nacimiento de YOLO: Cómo YOLOv1 cambió la visión artificial para siempre

El nacimiento de YOLO: Cómo YOLOv1 cambió la visión artificial para siempre

Introducción Antes de YOLO, las computadoras no veían el mundo como lo hacen los humanos. Lo inspeccionaron lentamente, con cautela, una propuesta de objeto a la vez. La detección de objetos funcionó, pero estaba fragmentada, era computacionalmente costosa y estaba lejos de ser en tiempo real. Luego, en 2015, un solo artículo lo cambió todo. “Solo miras una vez: detección unificada de objetos en tiempo real” por Joseph Redmon et al. presentó YOLOv1, un modelo que redefinió cómo las máquinas perciben las imágenes. No fue sólo una mejora incremental, fue una revolución conceptual. Esta es la historia de cómo nació YOLOv1, cómo funcionó y por qué su impacto aún resuena en los sistemas de visión artificial modernos de la actualidad. Detección de objetos antes de YOLO: un mundo fragmentado Antes de YOLOv1, la investigación sobre detección de objetos estaba dominada por canales complejos unidos a partir de múltiples componentes independientes. Cada componente funcionaba razonablemente bien por sí solo, pero el sistema general era frágil, lento y difícil de optimizar. El proceso de detección clásico Un sistema típico de detección de objetos antes de 2015 se veía así: Propuesta de región hecha a mano o basada en heurísticas Búsqueda selectiva Cajas de borde Ventanas deslizantes (métodos anteriores) Extracción de características Características de CNN (AlexNet, VGG, etc.) Ejecutar por separado en cada región propuesta Clasificación Clasificadores SVM o softmax Un clasificador por región Regresión de cuadro delimitador Ajuste fino de las coordenadas del cuadro después de la clasificación Cada etapa se entrenó de forma independiente, a menudo con diferentes objetivos. Por qué esto fue un problema Cálculo redundanteLas mismas características de la imagen se volvieron a calcular cientos de veces. Sin contexto globalEl modelo nunca “vio” realmente la imagen completa a la vez. Fragilidad del oleoductoLos errores en las propuestas regionales nunca podrían recuperarse más adelante. Rendimiento deficiente en tiempo realIncluso Fast R-CNN tuvo dificultades para superar algunos FPS. La detección de objetos funcionó, pero parecía una solución alternativa y no una solución limpia. La filosofía YOLO: la detección como un único problema de aprendizaje YOLOv1 desafió la suposición dominante de que la detección de objetos debe ser un problema de múltiples etapas. En lugar de ello, planteó una pregunta radical: ¿por qué no predecir todo a la vez, directamente desde los píxeles? Un cambio conceptual YOLO reformuló la detección de objetos como: un único problema de regresión desde los píxeles de la imagen hasta los cuadros delimitadores y las probabilidades de clase. Esto significaba: No había propuestas de regiones. No había ventanas deslizantes. No había clasificadores separados. No había costura post-hoc. Solo una red neuronal, entrenada de extremo a extremo. Por qué esto es importante Este cambio: Simplificó el objetivo de aprendizaje Redujo la complejidad de ingeniería Permitió que los gradientes fluyeran a lo largo de toda la tarea de detección Permitió una verdadera inferencia en tiempo real YOLO no solo optimizó la detección, redefinió lo que era la detección. Cómo funciona YOLOv1: una nueva gramática visual YOLOv1 introdujo una forma estructurada para que las redes neuronales “describan” una imagen. Asignación de responsabilidad basada en cuadrícula La imagen se divide en una cuadrícula de S × S (comúnmente 7 × 7). Cada celda de la cuadrícula: Es responsable de los objetos cuyo centro se encuentra dentro de ella Predice cuadros delimitadores y probabilidades de clase Esto creó una priori espacial que ayudó a la red a razonar sobre dónde tienden a aparecer los objetos. Detalles de predicción del cuadro delimitador Cada celda de la cuadrícula predice B cuadros delimitadores, donde cada cuadro consta de: x, y → coordenadas centrales (relativas a la celda de la cuadrícula) w, h → ancho y alto (relativo a la imagen) puntaje de confianza El puntaje de confianza codifica: Pr(objeto) × IoU(cuadro predicho, verdad fundamental) Esto fue inteligente, obligó a la red a razonar conjuntamente sobre la objetividad y la calidad de la localización. Estrategia de predicción de clases En lugar de predecir clases por cuadro delimitador, YOLOv1 predijo: Un conjunto de probabilidades de clase por celda de la cuadrícula Esto redujo la complejidad pero introdujo limitaciones en escenas abarrotadas, una compensación que YOLOv1 aceptó conscientemente. Arquitectura YOLOv1: diseñada para el razonamiento global La arquitectura de red de YOLOv1 fue diseñada intencionalmente para capturar el contexto de la imagen global. Desglose de la arquitectura 24 capas convolucionales 2 capas completamente conectadas Inspirado en GoogLeNet (pero más simple) Preentrenado en la clasificación ImageNet Las capas completamente conectadas finales permitieron a YOLO: Combinar características espacialmente distantes Comprender las relaciones de los objetos Evitar falsos positivos causados ​​por patrones de textura locales Por qué es importante el contexto global Los detectores tradicionales a menudo confundían: Sombras con objetos Texturas con regiones significativas El razonamiento global de YOLO redujo estos errores al comprender la escena como un todo. La función de pérdida de YOLOv1: equilibrio entre objetivos en competencia El entrenamiento de YOLOv1 requirió resolver un delicado problema de optimización. Componentes de pérdida de varias partes La función de pérdida de YOLOv1 combinó: Pérdida de localización Errores en x, y, w, h Fuertemente ponderado para priorizar cuadros precisos Pérdida de confianza Predicciones de objetividad incorrectas penalizadas Pérdida de clasificación Predicciones de clase erróneas penalizadas Opciones de diseño inteligente Mayor peso para la regresión del cuadro delimitador Menor peso para la confianza de fondo Raíz cuadrada aplicada al ancho y la altura para estabilizar los gradientes Estas opciones de diseño influyeron directamente en cómo se construyeron las pérdidas de detección futuras. Velocidad vs. Precisión: Un compromiso consciente en el diseño YOLOv1 fue explícito acerca de sus prioridades. Posición de YOLO Una localización ligeramente peor es aceptable si permite una visión en tiempo real. Impacto en el rendimiento YOLOv1 funcionó un orden de magnitud más rápido que los detectores de la competencia Implementación habilitada en: Transmisiones de cámaras en vivo Sistemas robóticos Dispositivos integrados (con Fast YOLO) Esta compensación transformó la forma en que los investigadores evaluaban los sistemas de detección, no solo por la precisión, sino por la facilidad de uso. Dónde falló YOLOv1 y por qué es importante Las limitaciones de YOLOv1 no fueron accidentales: revelaron conocimientos profundos. Objetos pequeños La resolución de la cuadrícula limitó la granularidad de detección Los objetos pequeños a menudo desaparecían dentro de las celdas de la cuadrícula Escenas abarrotadas Una predicción de clase de objeto por celda Los objetos superpuestos confundían el modelo Precisión de localización Predicciones de cuadro delimitador gruesas Puntuaciones de IoU más bajas que los métodos basados ​​en regiones Cada debilidad se convirtió en una pregunta de investigación que impulsó YOLOv2, YOLOv3 y más allá. Por qué YOLOv1 cambió la visión artificial para siempre YOLOv1 no solo introdujo un modelo, introdujo una mentalidad. Aprendizaje de extremo a extremo como principio Los sistemas de detección se volvieron: Unificados Diferenciables Más fáciles de implementar y optimizar El tiempo real como una métrica de primera clase Después de YOLO: La velocidad ya no era opcional La inferencia en tiempo real se convirtió en una expectativa Un plan para futuros detectores Las arquitecturas modernas, tanto las basadas en CNN como las basadas en transformadores, heredan las ideas centrales de YOLO: Predicción densa Inferencia de una sola pasada Diseño consciente de la implementación Reflexión final: el día en que la detección se convirtió en visión YOLOv1 marcó el momento en que la detección de objetos dejó de ser un mosaico de trucos y se convirtió en un sistema de visión coherente. Enseñó al campo que: Ver rápido desbloquea nuevas realidades La simplicidad escala El aprendizaje de extremo a extremo cambia la forma en que las máquinas entienden el mundo YOLO no solo miró una vez. Hizo que la visión por computadora viera de manera diferente para siempre. Visite nuestro servicio de anotación de datos Visite ahora Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec

AI Modelos de IA
MedGemma de Google podría redefinir el uso de la IA en la atención médica

MedGemma de Google podría redefinir el uso de la IA en la atención médica

Introducción La inteligencia artificial ha estado presente en el ámbito sanitario durante años, diagnosticando imágenes, resumiendo notas clínicas y prediciendo riesgos, pero gran parte de su verdadero poder ha permanecido encerrado tras muros de propiedad privada. MedGemma de Google cambia esa ecuación. Al lanzar modelos de IA médica abiertos creados específicamente para contextos de atención médica, Google está señalando un cambio de la “IA como caja negra” a la IA como infraestructura compartida para la medicina. Este no es simplemente otro lanzamiento de modelo. MedGemma representa un cambio estructural en cómo se puede desarrollar, validar e implementar la IA en el ámbito sanitario. El problema de la IA en el ámbito sanitario hasta ahora La IA en el ámbito sanitario se ha enfrentado a tres desafíos persistentes: OpacidadMuchos modelos médicos de alto rendimiento son cerrados. Los médicos no pueden inspeccionarlos, los reguladores no pueden auditarlos completamente y los investigadores no pueden adaptarlos. Modelos generales, riesgos especializadosLos modelos de lenguaje de gran tamaño y propósito general no están diseñados para los matices clínicos. Los pequeños errores en medicina no son “casos extremos”, son un riesgo. Acceso desigualLa IA médica avanzada a menudo termina concentrándose en grandes hospitales, empresas emergentes bien financiadas o países de altos ingresos. El resultado es una paradoja: la IA muestra potencial en el ámbito de la atención sanitaria, pero la confianza, la escalabilidad y la equidad siguen sin resolverse. ¿Qué es MedGemma? MedGemma es una familia de modelos de inteligencia artificial médica de peso abierto lanzados por Google, construidos sobre la arquitectura Gemma pero adaptados específicamente para casos de uso biomédicos y de atención médica. Las características clave incluyen: Ajuste del dominio médico (lenguaje clínico, conceptos biomédicos) Pesos abiertos, que permiten la inspección, el ajuste y la implementación local Diseñado para un uso responsable, con un posicionamiento explícito como apoyo a la toma de decisiones, no como autoridad clínica En términos simples: MedGemma no está tratando de reemplazar a los médicos. Su objetivo es convertirse en un asistente fiable y transparente en el que los desarrolladores y las instituciones realmente puedan confiar. Por qué lo “abierto” es más importante en medicina que en cualquier otro lugar En la mayoría de las aplicaciones de consumo, los modelos cerrados son un inconveniente. En el ámbito sanitario son un riesgo. Transparencia y auditabilidad Los modelos abiertos permiten: Evaluación independiente de sesgos y modos de falla Escrutinio regulatorio Investigación reproducible Esto se alinea mucho mejor con la ética médica que "confíe en nosotros, funciona". Personalización para entornos clínicos reales Los hospitales difieren. Lo mismo ocurre con las poblaciones de pacientes. Los modelos abiertos se pueden ajustar para: Idiomas locales Prevalencia de enfermedades regionales Flujos de trabajo institucionales Las API cerradas no pueden ofrecer de manera realista esta profundidad de adaptación. Privacidad y soberanía de datos Con MedGemma, las organizaciones pueden: Ejecutar modelos en las instalaciones Mantener los datos de los pacientes dentro de los límites institucionales Cumplir con estrictas regulaciones de protección de datos Para los sistemas de atención médica, esto no es opcional, es obligatorio. Casos de uso potenciales que realmente tienen sentido MedGemma no es una solución milagrosa, pero permite aplicaciones realistas y de alto impacto: 1. Apoyo a la documentación clínica Redacción de resúmenes a partir de notas estructuradas Traducción entre lenguaje clínico y lenguaje amigable para el paciente Reducción del agotamiento de los médicos (de manera silenciosa, que es como los médicos lo prefieren) 2. Educación y capacitación médica Simulaciones de casos interactivos Preguntas y respuestas basadas en terminología médica Herramientas de capacitación médica localizadas en regiones de escasos recursos 3. Aceleración de la investigación Asistencia en la revisión de literatura Exploración de hipótesis Soporte de anotación de datos para conjuntos de datos médicos 4. Apoyo a la toma de decisiones (no toma de decisiones) Identificar posibles problemas Presentar directrices relevantes Ayudar, no reemplazar, el juicio clínico La distinción importa. MedGemma se posiciona como un copiloto, no como un piloto automático. Seguridad, responsabilidad y los límites de la IA Google ha sido explícito en una cosa: MedGemma no es una autoridad en diagnóstico. Esto es importante por dos razones: La realidad legal y la ética. La medicina requiere rendición de cuentas. La IA no puede rendir cuentas, las personas sí. Confianza a través de restriccionesLos modelos que reconocen abiertamente sus límites son más confiables que aquellos que pretenden omnisciencia. El verdadero valor de MedGemma radica en apoyar la experiencia humana, no en competir con ella. Cómo MedGemma podría cambiar el panorama de la inteligencia artificial en la atención médica de productos a plataformas En lugar de comprar herramientas de IA opacas, los hospitales pueden construir sus propios sistemas sobre bases abiertas. Del bloqueo de proveedores a los ecosistemas Los investigadores, las empresas emergentes y las instituciones pueden colaborar en las mejoras en lugar de duplicar esfuerzos a puertas cerradas. De la “bombo publicitario de la IA” a la realidad clínica La evaluación abierta fomenta la evaluación comparativa realista, el análisis de fallos y la mejora incremental, exactamente como avanza la medicina. El panorama más amplio: democratizar la IA médica La desigualdad en la atención médica no solo tiene que ver con el acceso a los médicos, sino también con el acceso al conocimiento. Modelos abiertos de IA médica: Reducir las barreras para las regiones con bajos recursos Permitir la innovación local Reducir la dependencia de proveedores externos Si se utiliza de manera responsable, MedGemma podría ayudar a garantizar que los beneficios de la IA médica no se limiten a los pocos que pueden pagarlos. Reflexiones finales MedGemma de Google no es revolucionario porque sea potente. Es revolucionario porque es abierto, prioriza la medicina y está limitado por la responsabilidad. En un campo donde la confianza importa más que la capacidad bruta, eso puede ser exactamente lo que la IA en el ámbito sanitario necesita. La verdadera transformación no vendrá de que la IA reemplace a los médicos, sino de que los médicos finalmente tengan una IA que puedan comprender, adaptar y en la que puedan confiar. Visite nuestro servicio de anotación de datos Visite ahora Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut Elit Elit, luctus ncp Mattis Ullamcorper, pulvinar dapibus leo.

AI Modelos de IA
El SAM 3 de Meta rompe las reglas de la detección de objetos en tiempo real

El SAM 3 de Meta rompe las reglas de la detección de objetos en tiempo real

Introducción Durante años, la detección de objetos en tiempo real ha seguido el mismo modelo rígido: definir un conjunto cerrado de clases, recopilar conjuntos de datos etiquetados masivos, entrenar un detector, agregar un segmentador y luego conectar un rastreador para video. Este oleoducto funcionó, pero era frágil, costoso y fundamentalmente limitado. Cualquier cambio de entorno, tipo de objeto o tarea a menudo implicaba empezar de nuevo. El modelo Segment Anything 3 (SAM 3) de Meta rompe este ciclo por completo. Como se describe en el análisis de Coding Nexus, SAM 3 no es solo una mejora en la precisión o la velocidad: es un replanteamiento estructural de cómo deberían funcionar la detección, la segmentación y el seguimiento de objetos en los sistemas de visión artificial modernos. SAM 3 reemplaza la detección basada en clases con comprensión basada en conceptos, lo que permite la segmentación y el seguimiento en tiempo real utilizando indicaciones simples en lenguaje natural. Este cambio tiene profundas implicaciones en la robótica, la realidad aumentada y virtual, el análisis de video, la creación de conjuntos de datos y los sistemas de inteligencia artificial interactivos. 1. El problema central de la detección de objetos tradicional Antes de entender por qué es importante SAM 3, es importante entender qué fue lo que falló. 1.1 Definiciones de clase rígida Los detectores clásicos (YOLO, Faster R-CNN, SSD) operan en un conjunto de etiquetas fijo. Si falta una categoría de objeto (o incluso si está ligeramente redefinida), el modelo falla. “Perro” podría funcionar, pero “perro pequeño mojado tirado en el suelo” no. 1.2 Tuberías fragmentadas Un sistema de visión en tiempo real típico implica: Un detector de cuadros delimitadores Un segmentador de máscaras de píxeles Un rastreador de consistencia temporal Cada componente tiene sus propios modos de falla, sobrecarga de configuración y compensaciones de rendimiento. 1.3 Dependencia de datos Cada nueva tarea requiere nuevas anotaciones. Recopilar y etiquetar datos a menudo cuesta más que entrenar el modelo en sí. SAM 3 aborda directamente las tres cuestiones. 2. El gran avance conceptual de SAM 3: de las clases a los conceptos La innovación más importante de SAM 3 es el paso de la detección basada en clases a la segmentación basada en conceptos. En lugar de preguntar: "¿Hay un auto en esta imagen?" SAM 3 responde: "Muéstrame todo lo que coincida con este concepto". Ese concepto se puede expresar como: una frase de texto corta un grupo de sustantivos descriptivos o un ejemplo visual Este enfoque se llama Segmentación de Conceptos Prompttable (PCS). Por qué esto es importante Los conceptos son abiertos No se requiere volver a capacitarse El mismo modelo funciona en imágenes y videos La comprensión semántica reemplaza la taxonomía rígida Esto cambia fundamentalmente la forma en que los humanos interactúan con los sistemas de visión. 3. Detección, segmentación y seguimiento unificados SAM 3 elimina la tradicional cadena de suministro de múltiples etapas. Lo que hace SAM 3 en una sola pasada Detecta todas las instancias de un concepto Produce máscaras con precisión de píxeles Asigna identidades persistentes en todos los fotogramas de vídeo A diferencia de las versiones anteriores de SAM, que segmentaban un objeto por solicitud, SAM 3 devuelve todas las instancias coincidentes simultáneamente, cada una con su propia identidad para su seguimiento. Esto hace que la comprensión del video en tiempo real sea mucho más sólida, especialmente en escenas concurridas o dinámicas. 4. Cómo funciona SAM 3 (arquitectura de alto nivel) Si bien el artículo de Medium evita las matemáticas de bajo nivel, destaca varias ideas arquitectónicas clave: 4.1 Alineación entre lenguaje y visión Las indicaciones de texto se integran en el mismo espacio de representación que las características visuales, lo que permite la correspondencia semántica entre palabras y píxeles. 4.2 Detección consciente de la presencia SAM 3 no solo segmenta: primero determina si existe un concepto en la escena, lo que reduce los falsos positivos y mejora la precisión. 4.3 Memoria temporal Para video, SAM 3 mantiene memoria interna para que los objetos permanezcan consistentes incluso cuando: están parcialmente ocluidos temporalmente fuera del cuadro cambian de forma o escala Es por eso que SAM 3 puede reemplazar a los rastreadores independientes. 5. Implicaciones para el rendimiento en tiempo real Una idea clave del artículo es que el tiempo real ya no significa modelos simplificados. SAM 3 demuestra que: Segmentación de alta calidad Comprensión de vocabulario abierto El seguimiento de múltiples objetos puede coexistir en un único sistema en tiempo real, siempre que la arquitectura sea unificada en lugar de modular. Esto redefine las expectativas de lo que pueden ofrecer los sistemas de visión en “tiempo real”. 6. Impacto en la creación y anotación de conjuntos de datos Una de las consecuencias más inmediatas de SAM 3 es su efecto en las canalizaciones de datos. Anotación tradicional Etiquetado manual Tiempos de respuesta largos Alto costo por imagen o cuadro Con SAM 3 La segmentación basada en indicaciones genera máscaras instantáneamente Los humanos pasan del etiquetado a la verificación La creación de conjuntos de datos escala drásticamente más rápido Esto es especialmente relevante para industrias como la conducción autónoma, las imágenes médicas y la robótica, donde los datos etiquetados son un cuello de botella. 7. Nuevas posibilidades en video y medios interactivos SAM 3 permite patrones de interacción completamente nuevos: Edición de video basada en texto Búsqueda semántica dentro de transmisiones de video Efectos de AR en vivo basados ​​en descripciones, no en objetos predefinidos Por ejemplo: "Resalte todos los objetos en movimiento excepto las personas". Estas instrucciones eran poco prácticas con los detectores clásicos, pero se vuelven naturales con el enfoque basado en conceptos de SAM 3. 8. Comparación con versiones anteriores de SAM Característica SAM / SAM 2 SAM 3 Cantidad de objetos por solicitud Uno Todas las instancias coincidentes Seguimiento de video Limitado / externo Nativo Vocabulario Implícito Abierto Complejidad de canalización Moderado Unificado Uso en tiempo real Experimental Práctico SAM 3 no es un refinamiento, es un cambio generacional. 9. Limitaciones actuales A pesar de su potencia, SAM 3 no es una solución milagrosa: Los requisitos de cómputo siguen siendo significativos El razonamiento complejo (instrucciones de varios pasos) requiere agentes externos La implementación perimetral sigue siendo un desafío sin destilación Sin embargo, estas son restricciones de ingeniería, no conceptuales. 10. Por qué SAM 3 representa un cambio estructural en la visión por computadora SAM 3 cambia el rol de la detección de objetos en los sistemas de IA: De la percepción rígida → comprensión flexible De las etiquetas → lenguaje De las tuberías → modelos unificados Como se enfatiza en el artículo de Coding Nexus, este cambio es comparable al salto de la búsqueda de palabras clave a la búsqueda semántica en PNL. Reflexiones finales El SAM 3 de Meta no solo mejora la detección de objetos, sino que redefine el modo en que los humanos especifican la intención visual. Al hacer del lenguaje la interfaz y de los conceptos la unidad de comprensión, SAM 3 acerca la visión computacional a cómo las personas perciben el mundo naturalmente. A largo plazo, SAM 3 se centra menos en máscaras de segmentación y más en un futuro en el que los sistemas de visión entiendan lo que queremos decir, no sólo lo que etiquetamos. Visite nuestro servicio de anotación de datos Visitar ahora

AI Modelos de IA
Dentro de SAM 3: La próxima generación del modelo Segment Anything de Meta

Dentro de SAM 3: La próxima generación del modelo Segment Anything de Meta

Introducción En visión artificial, la segmentación solía parecer el “trabajo manual” de la IA: hacer clic aquí, dibujar un cuadro allí, corregir esa máscara, repetir unas miles de veces, tratar de no llorar. El modelo Segment Anything (SAM) original de Meta convirtió ese esfuerzo en un truco de magia de apuntar y hacer clic: toca unos pocos píxeles y obtendrás una máscara de objeto limpia. SAM 2 avanzó aún más en los videos, incorporando segmentación en tiempo real para escenas en movimiento. Ahora llega SAM 3 como el siguiente gran paso: no solo segmentar las cosas en las que haces clic, sino segmentar los conceptos que describes. En lugar de indicar manualmente cada objeto, puedes decir “todos los taxis amarillos” o “jugadores con camisetas rojas” y dejar que el modelo encuentre, segmente y rastree cada instancia coincidente en imágenes y videos. Este blog analiza en profundidad SAM 3: qué es, en qué se diferencia de sus predecesores, qué significa realmente “Segmentación de conceptos programable” y cómo cambia la forma en que pensamos sobre los modelos de base visual. 1. De SAM a SAM 3: una breve cronología Antes de sumergirnos en SAM 3, es útil dar un paso atrás y ver cómo llegamos hasta aquí. SAM (v1): Clic para segmentar El SAM original introdujo una idea poderosa: un modelo de segmentación generalista y grande que podía segmentar “cualquier cosa” dadas indicaciones visuales: puntos, cuadros o máscaras aproximadas. Se entrenó en un conjunto de datos masivo y diverso y mostró un sólido rendimiento de segmentación de disparo cero en muchos dominios. SAM 2: Imágenes y vídeos en tiempo real SAM 2 extendió el concepto al vídeo, tratando una imagen como un simple vídeo de un fotograma y añadiendo un mecanismo de memoria de transmisión para soportar la segmentación en tiempo real en secuencias largas. Mejoras clave en SAM 2: Modelo unificado para imágenes y videos Memoria de transmisión para un procesamiento de video eficiente Motor de datos de modelo en bucle para construir un gran conjunto de datos de segmentación de video SA-V Pero SAM 2 todavía seguía el mismo patrón de interacción: especifica una ubicación particular (punto/cuadro/máscara) y obtiene una instancia de objeto a la vez. SAM 3: De "este objeto" a "este concepto" SAM 3 cambia el juego al introducir la Segmentación de Conceptos Promptable (PCS): en lugar de decir "segmentar el objeto bajo este clic", puede decir "segmentar cada perro en este video" y obtener: Todas las instancias de ese concepto Máscaras de segmentación para cada instancia Identidades consistentes para cada instancia en todos los fotogramas (seguimiento) En otras palabras, SAM 3 ya no es solo una herramienta de segmentación, es un modelo unificado de detección, segmentación y seguimiento de vocabulario abierto para imágenes y videos. 2. ¿Qué es exactamente SAM 3? En esencia, SAM 3 es un modelo de base unificado para la segmentación programática en imágenes y vídeos que opera a partir de indicaciones conceptuales. Capacidades principales Según el lanzamiento y la descripción técnica de Meta, SAM 3 puede: Detectar y segmentar objetos Dado un texto o una indicación visual, SAM 3 encuentra todas las instancias de objetos coincidentes en una imagen o un video y devuelve máscaras de instancias. Seguimiento de objetos a lo largo del tiempo Para el vídeo, SAM 3 mantiene identidades estables, por lo que se puede seguir el mismo objeto a lo largo de los fotogramas. Trabajar con múltiples tipos de indicaciones Texto: “autobús escolar amarillo”, “persona que lleva una mochila” Ejemplos de imágenes: ejemplos de cuadros/máscaras de un objeto Indicaciones visuales: puntos, cuadros, máscaras (estilo SAM 2) Indicaciones combinadas: p. ej., “automóvil rojo” + un ejemplo, para un control aún más preciso Admite segmentación de vocabulario abierto No depende de un conjunto cerrado de clases predefinidas. En lugar de ello, utiliza indicaciones lingüísticas y ejemplos para generalizar nuevos conceptos. Escala a grandes colecciones de imágenes y videos SAM 3 está diseñado explícitamente para manejar el problema de “encontrar todo como X” en grandes conjuntos de datos, no solo en un solo cuadro. En comparación con SAM 2, SAM 3 formaliza PCS y agrega comprensión de conceptos basada en el lenguaje al tiempo que preserva (y mejora) las capacidades de segmentación interactiva de versiones anteriores. 3. Segmentación de conceptos programable (PCS): La gran idea “Segmentación de conceptos programable” es la nueva tarea central que aborda SAM 3. Proporciona una solicitud de concepto y el modelo devuelve máscaras + ID para todos los objetos que coinciden con ese concepto. Las indicaciones conceptuales pueden ser: Indicaciones de texto Frases nominales simples como “manzana roja”, “gato rayado”, “jugador de fútbol de azul”, “coche en el carril izquierdo”. Ejemplares de imágenes Cuadros de ejemplo positivos/negativos alrededor de objetos que te interesan. Indicaciones combinadas Texto + ejemplos, p. ej., “camión de reparto” más un cuadro delimitador de ejemplo para guiar el modelo. Esto es fundamentalmente diferente de las indicaciones visuales clásicas de estilo SAM: Característica SAM / SAM 2 SAM 3 (PCS) Tipo de indicación Visual (puntos/cuadros/máscaras) Texto, ejemplos, visual o combinaciones Salida por indicación Una instancia por interacción Todas las instancias del concepto Alcance de la tarea Local, a nivel de instancia Global, a nivel de concepto en todos los marcos Vocabulario Implícito, no impulsado por el lenguaje Vocabulario abierto a través de texto + ejemplos Esto significa que puede hacer cosas como: "Encuentre todas las motocicletas en este video de tráfico de 10 minutos". "Segmente a todas las personas que usan cascos en un conjunto de datos de un sitio de construcción". "Contar todas las manzanas verdes versus las manzanas rojas en un escaneo de almacén". Todo sin hacer clic manualmente en cada objeto. El sueño de una “segmentación a escala similar a una consulta” está mucho más cerca de la realidad. 4. Bajo el capó: cómo funciona SAM 3 (conceptualmente) Meta ha publicado una descripción general y ha publicado en código abierto la implementación de referencia a través de GitHub y centros de modelos como Hugging Face. Si bien los detalles exactos de la implementación se encuentran en el documento y el código oficiales, los ingredientes de alto nivel se ven más o menos así: Columna vertebral de visión Un potente codificador de imágenes y videos transforma cada cuadro en una rica representación de características espaciotemporales. Codificador de conceptos (lenguaje + ejemplos) Los mensajes de texto se codifican utilizando un modelo de lenguaje o un codificador de texto. Los ejemplos visuales (por ejemplo, cuadros/máscaras alrededor de un objeto de ejemplo) se codifican como características visuales. El sistema fusiona todo esto en una integración de conceptos que representa “lo que estás pidiendo”. Fusión de visión y estímulo La incorporación de conceptos interactúa con las características visuales (por ejemplo, a través de la atención) para resaltar las regiones que corresponden al concepto solicitado. Cabezal de segmentación de instancias A partir del mapa de características fusionadas, el modelo produce: Máscaras binarias/suaves Identificadores de instancias Cuadros o puntuaciones de detección opcionales Componente temporal para seguimiento Para video, SAM 3 utiliza mecanismos inspirados en la memoria de transmisión de SAM 2 para mantener identidades consistentes para los objetos en todos los cuadros, lo que permite un seguimiento de conceptos eficiente a lo largo del tiempo. Se puede pensar en SAM 3 como “SAM 2 + un potente motor de conceptos de lenguaje de visión”, envuelto en un único modelo unificado. 5. SAM 3 vs SAM 2 y detectores tradicionales ¿Cómo se compara realmente SAM 3?

AI Modelos de IA LLM
Ajuste fino de modelos YOLO con un proceso automatizado de etiquetado de datos

Ajuste fino de modelos YOLO con un proceso automatizado de etiquetado de datos

Introducción. El ajuste fino de un modelo YOLO es un esfuerzo específico para adaptar detectores potentes y preentrenados a un dominio específico. Lo difícil no es la red. Se trata de obtener los datos etiquetados correctamente, a gran escala y con una calidad repetible. Un sistema automatizado de etiquetado de datos combina preetiquetas asistidas por modelos, aprendizaje activo, pseudoetiquetado, datos sintéticos y verificación humana para entregar esos datos de forma rápida y económica. Esta guía muestra por qué ese flujo de trabajo es importante, cómo encajan sus etapas y qué controles y métricas mantienen el ciclo fiable para que pueda pasar de un pequeño conjunto de datos iniciales a un detector listo para producción con un coste predecible y ganancias cuantificables. Público objetivo y supuestos Esta guía asume que: Utilizas YOLO (v8+ o similar de la familia Ultralytics). Tienes acceso a recursos de GPU modestos (1–8 GPU). Puede ejecutar una interfaz de usuario de etiquetado con ingesta previa de etiquetas (CVAT, Label Studio, Roboflow, Supervisely). Su objetivo es la implementación en producción en la nube o en el borde. Pipeline de extremo a extremo (alto nivel) Ingesta de datos: cámaras, dispositivos móviles, vídeo grabado, conjuntos de datos públicos, cargas de clientes. Preprocesamiento: extracción de fotogramas, deduplicación, agrupación de escenas, captura de metadatos. Preetiquetado: ejecutar un detector de línea base para crear sugerencias de modelos. Intervención humana: los anotadores corrigen las predicciones. Aprendizaje activo: seleccionar las imágenes más informativas para su revisión humana. Pseudoetiquetado: el modelo del profesor etiqueta imágenes sin etiquetar con alta confianza. Combinar, seleccionar, ampliar y convertir a YOLO/COCO. Modelo de ajuste fino. Experimentos de seguimiento. Exportar, optimizar, implementar. Monitorear y reentrenar. Diseñar cada etapa para su automatización mediante enlaces API y control de versiones para conjuntos de datos y especificaciones. Recopilación y organización de datos. Entradas y señales a recopilar para cada archivo: ID de origen, marca de tiempo, metadatos de la cámara, ID de escena, ID de vídeo de origen, ID del cargador. Metadatos de la etiqueta: ID del anotador, aprobación de la revisión, confianza de la anotación, fuente de la etiqueta (humana/pseudo/preetiqueta/sintética). Almacenar procedencia. Utilice la agrupación de escenas/vídeos para crear divisiones de entrenamiento/validación que eviten la fuga de señal. Conjuntos de datos objetivo: Semilla: 500–2,000 imágenes diversas con etiquetas humanas (depende de la tarea). Grupo de escalado: 10k–100k+ fotogramas sin etiquetar para pseudo/AL. Validación: 500–2,000 imágenes estrictamente verificadas por humanos. Nunca mezcles pseudoetiquetas en la validación. Ontología y especificación de etiquetas: Mantenga el conjunto de clases mínimo y preciso. Evite las clases que se superponen. Elabore una especificación breve: reglas de inclusión, umbrales de oclusión, objetos truncados, política de objetos pequeños. Incluya entre 10 y 20 imágenes de ejemplo por regla. Versionar la especificación y requerir aprobación antes del etiquetado masivo. Realice un seguimiento del linaje de las etiquetas en una base de datos ligera o en un almacén de metadatos. Preetiquetado (asistido por modelo) ¿Por qué?: acelera a los anotadores de 2 a 10 veces. Cómo: Ejecutar un YOLO de referencia (preentrenado) en un grupo de datos no etiquetados. Guarda las predicciones en formato estándar (.txt o COCO JSON). Importar predicciones como una capa de anotación en la interfaz de usuario. Marque los recuadros delimitadores con confianza de predicción. Para aumentar el rendimiento, solo se mostrarán a los anotadores las imágenes que superen un umbral de puntuación mínimo o cuyas clases predichas estén ausentes en el conjunto de datos. Comando práctico (Ultralytics): yolo detect predict model=yolov8n.pt source=/data/pool imgsz=640 conf=0.15 save=True Ajuste conf para controlar el esfuerzo de anotación. Consulte la documentación de ajuste fino de Ultralytics para obtener más detalles. Flujo de trabajo con intervención humana y flujo de trabajo de control de calidad: Importar las K imágenes preetiquetadas principales a la interfaz de usuario de anotación. Presentar recuadros predichos editables por el anotador. Demuestra seguridad en ti mismo. Aplicar la revisión de control de calidad a una muestra estratificada. En caso de desacuerdo, se requerirá una segunda revisión. Marcar las imágenes con casos ambiguos para su revisión por un especialista. Controles de calidad: Seguimiento de la concordancia entre anotadores. Muestreo aleatorio de auditoría. Comprobaciones automáticas de la validez de los cuadros delimitadores. Registrar las métricas de control de calidad y utilizarlas en la ponderación del conjunto de datos. Aprendizaje activo: estrategias de selección. El aprendizaje activo reduce las necesidades de etiquetado al concentrar el esfuerzo humano. Utilice una puntuación de selección híbrida: Puntuación de selección = α·incertidumbre + β·novedad + γ·diversidad Donde: incertidumbre = 1 − confianza_máxima_clase en todas las detecciones. novedad = distancia en el espacio de características desde el conjunto etiquetado (usar características de la columna vertebral). diversidad = puntuación de agrupamiento para evitar imágenes redundantes. Funciones de adquisición comunes: Muestreo de incertidumbre (baja confianza). Muestreo de margen (diferencia entre las dos puntuaciones de clase superiores). Selección del conjunto principal (cobertura máxima). Incertidumbre ponderada por densidad (priorizar las imágenes inciertas en regiones densas). Estudios recientes sobre aprendizaje activo muestran mejoras sistemáticas y una notable mejora en la eficiencia del muestreo. Utilice conjuntos o MC-Dropout para obtener estimaciones de incertidumbre mejoradas. Pseudoetiquetado y expansión semi-supervisada El pseudoetiquetado permite expandir datos etiquetados de forma económica. Riesgos: las cajas ruidosas perjudican el aprendizaje. Controles: Fuerza del profesor: se prefiere un modelo de profesor de alta calidad (mayor número de profesores o conjunto). Umbrales duales: confianza_de_clasificación ≥ T_cls (por ejemplo, 0.9). calidad_localización ≥ T_loc (por ejemplo, proxy IoU o métrica de varianza del centro). Ponderación: agregue pseudo muestras con un peso de pérdida menor w_pseudo (por ejemplo, 0.1–0.5) o utilice la reponderación de muestras según la confianza del profesor. Filtrado: aplique filtros guiados por densidad o por consistencia de puntuación para eliminar los falsos positivos densos. Entrenamiento de consistencia: aumentar los pseudoejemplos y forzar predicciones estables (pérdida de consistencia). Métodos seminales como PseCo y sus seguimientos detallan pseudoetiquetas con reconocimiento de localización y entrenamiento de consistencia. Estos enfoques mejoran la fiabilidad de las pseudoetiquetas y el rendimiento posterior. Datos sintéticos y aleatorización de dominios Cuando los datos reales son escasos o peligrosos de recopilar, genere imágenes sintéticas. Buenas prácticas: Utilice la aleatorización del dominio: varíe la iluminación, las texturas, los fondos, la posición de la cámara, el ruido y la oclusión. Mezcla datos sintéticos y reales: realiza un preentrenamiento con datos sintéticos y luego afina el ajuste con un pequeño conjunto de datos reales. Validar en un conjunto de validación real reservado. Las métricas de validación sintéticas a menudo sobreestiman el rendimiento real; siempre verifique con datos reales. Estudios recientes en fabricación y robótica confirman estas contrapartidas. Herramientas: Blender+Python, Unity Perception, NVIDIA Omniverse Replicator. Guarda los metadatos de segmentación/máscara/instancia para tareas posteriores. La política de aumento (práctica) de YOLO se beneficia de un aumento fuerte sobre la marcha al principio del entrenamiento y de un aumento reducido en las pasadas finales. Política por fases sugerida: Fase 1 (calentamiento, épocas 0–20): aumento agresivo. Mosaico, MixUp, escala aleatoria, fluctuación de color, desenfoque, corrupción JPEG. Fase 2 (entrenamiento medio, épocas 21–60): aumento moderado. Mantener Mosaico pero con menor probabilidad. Fase 3 (ajuste final, últimas 10-20% épocas): aumento mínimo para permitir que el modelo se estabilice. Notas: Mosaic ayuda al aprendizaje de objetos pequeños pero puede introducir un contexto poco natural. Reducir la probabilidad de mosaico en las fases finales. Utiliza CutMix o copiar y pegar para equilibrar las clases poco frecuentes. No aumente las divisiones de validación o prueba. La documentación de Ultralytics incluye detalles específicos sobre el aumento de datos y la configuración recomendada. Recetas de ajuste fino de YOLO (detalladas) Elija el modelo inicial en función del equilibrio entre latencia y precisión: Iteración / prototipado: yolov8n (nano) o yolov8s (pequeño). Producción: yolov8m o yolov8l/x dependiendo del objetivo. Receta estándar: Preparar data.yaml: train: /data/train/images val: /data/val/images nc: names: ['class0','class1',…] 2. Etapa 1 — solo cabeza: yolo detect train model=yolov8n.pt data=data.yaml epochs=25 imgsz=640 batch=32 freeze=10 lr0=0.001 3. Etapa 2 — descongelar modelo completo: yolo detect train model=runs/train/weights/last.pt data=data.yaml epochs=75 imgsz=640 batch=16 lr0=0.0003 4. Barrido final: reducir la tasa de aprendizaje, desactivar las mejoras pesadas, entrenar durante unas pocas épocas para estabilizar. Notas sobre hiperparámetros: Optimizador: SGD con momento 0.9 suele generalizar mejor para la detección. AdamW trabaja para una convergencia rápida. LR: calentamiento, se recomienda la función de decaimiento coseno. Iniciar LR basado

AI Modelos de IA LLM
¿Qué modelo LLM ofrece el mejor valor?

¿Qué modelo LLM ofrece el mejor valor?

Introducción En 2025, elegir el modelo de lenguaje grande (LLM) adecuado será una cuestión de valor, no de publicidad. La verdadera medida del rendimiento es qué tan bien un modelo equilibra el costo, la precisión y la latencia bajo cargas de trabajo reales. Cada token cuesta dinero, cada retraso afecta la experiencia del usuario y cada respuesta incorrecta agrega un trabajo oculto. El mercado ahora se centra en tres líderes: OpenAI, Google y Anthropic. El GPT-4o mini de OpenAI se centra en la eficiencia equilibrada, la línea Gemini 2.5 de Google abarca desde Pro de alta gama hasta niveles Flash económicos, y Claude Sonnet 4.5 de Anthropic ofrece máxima precisión de razonamiento a un precio superior. Esta guía los compara lado a lado para mostrar qué modelo ofrece el mejor rendimiento por dólar para su caso de uso específico. Instantánea de precios (representativa) Proveedor Modelo/Nivel Entrada ($/MTok) Salida ($/MTok) Notas OpenAI GPT-4o mini $0.60 $2.40 Entradas en caché disponibles; equilibradas para chat y RAG. Antrópico Claude Sonnet 4.5 $3 $15 Alto costo de producción; se destaca en razonamientos difíciles y carreras largas. Google Gemini 2.5 Pro $1.25 $10 Fuerte rendimiento multimodal; escalonado por encima de 200k tokens. Google Gemini 2.5 Flash $0.30 $2.50 Baja latencia, alto rendimiento. Posibilidad de descuentos por lotes. Google Gemini 2.5 Flash-Lite $0.10 $0.40 La opción de menor costo para transformaciones y etiquetado en masa. Precisión: elija por costo de falla Las tablas de clasificación públicas cambian rápidamente. Patrón típico: – Claude Sonnet 4.5 a menudo gana en razonamientos complejos o de largo horizonte. Espere menos respuestas "casi correctas". – Gemini 2.5 Pro es fuerte como generalista multimodal y maneja bien las tareas que requieren mucha visión. – GPT-4o mini proporciona una precisión estable y "suficientemente buena" para flujos de RAG y chat comunes a bajo costo unitario. Regla de oro: si un error obliga a una costosa revisión humana o a la pérdida de clientes, compre precisión. De lo contrario, compre rendimiento. Latencia y rendimiento – Gemini Flash / Flash-Lite: diseñado para un bajo tiempo hasta el primer token y una alta tasa de decodificación. Bueno para pipelines de alto volumen en tiempo real.– GPT-4o / 4o mini: streaming rápido y predecible; potente para UX de chat interactivo.– Claude Sonnet 4.5: responsivo en modo normal; los modos de "pensamiento" extendidos intercambian latencia por corrección. Úselo selectivamente. Valor por carga de trabajo Carga de trabajo Modelo(s) recomendado(s) ¿Por qué RAG? Chat / Soporte / Preguntas frecuentes GPT-4o mini; Gemini Flash Precio de salida bajo; transmisión rápida; comportamiento estable. Resumen masivo / etiquetado Gemini Flash / Flash-Lite Precio unitario más bajo y descuentos por lote para un alto rendimiento. Razonamiento complejo / agentes de múltiples pasos Claude Sonnet 4.5 Mayor corrección en el primer paso; menos reintentos. UX multimodal (texto + imágenes) Gemini 2.5 Pro; GPT-4o mini Gemini para visión; GPT-4o mini para una UX equilibrada de modo mixto. Copilotos de codificación Claude Sonnet 4.5; GPT-4.x Mejor para ediciones largas y comportamiento agente; validar en repositorios reales. Un protocolo de evaluación práctica 1. Definir el éxito por ruta: exactitud, tasa de citas, pase@1, tasa de rechazo, latencia p95 y costo/tarea correcta.2. Construya un conjunto de evaluación de 100 a 300 elementos a partir de tickets reales y casos extremos.3. Pruebe tres presupuestos por modelo: salidas a corto, medio y largo plazo. Costo de la pista y latencia p95.4. Agregue un presupuesto de reintento de 1. Si lo común es "reintentar y luego pasar", el modelo más barato puede costar más en general.5. Bloquear un ganador por ruta y volver a ejecutarlo trimestralmente. Ejemplos de costos (aproximados) Escenario: 100 000 llamadas/día. 300 tokens de entrada/250 de salida cada uno. – GPT-4o mini ≈ $66/día– Gemini 2.5 Flash-Lite ≈ $13/día– Claude Sonnet 4.5 ≈ $450/día Estos son ilustrativos. Concéntrese en el coste por tarea correcta, no en el precio unitario bruto. Manual de implementación 1) Segmentar por riesgos: bajo riesgo -> Flash-Lite/Flash. Experiencia de usuario general -> GPT-4o mini. Alto riesgo -> Claude Sonnet 4.5.2) Limitar las salidas: establecer límites de generación estrictos y pautas de estilo concisas.3) Almacenar en caché de forma agresiva: los avisos del sistema y los andamiajes RAG son los principales candidatos.4) Proteger y verificar: validadores livianos para esquemas JSON, citas y unidades.5) Observar todo: tokens de registro, latencia p50/p95, pass@1 y costo por tarea correcta.6) Negociar las palancas empresariales: SLA, capacidad reservada, descuentos por volumen. Consejos específicos del modelo: GPT-4o mini: punto ideal para RAG y chat combinados. Utilice entradas almacenadas en caché para solicitudes reutilizables. – Gemini Flash / Flash-Lite: predeterminado para pipelines de millones de elementos. Combine Batch + almacenamiento en caché.– Gemini 2.5 Pro: aumente para necesidades de visión intensiva o mayor precisión por encima de Flash.– Claude Sonnet 4.5: habilite el razonamiento extendido solo cuando lo que está en juego justifique una salida más lenta. P: ¿Puede un modelo cubrir todas las rutas? R: Sí, pero en algún lugar pagará de más o entregará de menos. P: ¿Las tablas de clasificación lo deciden?R: Úsalas para hacer una lista corta. Tus evaluaciones deciden. P: ¿Cuándo subir de nivel?R: Cuando el pase @1 en tus evaluaciones se estanca por debajo del objetivo y los reintentos agotan el presupuesto. P: ¿Cuándo bajar de nivel?R: Cuando los resultados son cortos, estables y la tolerancia del usuario a variaciones menores es alta. Conclusión Los LLM modernos ganan con una curación de datos disciplinada, una arquitectura pragmática y una capacitación sólida. Los mejores equipos ejecutan un ciclo: implementan, observan, recopilan, sintetizan, alinean y vuelven a implementar. La recuperación fundamenta la verdad. La optimización de preferencias moldea el comportamiento. La cuantificación y la dosificación proporcionan escala. Por encima de todo, la evaluación debe ser continua y estar alineada con el negocio. Utilice las listas de verificación para poner en práctica. Comience con algo pequeño, instrumente todo y vaya iterando el volante. Visite nuestro servicio de recopilación de datos Visitar ahora

AI Modelos de IA
Comparación de YOLOv12 y YOLOv13: La evolución de la detección de objetos en tiempo real

Comparación de YOLOv12 y YOLOv13: La evolución de la detección de objetos en tiempo real

Introducción En el acelerado mundo de la visión artificial, la detección de objetos siempre ha estado a la vanguardia de la innovación. Desde las técnicas básicas de ventana deslizante hasta los modernos detectores alimentados por transformador, el campo ha logrado avances monumentales en precisión, velocidad y eficiencia. Entre los avances más transformadores en este dominio se encuentra la familia YOLO (You Only Look Once), una arquitectura de detección de objetos que revolucionó la detección en tiempo real. Con cada nueva iteración, YOLO ha aportado mejoras tangibles y redefinido lo que es posible en la detección en tiempo real. YOLOv12, lanzado a fines de 2024, estableció un nuevo punto de referencia en el equilibrio de velocidad y precisión en dispositivos perimetrales y entornos de nube. Avanzamos rápidamente hasta mediados de 2025 y YOLOv13 supera aún más los límites. Este blog proporciona una comparación detallada, característica por característica, entre YOLOv12 y YOLOv13, analizando cómo YOLOv13 mejora a su predecesor, los cambios arquitectónicos centrales, los puntos de referencia de rendimiento, los casos de uso de implementación y lo que estos significan para los investigadores y desarrolladores. Si es un científico de datos, un ingeniero de ML o un entusiasta de la IA, este análisis profundo le brindará la claridad para elegir el mejor modelo para sus necesidades, o incluso contribuir al futuro de la detección en tiempo real. Breve historia de YOLO: de YOLOv1 a YOLOv12 La arquitectura YOLO fue presentada por Joseph Redmon en 2016 con la promesa de “Solo miras una vez”, un cambio radical con respecto a los métodos de propuesta de región como R-CNN y Fast R-CNN. A diferencia de estos, YOLO predice cuadros delimitadores y probabilidades de clase directamente desde la imagen de entrada en una sola pasada hacia adelante. El resultado: velocidad increíble con precisión competitiva. Desde entonces, la familia ha evolucionado rápidamente: YOLOv3 introdujo una predicción multiescala y una mejor estructura (Darknet-53). YOLOv4 agregó aumento de mosaico, pérdida de CIoU y conexiones parciales entre etapas. YOLOv5 (impulsado por la comunidad) enfatizó la modularidad y la facilidad de implementación. YOLOv7 introdujo módulos E-ELAN y detección sin anclaje. YOLOv8–YOLOv10 se centró en la integración con PyTorch, ONNX, cuantificación y transmisión en tiempo real. YOLOv11 dio un salto con el preentrenamiento autosupervisado. YOLOv12, lanzado a fines de 2024, agregó soporte para datos intermodales, modelado de contexto grande y transformadores de visión eficientes. YOLOv13 es la culminación de todos estos esfuerzos, basándose en la sólida base de v12 con importantes mejoras en la arquitectura, el conocimiento del contexto y la optimización del cómputo. Descripción general de YOLOv12 YOLOv12 fue un hito importante. Introdujo varios componentes novedosos: Cabezal de detección mejorado con transformador con atención dispersa para una mejor detección de objetos pequeños. Red troncal híbrida (bloques Ghost + Swin) para una extracción de características eficiente. Admite detección temporal de múltiples cuadros, lo que mejora el rendimiento de la transmisión de video. Generación de ancla dinámica usando K-means++ durante el entrenamiento. El entrenamiento liviano con capacidad de cuantificación (QAT) permitió una implementación de borde optimizada sin necesidad de volver a entrenar. Fue la primera versión de YOLO que no solo apuntó a imágenes estáticas, sino también a canales de video en tiempo real, transmisiones de drones y cámaras IoT mediante procesamiento de cuadros dinámicos. Descripción general de YOLOv13 YOLOv13 representa un gran avance. El equipo de desarrollo se centró en tres pilares: inteligencia contextual, adaptabilidad del hardware y eficiencia del entrenamiento. Las innovaciones clave incluyen: YOLO-TCM (módulos de contexto temporal) que aprenden relaciones espacio-temporales a través de marcos. Enrutamiento dinámico de tareas (DTR) que permite el cálculo condicional dependiendo de la complejidad de la escena. Transformadores eficientes de bajo rango (LoRET) para dependencias de mayor alcance con menos parámetros. Cuantización de costo cero (ZQ) que permite una conversión casi sin pérdida a INT8 sin necesidad de realizar ajustes finos. Programador YOLO-Flex, que ajusta la complejidad de inferencia en tiempo real según el presupuesto de batería o latencia. En conjunto, estas mejoras hacen que YOLOv13 sea adecuado para IA adaptativa en tiempo real, computación de borde, vehículos autónomos y aplicaciones de RA. Diferencias arquitectónicas Componente YOLOv12 YOLOv13 Backbone GhostNet + Swin Hybrid FlexFormer con profundidad dinámica Neck PANet + Atención CBAM FPN de doble ruta + Detección de memoria temporal Transformador de cabeza con atención dispersa Transformador LoRET + Enmascaramiento dinámico Mecanismo de anclaje K-means++ dinámico sin anclaje + Cuadrícula adaptativa Tubería de entrada Mosaico + MixUp + CutMix Mezcladores de visión + Muestreo de cuadros Capa de salida NMS + Filtrado de confianza Soft-NMS + Decodificación basada en consultas Comparación del rendimiento: velocidad, precisión y eficiencia Resultados del conjunto de datos COCO Métrica YOLOv12 (640 px) YOLOv13 (640 px) mAP@[0.5:0.95] 51.2% 55.8% FPS (Tesla T4) 88 93 Parámetros 38 M 36 M FLOP 94 B 76 B Implementación móvil (Edge TPU) Variante del modelo YOLOv12-Tiny YOLOv13-Tiny mAP@0.5 42.1% 45.9% Latencia (ms) 18ms 13ms Consumo de energía 2.3W 1.7W YOLOv13 ofrece mayor precisión con menos cálculos, lo que lo hace ideal para entornos con limitaciones de energía. Mejoras en la red troncal de YOLOv13 La nueva red troncal FlexFormer es fundamental para el éxito de YOLOv13. Integra etapas convolucionales para codificación espacial temprana Emplea capas de atención dispersa en profundidad media para conocimiento contextual Utiliza un programador dinámico de profundidad, adaptando la profundidad del modelo por imagen Esta estructura dinámica significa que las imágenes más simples pueden pasar a través de caminos poco profundos, mientras que las complejas utilizan capas más profundas, ahorrando recursos durante la inferencia. Integración de transformadores y fusión de características YOLOv13 pasa de una atención de cuadrícula fija a cabezales de decodificación basados en consultas utilizando LoRET (transformadores eficientes de bajo rango). Ventajas clave: Maneja mejor la oclusión Mejora la detección de objetos de cola larga Mantiene la inferencia en tiempo real (<10 ms/fotograma) Además, las redes piramidales de características de ruta dual permiten una mejor fusión de características de múltiples escalas sin aumentar el uso de memoria. Canales de entrenamiento mejorados YOLOv13 presenta un canal de entrenamiento más inteligente: Calentamiento de tasa de aprendizaje adaptativo Destilación de etiquetas suaves de versiones anteriores Bucles de autorrefinamiento que ajustan los objetivos de detección a mitad del entrenamiento Aumento de datos basado en el conjunto de datos basado en estadísticas de escena Como resultado, el entrenamiento es entre un 20 % y un 30 % más rápido en conjuntos de datos grandes y requiere menos épocas para la convergencia. Aplicaciones en la Industria Vehículos Autónomos YOLO: Detección de carriles y peatones. Máscara R-CNN: Detección de límites de objetos. SAM: Comprensión de entornos complejos, segmentación de objetos raros. Máscara de atención médica R-CNN y DeepLab: detección de tumores, segmentación de órganos. SAM: Anotación de anomalías raras en exploraciones radiológicas con datos mínimos. Agricultura YOLO: Detección de plagas, malezas y cultivos. SAM: Contar frutas o segmentar partes de plantas para análisis de rendimiento. Retail & Surveillance YOLO: Seguimiento de objetos en tiempo real. SAM: Etiquetado de artículos en inventario o segmentación de multitudes. Cuantización e implementación de borde YOLOv13 se centra principalmente en la implementación en el mundo real: Admite ZQ (cuantización de costo cero) directamente desde el modelo de precisión completa Se puede implementar en ONNX, CoreML, TensorRT y WebAssembly Funciona de inmediato con Edge TPU, Jetson Nano, Snapdragon NPU e incluso Raspberry Pi 5 YOLOv12 ya era liviano, pero YOLOv13 expande los objetivos de implementación y simplifica la conversión. Evaluación comparativa entre conjuntos de datos Conjunto de datos YOLOv12 mAP YOLOv13 mAP Ganancias notables COCO 51.2 % 55.8 % Mejor recuperación de objetos pequeños OpenImages 46.1 % 49.5 % Menor sensibilidad al ruido de etiqueta BDD100K 62.8 % 66.7 % Detección temporal mejorada YOLOv13 supera consistentemente a YOLOv12 en conjuntos de datos estándar y del mundo real, con mejoras notables en escenas nocturnas, desenfoque de movimiento y objetos densos. Aplicaciones del mundo real YOLOv12 se destaca en: Seguimiento de objetos con drones Análisis de imágenes estáticas Sistemas de vigilancia livianos YOLOv13 aporta ventajas a: Conducción autónoma

AI Modelos de IA Modelos de IA Anotación de datos
Los 5 mejores consejos para entrenar a YOLO: Domina la detección de objetos con confianza

Los 5 mejores consejos para entrenar a YOLO: Domina la detección de objetos con confianza

Introducción En la era de la visión computacional en tiempo real, YOLO (You Only Look Once) ha revolucionado la detección de objetos con su velocidad, precisión y simplicidad de extremo a extremo. Desde los sistemas de vigilancia hasta los automóviles autónomos, los modelos YOLO están en el corazón de muchas aplicaciones de visión actuales. Ya sea que sea un ingeniero de aprendizaje automático, un aficionado o forme parte de un equipo de IA empresarial, lograr que YOLO funcione de manera óptima en su conjunto de datos personalizado es tanto una ciencia como un arte. En esta guía completa, compartiremos los 5 consejos esenciales más importantes para entrenar modelos YOLO, respaldados por conocimientos prácticos, ejemplos del mundo real y fragmentos de código que lo ayudarán a ajustar su proceso de entrenamiento. Consejo 1: Organice y estructure su conjunto de datos para alcanzar el éxito 1.1 La calidad del etiquetado es más importante que la cantidad ✅ Utilice cuadros delimitadores ajustados: asegúrese de que las etiquetas se alineen con precisión con los bordes de los objetos. ✅ Evite el ruido de etiquetas: las clases incorrectas o las etiquetas inconsistentes confunden su modelo. ❌ No etiquete en exceso: evite dibujar cuadros para objetos de fondo o elementos ambiguos. Herramientas recomendadas: LabelImg, Roboflow Annotate, CVAT. 1.2 Mantener el equilibrio de clases Remuestrear las clases subrepresentadas. Utilice funciones de pérdida ponderada (YOLOv8 admite cls_weight). Ampliar las imágenes de clases minoritarias de forma más agresiva. 1.3 Siga la estructura de carpetas correcta /dataset/ ├── images/ │ ├── train/ │ ├── val/ ├── labels/ │ ├── train/ │ ├── val/ Cada archivo de etiqueta debe seguir este formato: Todos los valores están normalizados entre 0 y 1. Consejo 2: Domine el arte de la ampliación de datos. El objetivo no es tener más datos, sino una mejor variación. 2.1 Usar aumentos YOLO integrados Aumento en mosaico Cambio de espacio de color HSV Rotación y traslación Escalado y recorte aleatorios MixUp (en YOLOv5) Configuración de muestra (YOLOv5 data/hyp.scratch.yaml): hsv_h: 0.015 hsv_s: 0.7 hsv_v: 0.4 grados: 0.0 traducir: 0.1 escala: 0.5 flipud: 0.0 fliplr: 0.5 2.2 Aumento personalizado con albumentations import albumentations as A transform = A.Compose([ A.HorizontalFlip(p=0.5), A.RandomBrightnessContrast(p=0.2), A.Cutout(num_holes=8, max_h_size=16, max_w_size=16, p=0.3), ]) Consejo 3: Optimice los hiperparámetros como un profesional 3.1 Aprendizaje La tasa es King YOLOv5: 0.01 (predeterminado) YOLOv8: 0.001 a 0.01 según el tamaño del lote/optimizador 💡 Consejo: utilice Cosine Decay o One Cycle LR para una convergencia más suave. 3.2 Tamaño de lote y resolución de imagen Tamaño de lote: máximo que su GPU pueda manejar. Tamaño de la imagen: 640×640 estándar, 416×416 para velocidad, 1024×1024 para detalle. 3.3 Usar la evolución de hiperparámetros de YOLO python train.py –evolve 300 –data coco.yaml –weights yolov5s.pt Consejo 4: Aprovechar el aprendizaje por transferencia y los modelos preentrenados 4.1 Comenzar con pesos preentrenados YOLOv5: yolov5s.pt, yolov5m.pt, yolov5l.pt, yolov5x.pt YOLOv8: yolov8n.pt, yolov8s.pt, yolov8m.pt, yolov8l.pt yolo task=detect mode=train model=yolov8s.pt data=data.yaml epochs=100 imgsz=640 4.2 Congelar capas inferiores (ajuste fino) yolo task=detect mode=train model=yolov8s.pt data=data.yaml epochs=50 freeze=10 Consejo 5: Monitorear, evaluar e iterar sin descanso 5.1 Métricas clave 5.2 Visualizar predicciones yolo mode=val model=best.pt data=data.yaml save=True 5.3 Usar TensorBoard o ClearML tensorboard –logdir runs/train Otras herramientas: ClearML, Weights & Biases, CometML 5.4 Validar con datos del mundo real Siempre pruebe en condiciones de implementación reales: iluminación, ángulos, calidad de la cámara, etc. Consejos adicionales 🔥 Realice una optimización de la velocidad de inferencia: yolo export model=best.pt format=onnx Use modelos más pequeños para la implementación de Edge: YOLOv8n o YOLOv5n Consideraciones finales La capacitación YOLO es un proceso que combina buenos datos, una configuración reflexiva y un aprendizaje iterativo. Si bien las configuraciones predeterminadas pueden brindarle resultados decentes, la verdadera magia ocurre cuando: Comprende sus datos Personaliza su estrategia de aumento y entrenamiento Evalúa y perfecciona continuamente Al aplicar estos cinco consejos, no solo mejorará el rendimiento de su modelo YOLO, sino que también acelerará su flujo de trabajo de desarrollo con confianza. Recursos adicionales: YOLOv5 en GitHub, YOLOv8 en GitHub, Documentación de Ultralytics, Blog de Roboflow sobre YOLO. Visite nuestro servicio de anotación de datos. Visite ahora.

AI Modelos de IA
De YOLO a SAM: La evolución de la detección y segmentación de objetos

De YOLO a SAM: La evolución de la detección y segmentación de objetos

Introducción En el mundo en rápida evolución de la visión artificial, pocas tareas han atraído tanta atención y han impulsado tanta innovación como la detección y segmentación de objetos. Desde las primeras técnicas que dependían de características creadas a mano hasta los modelos de IA avanzados actuales capaces de segmentar cualquier cosa, el viaje ha sido nada menos que revolucionario. Uno de los puntos de inflexión más importantes se produjo con el lanzamiento de la familia de detectores de objetos YOLO (You Only Look Once), que enfatizó el rendimiento en tiempo real sin comprometer significativamente la precisión. Avanzamos rápidamente hasta 2023, y surgió otro gran avance: el Segment Anything Model (SAM) de Meta AI. SAM representa un cambio hacia modelos de propósito general con capacidades de disparo cero, capaces de entender y segmentar objetos arbitrarios, incluso aquellos que nunca han visto antes. Este blog explora la fascinante trayectoria de la detección y segmentación de objetos, rastreando su linaje desde YOLO hasta SAM y descubriendo cómo el campo ha evolucionado para satisfacer las crecientes demandas de automatización, autonomía e inteligencia. Los primeros días de la detección de objetos Antes del renacimiento del aprendizaje profundo, la detección de objetos era un proceso basado en reglas y computacionalmente costoso. El proceso clásico implicaba: extracción de características mediante técnicas como SIFT, HOG o SURF. Propuesta de región mediante ventanas deslizantes o búsqueda selectiva. Clasificación utilizando modelos de aprendizaje automático tradicionales como SVM o árboles de decisión. La falta de capacidad de entrenamiento de extremo a extremo y el alto costo computacional significaban que estos métodos a menudo eran lentos y poco confiables en condiciones del mundo real. Detector Viola-Jones Una de las primeras soluciones prácticas para la detección de rostros fue el algoritmo Viola-Jones. Combinó imágenes integrales y características similares a Haar con una cascada de clasificadores, demostrando alta velocidad para su época. Sin embargo, era especializado y no podía generalizarse a otras clases de objetos. Modelos de piezas deformables (DPM) Los DPM introdujeron cierta flexibilidad al tratar los objetos como composiciones de piezas. Si bien lograron resultados respetables en puntos de referencia como PASCAL VOC, su dependencia de funciones diseñadas a mano y una optimización compleja obstaculizaron la escalabilidad. La revolución YOLO El lanzamiento de YOLO en 2016 por Joseph Redmon marcó un cambio de paradigma significativo. YOLO introdujo una red neuronal de extremo a extremo que realizaba simultáneamente la clasificación y la regresión del cuadro delimitador en una sola pasada hacia adelante. YOLOv1 (2016) trató la detección como un problema de regresión. Dividió la imagen en una cuadrícula; cada celda de la cuadrícula predijo cuadros delimitadores y probabilidades de clase. Se logró una velocidad en tiempo real (~45 FPS) con una precisión decente. Desventaja: Tiene dificultades con objetos pequeños y múltiples objetos muy juntos. YOLOv2 y YOLOv3 (2017-2018) Se introdujeron cuadros de anclaje para una mejor localización. Se utilizaron Darknet-19 (v2) y Darknet-53 (v3) como redes troncales. YOLOv3 adoptó la detección multiescala, mejorando la precisión en objetos de distintos tamaños. Superó a detectores anteriores como Faster R-CNN en velocidad y comenzó a cerrar la brecha de precisión. YOLOv4 a YOLOv7: progreso liderado por la comunidad Después de que Redmon se retiró del desarrollo, la comunidad dio un paso al frente. YOLOv4 (2020): Se introdujeron las técnicas CSPDarknet, activación de Mish y Bolsa de regalos/Bolsa de especiales. YOLOv5 (2020): Aunque no es oficial, YOLOv5 de Ultralytics se hizo popular debido a su base PyTorch y su facilidad de uso plug-and-play. YOLOv6 y YOLOv7: trajeron optimizaciones adicionales, redes troncales personalizadas y mayor mAP en los conjuntos de datos COCO y VOC. Estas iteraciones redujeron significativamente la brecha entre los detectores en tiempo real y sus contrapartes más lentas y precisas. YOLOv8 a YOLOv12: Hacia arquitecturas modernas YOLOv8 (2023): Centrado en la modularidad, la segmentación de instancias y la usabilidad. YOLOv9 a YOLOv12 (2024-2025): Transformadores integrados, módulos de atención y comprensión del lenguaje visual, acercando a YOLO a las capacidades de modelos generalistas como SAM. CNN basadas en regiones: la familia R-CNN Antes de YOLO, el marco dominante era R-CNN, desarrollado por Ross Girshick y su equipo. R-CNN (2014) generó 2000 propuestas de regiones utilizando búsqueda selectiva. Se introdujo cada región en una CNN (AlexNet) para la extracción de características. Características clasificadas de SVM; cuadros delimitadores refinados de regresión. Preciso pero dolorosamente lento (~47 s/imagen en la GPU). Fast R-CNN (2015) Velocidad mejorada mediante el uso de una CNN compartida para toda la imagen. Se utilizó ROI Pooling para extraer características de tamaño fijo de las propuestas. Mucho más rápido, pero todavía depende de métodos de propuesta de región externa. Faster R-CNN (2016) introdujo la red de propuestas de región (RPN). Capacitación completa de principio a fin. Se convirtió en el estándar de oro en precisión durante varios años. Máscara R-CNN extendida: R-CNN más rápido agregando una rama de segmentación. Segmentación de instancias habilitada. Extremadamente influyente, ampliamente adoptado en el ámbito académico y la industria.   Detectores sin ancla: una nueva era Las cajas de ancla eran una muleta que añadía complejidad. Los investigadores buscaron enfoques sin anclas para simplificar el entrenamiento y mejorar la generalización. CornerNet y CenterNet Predicen directamente las esquinas o centros de los objetos. Computación reducida y rendimiento mejorado en casos extremos. FCOS (detección de objetos de una etapa totalmente convolucional) Eliminó anclas, propuestas y posprocesamiento. Se trató la detección como un problema de predicción por píxel. Inspiró métodos más nuevos en conducción autónoma y robótica. Estos modelos presagiaron avances posteriores en la predicción densa e inspiraron enfoques de segmentación más flexibles. El auge de los transformadores de visión La revolución de la PNL que trajeron los transformadores pronto se reflejó en la visión por computadora. ViT (Transformador de visión) Divide las imágenes en parches y los procesa como palabras en PNL. Escalabilidad demostrada con grandes conjuntos de datos. DETR (DEtection TRansformer) Detección de objetos de extremo a extremo mediante transformadores. Sin NMS, anclas ni propuestas: solo predicciones directas. Más lento pero más robusto y extensible. Las variantes de DETR ahora sirven como columna vertebral para muchos modelos de segmentación, incluido SAM. Segmentación en foco: de Mask R-CNN a DeepLab Semántica vs. Instancia vs. Segmentación Panóptica Semántica: Clasifica cada píxel (por ejemplo, DeepLab). Instancia: Distingue entre múltiples instancias de la misma clase (por ejemplo, Mask R-CNN). Panóptico: Combina ambos (por ejemplo, Panóptico FPN). Familia DeepLab (v1 a v3+) utilizó convoluciones Atrous (dilatadas) para un mejor contexto. Excelentes resultados de segmentación semántica. A menudo se combina con CNN de red troncal o transformadores. Estos enfoques sobresalieron en entornos estructurados pero carecían de generalidad. Presentamos SAM: Segment Anything Model de Meta AI Lanzado en 2023, SAM (Segment Anything Model) de Meta AI abrió nuevos caminos. Generalización de disparo cero entrenada en más de mil millones de máscaras en 1 millones de imágenes. Puede segmentar cualquier objeto con: Aviso de texto Señalar y hacer clic Cuadro delimitador Avisos de forma libre Arquitectura Basada en una estructura principal ViT. Características: Codificador de indicaciones Codificador de imágenes Descodificador de máscara Altamente paralelo y eficiente. Puntos fuertes Funciona de manera inmediata con conjuntos de datos no vistos. Produce máscaras con píxeles perfectos. Excelente en segmentación interactiva. Análisis comparativo: YOLO vs R-CNN vs SAM Característica YOLO Más rápido/Máscara R-CNN SAM Velocidad Tiempo real Media a lenta Media Precisión Alta Muy alta Extremadamente alta (a nivel de píxel) Segmentación Solo en versiones recientes Segmentación de instancias fuerte Uso general, disparo cero Usabilidad Fácil Requiere ajuste Plug-and-play Aplicaciones Sistemas en tiempo real Investigación y medicina Uso general

Esto cerrará en 20 segundos