#

De píxeles a la acción: cómo desarrollamos el cerebro de un rover autónomo con visión artificial embebida

Nuestro equipo se enfrentó al reto de desarrollar el cerebro completo para un rover autónomo, un sistema que requería percepción visual y toma de decisiones en tiempo real sobre hardware de bajo consumo. Este caso de estudio es una inmersión técnica en nuestro proceso: desde la implementación del modelo de segmentación Mask R-CNN para una identificación precisa de objetos, hasta la aceleración del rendimiento en una Raspberry Pi mediante una aceleradora Coral TPU. Descubre cómo superamos los desafíos de optimización y cuantización de modelos en TensorFlow para entregar una solución de Edge AI robusta y eficiente para la automatización inteligente.

Edge IoT | Machine Learning | Transformación digital

En el mundo de la automatización industrial, el verdadero desafío no siempre es la escala, sino la precisión inteligente. Muchas industrias se enfrentan a tareas repetitivas que requieren no solo movimiento, sino también percepción y toma de decisiones en tiempo real. Recientemente, nuestro equipo fue contratado para abordar un desafío de este tipo: desarrollar el software de control y el sistema de visión para un rover autónomo diseñado para operar en un entorno agrícola altamente especializado.

El objetivo era crear un sistema que pudiera navegar por hileras de bandejas de cultivo, identificar visualmente cientos de compartimentos individuales y realizar una acción específica en cada uno de ellos basándose en su estado. Este post es una inmersión profunda en nuestro proceso técnico, desde la elección de los modelos de IA hasta la optimización del hardware para una operación eficiente en el borde (Edge AI).

El problema: precisión robótica a nivel micro

El cliente nos presentó un escenario claro: un rover debía moverse de forma autónoma a lo largo de una instalación con miles de unidades de cultivo dispuestas en una cuadrícula. Nuestra responsabilidad era desarrollar el cerebro del rover, que debía ser capaz de:

Identificar con precisión cada compartimento individual en el campo de visión de la cámara.
Analizar visualmente el contenido de cada compartimento para tomar una decisión.
Enviar comandos a los actuadores del robot para que realizaran una tarea específica, en este caso, dispensar un producto.
Hacer todo esto en tiempo real, mientras el rover se movía, y con un hardware de bajo consumo energético para maximizar la autonomía.

Este era un problema clásico de visión artificial y robótica, donde la velocidad y la eficiencia en un dispositivo embebido eran tan importantes como la precisión del modelo de IA.

Nuestra arquitectura de solución: un enfoque modular en Raspberry Pi

Decidimos basar nuestra solución en una Raspberry Pi, una plataforma versátil y rentable para prototipado y despliegue. Sin embargo, para dotarla de la inteligencia necesaria, diseñamos un pipeline de software y hardware modular centrado en la visión.

El flujo de trabajo que propusimos fue el siguiente: la cámara del rover captura una imagen de una sección de la bandeja; nuestro software identifica cada compartimento; extrae cada uno como una sub-imagen; un segundo modelo clasifica el estado de cada compartimento; y finalmente, se envían las órdenes a los motores del rover.

Fase 1: La percepción visual — segmentación precisa con Mask R-CNN

El primer y más crítico paso era enseñar al rover a «ver» y delimitar los objetos de interés. No bastaba con saber que un compartimento estaba ahí; necesitábamos sus contornos exactos para aislar su contenido visual del resto de la imagen.

Para esta tarea, elegimos Mask R-CNN (Region-based Convolutional Neural Network). A diferencia de otros detectores de objetos que solo dibujan un rectángulo (bounding box), Mask R-CNN nos ofrecía dos salidas clave:

Bounding box: Un recuadro que enmarcaba cada compartimento detectado.
Máscara de segmentación: Una máscara a nivel de píxel que delineaba la forma exacta del compartimento. Esta fue la clave de nuestra estrategia, ya que nos permitía ignorar por completo el fondo y la estructura de la bandeja, centrando el análisis únicamente en el área de interés.

Entrenamos este modelo utilizando un conjunto de datos de imágenes que nuestro equipo anotó cuidadosamente. El resultado fue un sistema de visión robusto capaz de identificar y aislar con alta fidelidad cada compartimento, incluso bajo variaciones de iluminación y perspectiva.

Fase 2: Preparando el terreno para la clasificación — anchors y extracción de datos

Con los compartimentos ya segmentados, el siguiente paso lógico era preparar estos datos para el modelo de clasificación. Para optimizar este proceso, trabajamos en el cálculo de anchors.

Los anchors son cajas de referencia que los modelos de detección utilizan para predecir la ubicación y el tamaño de los objetos. Al ajustar y optimizar estos anchors a las dimensiones específicas de los compartimentos, mejoramos la eficiencia y precisión de la detección. Este refinamiento nos permitió crear un pipeline de extracción de datos muy eficiente:

El rover captura una imagen.
Mask R-CNN, con sus anchors optimizados, genera las máscaras y bounding boxes en milisegundos.
Nuestro software utiliza estas coordenadas para recortar y normalizar una imagen individual para cada compartimento.
Estas imágenes recortadas se convierten en la entrada estandarizada para el siguiente módulo del sistema de IA.

Este diseño modular aseguraba que, aunque el modelo de clasificación aún estaba en desarrollo, la base de la percepción visual ya era sólida y estaba lista para la integración.

Fase 3: El desafío del hardware — implementando edge AI con la aceleradora coral TPU

Ejecutar un modelo como Mask R-CNN en una Raspberry Pi en tiempo real es, para ser directos, inviable si se depende únicamente de su CPU. Para superar esta barrera computacional, integramos una aceleradora Coral TPU.

Este pequeño pero potente chip, diseñado por Google, está optimizado para ejecutar inferencias de modelos de Machine Learning. Al conectarlo a la Raspberry Pi, transformamos nuestra plataforma:

Inferencia de alta velocidad: El tiempo de procesamiento por imagen se redujo drásticamente, pasando de segundos a meros milisegundos. Esto permitió al rover operar de forma fluida y sin pausas, cumpliendo con el requisito de tiempo real.
Bajo consumo energético: La TPU realiza estos cálculos con una eficiencia energética muy superior a la de una CPU, un factor decisivo para maximizar la duración de la batería del rover en largas jornadas de trabajo.

La integración de la Coral TPU fue un pilar fundamental de nuestro diseño, demostrando nuestra capacidad para desplegar soluciones de IA avanzadas en entornos con recursos limitados Edge AI.

Fase 4: La optimización final — entrenamiento y cuantización con TensorFlow

El hardware por sí solo no es la solución completa. Para exprimir al máximo el rendimiento de la Coral TPU, es imprescindible optimizar el modelo. Nuestro flujo de trabajo para esto se basó en TensorFlow:

Entrenamiento en la nube: Primero, entrenamos nuestro modelo Mask R-CNN en plataformas de computación de alto rendimiento para lograr la máxima precisión posible.
Cuantización: Una vez validado, aplicamos una técnica llamada cuantización post-entrenamiento. Este proceso convierte los pesos del modelo de números de coma flotante de 32 bits a enteros de 8 bits. Los beneficios son enormes para un sistema embebido:
- Modelo hasta 4 veces más pequeño: Facilita el almacenamiento y la carga en la Raspberry Pi.
- Inferencia mucho más rápida: La Coral TPU está específicamente diseñada para ejecutar operaciones con enteros de 8 bits a una velocidad vertiginosa.
- Menor consumo de memoria y energía: Un modelo más ligero y eficiente reduce la carga general sobre el sistema.

Este proceso de cuantización fue el toque final que nos permitió desplegar un modelo de visión de última generación en un hardware modesto, sin sacrificar la velocidad operativa necesaria para el proyecto.

Conclusión: un modelo para la automatización inteligente

Este proyecto es un testimonio de cómo la integración de software y hardware de vanguardia puede resolver problemas complejos de automatización industrial. Al combinar un modelo de segmentación avanzado como Mask R-CNN con la potencia de la aceleración por hardware de la Coral TPU y técnicas de optimización como la cuantización, desarrollamos un cerebro robótico robusto, rápido y eficiente.

El enfoque que seguimos —percepción precisa, extracción de datos, y optimización para hardware de borde— es un blueprint versátil que nuestro equipo puede aplicar a una amplia gama de desafíos, desde el control de calidad en líneas de producción hasta la logística automatizada. Demostramos que la inteligencia artificial no tiene por qué vivir en la nube; podemos llevarla al terreno, donde la acción sucede, creando soluciones autónomas y verdaderamente inteligentes.

Newsletter - Mantente al día

CONOCIMIENTO / Descargables

EBook gratuito
eficiencia OEE

Asistimos tu proceso de diseño y análisis de datos

Descubre las particularidades del indicador OEE, cómo automatizar su cálculo y que requisitos deben cumplir tus procesos de producción para implementarlo.

De píxeles a la acción: cómo desarrollamos el cerebro de un rover autónomo con visión artificial embebida

El problema: precisión robótica a nivel micro

Nuestra arquitectura de solución: un enfoque modular en Raspberry Pi

Fase 1: La percepción visual — segmentación precisa con Mask R-CNN

Fase 2: Preparando el terreno para la clasificación — anchors y extracción de datos

Fase 3: El desafío del hardware — implementando edge AI con la aceleradora coral TPU

Fase 4: La optimización final — entrenamiento y cuantización con TensorFlow

Conclusión: un modelo para la automatización inteligente

Newsletter - Mantente al día

EBook gratuito
eficiencia OEE

Contacta con
sixphere

Planifica una reunión:

Planifica una reunión

Síguenos:

Proyectos

Blogs / Jesús María Jurado

De píxeles a la acción: cómo desarrollamos el cerebro de un rover autónomo con visión artificial embebida

El problema: precisión robótica a nivel micro

Nuestra arquitectura de solución: un enfoque modular en Raspberry Pi

Fase 1: La percepción visual — segmentación precisa con Mask R-CNN

Fase 2: Preparando el terreno para la clasificación — anchors y extracción de datos

Fase 3: El desafío del hardware — implementando edge AI con la aceleradora coral TPU

Fase 4: La optimización final — entrenamiento y cuantización con TensorFlow

Conclusión: un modelo para la automatización inteligente

Newsletter - Mantente al día

EBook gratuito eficiencia OEE

EBook gratuito
eficiencia OEE