Campeón - Grupo Co., Ltd del servomotor de Weifang

Nature volumen 620, páginas 982–987 (2023)Cite este artículo

889 altmétrico

Detalles de métricas

Las carreras de drones en primera persona (FPV) son un deporte televisado en el que competidores profesionales pilotean aviones de alta velocidad a través de un circuito en 3D. Cada piloto ve el entorno desde la perspectiva de su dron mediante vídeo transmitido desde una cámara a bordo. Alcanzar el nivel de pilotos profesionales con un dron autónomo es un reto porque el robot necesita volar al límite físico estimando su velocidad y ubicación en el circuito exclusivamente a partir de sensores a bordo1. Aquí presentamos Swift, un sistema autónomo que puede competir con vehículos físicos al nivel de los campeones mundiales humanos. El sistema combina el aprendizaje por refuerzo profundo (RL) en simulación con datos recopilados en el mundo físico. Swift compitió contra tres campeones humanos, incluidos los campeones mundiales de dos ligas internacionales, en carreras cara a cara del mundo real. Swift ganó varias carreras contra cada uno de los campeones humanos y demostró el tiempo de carrera más rápido registrado. Este trabajo representa un hito para la robótica móvil y la inteligencia artificial2, que puede inspirar el despliegue de soluciones híbridas basadas en el aprendizaje en otros sistemas físicos.

Deep RL3 ha permitido algunos avances recientes en inteligencia artificial. Las políticas entrenadas con RL profunda han superado a los humanos en juegos competitivos complejos, incluidos Atari4,5,6, Go5,7,8,9, Chess5,9, StarCraft10, Dota 2 (ref. 11) y Gran Turismo12,13. Estas impresionantes demostraciones de las capacidades de la inteligencia artificial se han limitado principalmente a entornos de simulación y juegos de mesa, que respaldan la búsqueda de políticas en una réplica exacta de las condiciones de prueba. Superar esta limitación y demostrar un rendimiento a nivel de campeón en competiciones físicas es un problema de larga data en la robótica móvil autónoma y la inteligencia artificial14,15,16.

Las carreras de drones FPV son un deporte televisado en el que pilotos humanos altamente capacitados llevan vehículos aéreos a sus límites físicos en maniobras ágiles de alta velocidad (Fig. 1a). Los vehículos utilizados en las carreras de FPV son cuadricópteros, que se encuentran entre las máquinas más ágiles jamás construidas (Fig. 1b). Durante una carrera, los vehículos ejercen fuerzas que superan su propio peso en un factor de cinco o más, alcanzando velocidades de más de 100 km h-1 y aceleraciones varias veces superiores a la de la gravedad, incluso en espacios reducidos. Cada vehículo es controlado remotamente por un piloto humano que usa unos auriculares que muestran una transmisión de video desde una cámara a bordo, creando una experiencia inmersiva de "vista en primera persona" (Fig. 1c).

a, Swift (azul) compite cara a cara contra Alex Vanover, el campeón mundial de la Drone Racing League 2019 (rojo). La pista consta de siete puertas cuadradas que deben pasarse en orden en cada vuelta. Para ganar una carrera, un competidor debe completar tres vueltas consecutivas antes que su oponente. b, Una vista en primer plano de Swift, iluminado con LED azules, y de un dron pilotado por humanos, iluminado con LED rojos. Los drones autónomos utilizados en este trabajo se basan únicamente en mediciones sensoriales a bordo, sin apoyo de infraestructura externa, como sistemas de captura de movimiento. c, De izquierda a derecha: Thomas Bitmatta, Marvin Schaepper y Alex Vanover corriendo con sus drones por la pista. Cada piloto lleva unos auriculares que muestran una secuencia de vídeo transmitida en tiempo real desde una cámara a bordo de su avión. Los auriculares brindan una experiencia inmersiva de "vista en primera persona". c, Foto de Regina Sablotny.

Los intentos de crear sistemas autónomos que alcancen el rendimiento de los pilotos humanos se remontan a la primera competición de carreras de drones autónomos en 2016 (ref. 17). Siguieron una serie de innovaciones, incluido el uso de redes profundas para identificar la ubicación de la siguiente puerta18,19,20, la transferencia de políticas de carrera de la simulación a la realidad21,22 y la contabilidad de la incertidumbre en la percepción23,24. La competencia de carreras de drones autónomos AlphaPilot de 2019 mostró algunas de las mejores investigaciones en el campo25. Sin embargo, los dos primeros equipos tardaron casi el doble que un piloto humano profesional en completar la pista26,27. Más recientemente, los sistemas autónomos han comenzado a alcanzar un desempeño humano experto28,29,30. Sin embargo, estos trabajos se basan en una estimación del estado casi perfecta proporcionada por un sistema externo de captura de movimiento. Esto hace que la comparación con los pilotos humanos sea injusta, ya que los humanos sólo tienen acceso a las observaciones a bordo del dron.

En este artículo, describimos Swift, un sistema autónomo que puede competir con un cuadrotor al nivel de campeones mundiales humanos utilizando únicamente sensores y computación a bordo. Swift consta de dos módulos clave: (1) un sistema de percepción que traduce información visual e inercial de alta dimensión en una representación de baja dimensión y (2) una política de control que ingiere la representación de baja dimensión producida por el sistema de percepción y produce control. comandos.

La política de control está representada por una red neuronal de retroalimentación y se entrena en simulación utilizando RL31 profundo en políticas sin modelos. Para salvar las discrepancias en la detección y la dinámica entre la simulación y el mundo físico, utilizamos modelos de ruido empíricos no paramétricos estimados a partir de datos recopilados en el sistema físico. Estos modelos empíricos de ruido han demostrado ser fundamentales para transferir con éxito la política de control de la simulación a la realidad.

Evaluamos Swift en una pista física diseñada por un piloto profesional de carreras de drones (Fig. 1a). La pista consta de siete puertas cuadradas dispuestas en un volumen de 30 × 30 × 8 m, formando un vuelta de 75 m de longitud. Swift corrió en esta pista contra tres campeones humanos: Alex Vanover, campeón mundial de la Drone Racing League 2019, Thomas Bitmatta, dos veces campeón de la Copa Mundial Abierta Internacional MultiGP, y Marvin Schaepper, tres veces campeón nacional suizo. Los cuadrotores utilizados por Swift y por los pilotos humanos tienen el mismo peso, forma y propulsión. Son similares a los drones utilizados en competiciones internacionales.

Los pilotos humanos tuvieron una semana de práctica en la pista de carreras. Después de esta semana de práctica, cada piloto compitió contra Swift en varias carreras cara a cara (Fig. 1a,b). En cada carrera cara a cara, dos drones (uno controlado por un piloto humano y otro controlado por Swift) parten desde un podio. La carrera se inicia con una señal acústica. El primer vehículo que complete tres vueltas completas a la pista, pasando todas las puertas en el orden correcto en cada vuelta, gana la carrera.

Swift ganó varias carreras contra cada uno de los pilotos humanos y logró el tiempo de carrera más rápido registrado durante los eventos. Nuestro trabajo marca la primera vez, hasta donde sabemos, que un robot móvil autónomo logra un rendimiento de nivel de campeón mundial en un deporte competitivo del mundo real.

Swift utiliza una combinación de algoritmos tradicionales y basados en el aprendizaje para mapear lecturas sensoriales integradas para controlar comandos. Este mapeo consta de dos partes: (1) una política de observación, que destila información visual e inercial de alta dimensión en una codificación de baja dimensión específica de la tarea, y (2) una política de control que transforma la codificación en comandos para el dron. En la Fig. 2 se muestra una descripción esquemática del sistema.

Swift consta de dos módulos clave: un sistema de percepción que traduce información visual e inercial en una observación de estado de baja dimensión y una política de control que asigna esta observación de estado a comandos de control. Los comandos de control especifican el empuje colectivo deseado y las velocidades corporales, la misma modalidad de control que utilizan los pilotos humanos. a, El sistema de percepción consta de un módulo VIO que calcula una estimación métrica del estado del dron a partir de imágenes de la cámara y mediciones de alta frecuencia obtenidas por una unidad de medición inercial (IMU). La estimación de VIO se combina con una red neuronal que detecta las esquinas de las puertas de carreras en el flujo de imágenes. Las detecciones de esquinas se asignan a una pose 3D y se fusionan con la estimación de VIO mediante un filtro de Kalman. b. Utilizamos RL profundo basado en políticas y sin modelos para entrenar la política de control en simulación. Durante el entrenamiento, la política maximiza una recompensa que combina el progreso hacia el centro de la siguiente puerta de carrera con un objetivo de percepción para mantener la siguiente puerta en el campo de visión de la cámara. Para transferir la política de carreras de la simulación al mundo físico, aumentamos la simulación con modelos residuales basados en datos de la percepción y la dinámica del vehículo. Estos modelos residuales se identifican a partir de la experiencia del mundo real recopilada en la pista de carreras. MLP, perceptrón multicapa.

La política de observación consiste en un estimador visual-inercial32,33 que opera junto con un detector de puertas26, que es una red neuronal convolucional que detecta las puertas de carreras en las imágenes a bordo. Las puertas detectadas se utilizan luego para estimar la posición global y la orientación del dron a lo largo de la pista de carreras. Esto se hace mediante un algoritmo de resección de cámara34 en combinación con un mapa de la ruta. La estimación de la pose global obtenida del detector de puerta se combina luego con la estimación del estimador visual-inercial mediante un filtro de Kalman, lo que da como resultado una representación más precisa del estado del robot. La política de control, representada por un perceptrón de dos capas, asigna la salida del filtro de Kalman a los comandos de control de la aeronave. La política se entrena utilizando RL31 profundo sin modelos de política en simulación. Durante el entrenamiento, la política maximiza una recompensa que combina el progreso hacia la siguiente puerta de carrera35 con un objetivo de percepción que recompensa mantener la siguiente puerta en el campo de visión de la cámara. Ver la siguiente puerta es recompensado porque aumenta la precisión de la estimación de la pose.

La optimización de una política exclusivamente en simulación produce un rendimiento deficiente en el hardware físico si no se mitigan las discrepancias entre la simulación y la realidad. Las discrepancias son causadas principalmente por dos factores: (1) la diferencia entre la dinámica simulada y real y (2) la estimación ruidosa del estado del robot por parte de la política de observación cuando se le proporcionan datos sensoriales reales. Mitigamos estas discrepancias recopilando una pequeña cantidad de datos en el mundo real y utilizándolos para aumentar el realismo del simulador.

Específicamente, registramos observaciones sensoriales a bordo del robot junto con estimaciones de postura altamente precisas de un sistema de captura de movimiento mientras el dron corre por la pista. Durante esta fase de recopilación de datos, el robot está controlado por una política entrenada en simulación que opera según las estimaciones de pose proporcionadas por el sistema de captura de movimiento. Los datos registrados permiten identificar los modos característicos de percepción y dinámica de fallo observados en la pista de carreras. Estas complejidades de percepción fallida y dinámica no modelada dependen del entorno, la plataforma, la pista y los sensores. Los residuos de percepción y dinámica se modelan utilizando procesos gaussianos36 y regresión de k-vecino más cercano, respectivamente. La motivación detrás de esta elección es que empíricamente encontramos que los residuos de percepción son estocásticos y los residuos de dinámica son en gran medida deterministas (Datos ampliados, figura 1). Estos modelos residuales se integran en la simulación y la política de carrera se afina en esta simulación aumentada. Este enfoque está relacionado con los modelos empíricos de actuadores utilizados para la transferencia de simulación a realidad en la ref. 37 pero incorpora además modelos empíricos del sistema de percepción y también tiene en cuenta la estocasticidad en la estimación del estado de la plataforma.

Eliminamos cada componente de Swift en experimentos controlados informados en los datos ampliados. Además, lo comparamos con trabajos recientes que abordan la tarea de las carreras de drones autónomos con métodos tradicionales, incluida la planificación de trayectorias y el control predictivo de modelos (MPC). Aunque estos enfoques logran un rendimiento comparable o incluso superior al nuestro en condiciones idealizadas, como dinámicas simplificadas y conocimiento perfecto del estado del robot, su rendimiento colapsa cuando se violan sus suposiciones. Encontramos que los enfoques que se basan en rutas precalculadas28,29 son particularmente sensibles a la percepción y la dinámica ruidosas. Ningún método tradicional ha logrado tiempos de vuelta competitivos en comparación con Swift o campeones mundiales humanos, incluso cuando se les proporciona una estimación de estado altamente precisa a partir de un sistema de captura de movimiento. El análisis detallado se proporciona en los datos ampliados.

Las carreras de drones se llevan a cabo en una pista diseñada por un piloto externo de FPV de clase mundial. La pista presenta maniobras características y desafiantes, como un Split-S (Figs. 1a (esquina superior derecha) y 4d). Los pilotos pueden continuar compitiendo incluso después de un accidente, siempre que su vehículo aún pueda volar. Si ambos drones chocan y no pueden completar la pista, gana el dron que avanzó más en la pista.

Como se muestra en la Fig. 3b, Swift gana 5 de 9 carreras contra A. Vanover, 4 de 7 carreras contra T. Bitmatta y 6 de 9 carreras contra M. Schaepper. De las 10 pérdidas registradas por el Swift, el 40% se debieron a una colisión con el oponente, el 40% a una colisión con una puerta y el 20% a que el dron era más lento que el piloto humano. En general, Swift gana la mayoría de las carreras contra cada piloto humano. Swift también logra el mejor tiempo registrado en carrera, con una ventaja de medio segundo sobre el mejor tiempo registrado por un piloto humano (A. Vanover).

a, Resultados de tiempos de vuelta. Comparamos a Swift con los pilotos humanos en carreras contrarreloj. Los tiempos de vuelta indican los mejores tiempos de una sola vuelta y los mejores tiempos promedio logrados en una serie de tres vueltas consecutivas. Las estadísticas reportadas se calculan a partir de un conjunto de datos registrados durante una semana en la pista de carreras, que corresponde a 483 (115) puntos de datos para Swift, 331 (221) para A. Vanover, 469 (338) para T. Bitmatta y 345 (202 ) para el señor Schaepper. El primer número es el número de vueltas individuales y el segundo es el número de tres vueltas consecutivas. Los puntos oscuros en cada distribución corresponden a vueltas voladas en condiciones de carrera. b, Resultados cara a cara. Informamos el número de carreras cara a cara disputadas por cada piloto, el número de victorias y derrotas, así como la proporción de victorias.

La Figura 4 y la Tabla de datos ampliados 1d proporcionan un análisis de la vuelta más rápida volada por Swift y cada piloto humano. Aunque Swift es globalmente más rápido que todos los pilotos humanos, no es más rápido en todos los segmentos individuales de la pista (Tabla de datos ampliados 1). Swift es consistentemente más rápido en la salida y en curvas cerradas como la S dividida. En la salida, Swift tiene un tiempo de reacción más bajo, despegando del podio, en promedio, 120 ms antes que los pilotos humanos. Además, acelera más rápido y alcanza velocidades más altas al entrar por la primera puerta (Tabla de datos ampliados 1d, segmento 1). En curvas cerradas, como se muestra en la Fig. 4c, d, Swift encuentra maniobras más cerradas. Una hipótesis es que Swift optimiza las trayectorias en una escala de tiempo más larga que los pilotos humanos. Se sabe que la RL sin modelos puede optimizar las recompensas a largo plazo mediante una función de valor38. Por el contrario, los pilotos humanos planifican su movimiento en una escala de tiempo más corta, hasta una puerta hacia el futuro39. Esto es evidente, por ejemplo, en la S dividida (Fig. 4b, d), en la que los pilotos humanos son más rápidos al principio y al final de la maniobra, pero más lentos en general (Tabla de datos ampliados 1d, segmento 3). Además, los pilotos humanos orientan la aeronave para mirar hacia la siguiente puerta antes que Swift (Fig. 4c, d). Proponemos que los pilotos humanos están acostumbrados a mantener a la vista la puerta que se aproxima, mientras que Swift ha aprendido a ejecutar algunas maniobras confiando en otras señales, como datos inerciales y odometría visual frente a las características de los entornos circundantes. En general, promediando toda la pista, el dron autónomo alcanza la velocidad promedio más alta, encuentra la línea de carrera más corta y logra mantener la aeronave más cerca de sus límites de actuación durante toda la carrera, como lo indican el empuje promedio y la potencia consumida (Tabla de datos extendidos). 1d).

a, Comparación de la carrera más rápida de cada piloto, ilustrada por el tiempo detrás de Swift. La diferencia de tiempo con respecto al dron autónomo se calcula como el tiempo transcurrido desde que pasó por la misma posición en la pista. Aunque Swift es globalmente más rápido que todos los pilotos humanos, no es necesariamente más rápido en todos los segmentos individuales de la pista. b, Visualización de dónde los pilotos humanos son más rápidos (rojo) y más lentos (azul) en comparación con el dron autónomo. Swift es consistentemente más rápido al inicio y en curvas cerradas, como el split S. c, Análisis de la maniobra después de la puerta 2. Swift en azul, Vanover en rojo. Swift gana tiempo frente a los pilotos humanos en este segmento, ya que ejecuta un giro más cerrado manteniendo una velocidad comparable. d, Análisis de la maniobra S dividida. Swift en azul, Vanover en rojo. La S dividida es el segmento más desafiante en la pista de carreras, ya que requiere un movimiento de balanceo y cabeceo cuidadosamente coordinado que produce un medio bucle descendente a través de las dos puertas. Swift gana tiempo frente a los pilotos humanos en este segmento, ya que ejecuta un giro más cerrado con menos sobrepasos. e, Ilustración de los segmentos de vía utilizados para el análisis. El segmento 1 se recorre una vez al inicio, mientras que los segmentos 2 a 4 se recorren en cada vuelta (tres veces en el transcurso de una carrera).

También comparamos el desempeño de Swift y los campeones humanos en contrarreloj (Fig. 3a). En una contrarreloj, un solo piloto corre en la pista, y el número de vueltas queda a discreción del piloto. Acumulamos datos de contrarreloj de la semana de práctica y las carreras, incluidas las carreras de entrenamiento (Fig. 3a, en color) y las vueltas voladas en condiciones de carrera (Fig. 3a, en negro). Para cada concursante, utilizamos más de 300 vueltas para calcular las estadísticas. El dron autónomo busca de manera más consistente tiempos de vuelta rápidos, mostrando una media y una variación más bajas. Por el contrario, los pilotos humanos deciden si quieren acelerar vuelta por vuelta, lo que produce una mayor media y variación en los tiempos de vuelta, tanto durante el entrenamiento como en las carreras. La capacidad de adaptar la estrategia de vuelo permite a los pilotos humanos mantener un ritmo más lento si identifican que tienen una ventaja clara, para reducir el riesgo de accidente. El dron autónomo no es consciente de su oponente y presiona para lograr el tiempo de finalización más rápido esperado sin importar lo que pase, potencialmente arriesgando demasiado cuando está a la cabeza y muy poco cuando está detrás40.

Las carreras de drones FPV requieren una toma de decisiones en tiempo real basada en información sensorial ruidosa e incompleta del entorno físico. Hemos presentado un sistema físico autónomo que logra un rendimiento a nivel de campeón en este deporte, alcanzando (y en ocasiones superando) el rendimiento de los campeones mundiales humanos. Nuestro sistema tiene ciertas ventajas estructurales sobre los pilotos humanos. En primer lugar, utiliza datos inerciales de una unidad de medición inercial incorporada32. Esto es similar al sistema vestibular humano41, que los pilotos humanos no utilizan porque no están físicamente en el avión y no sienten las aceleraciones que actúan sobre él. En segundo lugar, nuestro sistema se beneficia de una latencia sensoriomotora más baja (40 ms para Swift versus un promedio de 220 ms para pilotos humanos expertos39). Por otro lado, la limitada frecuencia de actualización de la cámara utilizada por Swift (30 Hz) puede considerarse una ventaja estructural para los pilotos humanos, cuyas cámaras tienen una frecuencia de actualización cuatro veces más rápida (120 Hz), mejorando su tiempo de reacción42.

Los pilotos humanos son impresionantemente robustos: pueden estrellarse a toda velocidad y, si el hardware aún funciona, seguir volando y completar la pista. Swift no fue entrenado para recuperarse después de un accidente. Los pilotos humanos también son resistentes a los cambios en las condiciones ambientales, como la iluminación, que pueden alterar notablemente la apariencia de la pista. Por el contrario, el sistema de percepción de Swift supone que la apariencia del entorno es consistente con lo observado durante el entrenamiento. Si esta suposición falla, el sistema puede fallar. Se puede proporcionar solidez a los cambios de apariencia entrenando el detector de puerta y el modelo de observación residual en un conjunto diverso de condiciones. Abordar estas limitaciones podría permitir aplicar el enfoque presentado en competiciones de carreras de drones autónomos en las que el acceso al entorno y al dron sea limitado25.

A pesar de las limitaciones restantes y del trabajo por delante, el logro por parte de un robot móvil autónomo de un rendimiento de nivel de campeón mundial en un deporte físico popular es un hito para la robótica y la inteligencia artificial. Este trabajo puede inspirar el despliegue de soluciones híbridas basadas en el aprendizaje en otros sistemas físicos, como vehículos terrestres autónomos, aviones y robots personales, en una amplia gama de aplicaciones.

Para permitir el entrenamiento a gran escala, utilizamos una simulación de alta fidelidad de la dinámica del cuadrotor. Esta sección explica brevemente la simulación. La dinámica del vehículo se puede escribir como

en el que ⊙ representa la rotación del cuaternión, \({{\bf{p}}}_{{\mathcal{W}}{\mathcal{B}}},{{\bf{q}}}_{{\mathcal {W}}{\mathcal{B}}},{{\bf{v}}}_{{\mathcal{W}}}\) y \({{\boldsymbol{\omega }}}_{{ \mathcal{B}}}\) denotan la posición, el cuaternión de actitud, la velocidad inercial y las velocidades corporales del cuadricóptero, respectivamente. La constante de tiempo del motor es kmot y las velocidades del motor Ω y Ωss son las velocidades del motor real y en estado estacionario, respectivamente. La matriz J es la inercia del cuadricóptero y \({{\bf{g}}}_{{\mathcal{W}}}\) denota el vector de gravedad. Dos fuerzas actúan sobre el cuadrotor: la fuerza de sustentación fprop generada por las hélices y una fuerza aerodinámica faero que agrega todas las demás fuerzas, como la resistencia aerodinámica, la sustentación dinámica y la resistencia inducida. El par se modela como una suma de cuatro componentes: el par generado por los empujes individuales de las hélices τprop, el par de guiñada τmot generado por un cambio en la velocidad del motor, un par aerodinámico τaero que tiene en cuenta diversos efectos aerodinámicos como el aleteo de las palas y una inercia. término τiner. Los componentes individuales se dan como

en donde rP,i es la ubicación de la hélice i, expresada en la estructura de la carrocería, y fi y τi son las fuerzas y pares, respectivamente, generados por la iésima hélice. El eje de rotación del iésimo motor se denota por ζi, la inercia combinada del motor y la hélice es Jm+p y la derivada de la velocidad del iésimo motor es \({\dot{\Omega }}_{i}\) . Las hélices individuales se modelan utilizando un modelo cuadrático de uso común, que supone que la fuerza de elevación y el par de arrastre son proporcionales al cuadrado de la velocidad de la hélice Ωi:

donde cl y cd denotan los coeficientes de sustentación y resistencia aerodinámica de la hélice, respectivamente.

Las fuerzas y pares aerodinámicos son difíciles de modelar con un enfoque de primeros principios. Por tanto, utilizamos un modelo basado en datos43. Para mantener la baja complejidad computacional requerida para el entrenamiento de RL a gran escala, se utiliza un modelo polinomial de caja gris en lugar de una red neuronal. Se supone que los efectos aerodinámicos dependen principalmente de la velocidad \({{\bf{v}}}_{{\mathcal{B}}}\) (en la estructura del cuerpo) y la velocidad promedio del motor al cuadrado \(\overline {{\Omega }^{2}}\). Las fuerzas aerodinámicas fx, fy y fz y los pares τx, τy y τz se estiman en la estructura de la carrocería. Las cantidades vx, vy y vz denotan los tres componentes de la velocidad axial (en la estructura de la carrocería) y vxy denota la velocidad en el plano (x, y) del cuadrotor. A partir del conocimiento de los procesos físicos subyacentes se seleccionan combinaciones lineales y cuadráticas de los distintos términos. Para facilitar la lectura, se han omitido los coeficientes que multiplican cada sumando:

Luego, los coeficientes respectivos se identifican a partir de datos de vuelo del mundo real, en los que se utiliza la captura de movimiento para proporcionar fuerzas reales y mediciones de torsión. Usamos datos de la pista de carreras, lo que permite que el modelo dinámico se ajuste a la pista. Esto es similar al entrenamiento de los pilotos humanos durante días o semanas antes de la carrera en la pista específica en la que competirán. En nuestro caso, los pilotos humanos reciben una semana de práctica en la misma pista antes de la competición.

Para controlar el cuadrotor, la red neuronal genera empuje colectivo y velocidades corporales. Se sabe que esta señal de control combina una gran agilidad con una buena robustez para la transferencia de la simulación a la realidad44. Luego, el empuje colectivo previsto y las velocidades corporales son procesadas por un controlador de bajo nivel a bordo que calcula los comandos de los motores individuales, que posteriormente se traducen en señales de voltaje analógicas a través de un controlador de velocidad electrónico (ESC) que controla los motores. En el vehículo físico, este controlador proporcional-integral-derivado (PID) de bajo nivel y ESC se implementan utilizando el firmware de código abierto Betaflight y BLHeli3245. En la simulación, utilizamos un modelo preciso tanto del controlador de bajo nivel como del controlador de velocidad del motor.

Debido a que el controlador PID Betaflight ha sido optimizado para vuelos pilotados por humanos, presenta algunas peculiaridades que la simulación captura correctamente: la referencia para el término D es constantemente cero (amortiguación pura), el término I se reinicia cuando se pisa el acelerador. se corta y, bajo saturación de empuje motor, se asigna prioridad al control de la frecuencia corporal (reducción proporcional de todas las señales motoras para evitar la saturación). Las ganancias del controlador utilizado para la simulación se han identificado a partir de los registros detallados de los estados internos del controlador Betaflight. La simulación puede predecir los comandos de motor individuales con menos del 1% de error.

El controlador de bajo nivel convierte los comandos de los motores individuales en una señal de modulación de ancho de pulso (PWM) y la envía al ESC, que controla los motores. Debido a que el ESC no realiza un control de circuito cerrado de las velocidades del motor, la velocidad del motor en estado estacionario Ωi,ss para un comando de motor PWM cmdi dado es una función del voltaje de la batería. Por lo tanto, nuestra simulación modela el voltaje de la batería utilizando un modelo de batería de caja gris46 que simula el voltaje en función del consumo de energía instantáneo Pmot:

Luego, el modelo de batería46 simula el voltaje de la batería en función de esta demanda de energía. Dado el voltaje de la batería Ubat y el comando del motor individual ucmd,i, usamos el mapeo (nuevamente omitiendo los coeficientes que multiplican cada sumando)

para calcular la correspondiente velocidad del motor en estado estacionario Ωi,ss requerida para la simulación dinámica en la ecuación (1). Los coeficientes se han identificado a partir de registros de Betaflight que contienen mediciones de todas las cantidades involucradas. Junto con el modelo del controlador de bajo nivel, esto permite que el simulador traduzca correctamente una acción en forma de empuje colectivo y velocidades corporales a las velocidades deseadas del motor Ωss en la ecuación (1).

Entrenamos políticas de control neuronal profundo que mapean directamente las observaciones en forma de estado de plataforma y observación de la siguiente puerta para controlar acciones en forma de impulsos colectivos y tasas corporales normalizados en masa44. Las políticas de control se entrenan utilizando RL sin modelos en simulación.

La capacitación se realiza utilizando la optimización de políticas proximales31. Este enfoque actor-crítico requiere la optimización conjunta de dos redes neuronales durante el entrenamiento: la red de políticas, que relaciona las observaciones con las acciones, y la red de valores, que sirve como "crítica" y evalúa las acciones tomadas por la política. Después del entrenamiento, solo se implementa la red de políticas en el robot.

Una observación \({{\bf{o}}}_{t}\in {{\mathbb{R}}}^{31}\) obtenida del entorno en el momento t consiste en: (1) una estimación de el estado actual del robot; (2) la posición relativa de la siguiente puerta a pasar en el trazado de la pista; y (3) la acción aplicada en el paso anterior. Específicamente, la estimación del estado del robot contiene la posición de la plataforma, su velocidad y actitud representadas por una matriz de rotación, lo que da como resultado un vector en \({{\mathbb{R}}}^{15}\). Aunque la simulación utiliza cuaterniones internamente, utilizamos una matriz de rotación para representar la actitud para evitar ambigüedades47. La pose relativa de la siguiente puerta se codifica proporcionando la posición relativa de las cuatro esquinas de la puerta con respecto al vehículo, lo que da como resultado un vector en \({{\mathbb{R}}}^{12}\). Todas las observaciones se normalizan antes de pasar a la red. Debido a que la red de valor solo se utiliza durante el tiempo de capacitación, puede acceder a información privilegiada sobre el entorno que no es accesible a la política48. Esta información privilegiada se concatena con otras entradas a la red de políticas y contiene la posición, orientación y velocidad exactas del robot.

Para cada observación ot, la red de políticas produce una acción \({{\bf{a}}}_{t}\in {{\mathbb{R}}}^{4}\) en forma de masa deseada. empuje colectivo normalizado y ritmos corporales.

Utilizamos una formulación de recompensa de forma densa para aprender la tarea de las carreras de drones autónomos conscientes de la percepción. La recompensa rt en el paso de tiempo t está dada por

en el que rprog recompensa el progreso hacia la siguiente puerta35, rperc codifica la conciencia de percepción ajustando la actitud del vehículo de manera que el eje óptico de la cámara apunte hacia el centro de la siguiente puerta, rcmd recompensa las acciones suaves y rcrash es una penalización binaria que se solo está activo cuando choca con una puerta o cuando la plataforma sale de un cuadro delimitador predefinido. Si se activa rcrash, el episodio de entrenamiento finaliza.

Específicamente, los términos de recompensa son

en el que \({d}_{t}^{{\rm{Gate}}}\) denota la distancia desde el centro de masa del vehículo hasta el centro de la siguiente puerta en el paso de tiempo t, δcam representa el ángulo entre el eje óptico de la cámara y el centro de la siguiente puerta y \({{\bf{a}}}_{t}^{\omega }\) son las velocidades corporales comandadas. Los hiperparámetros λ1,…, λ5 equilibran diferentes términos (Tabla de datos ampliados 1a).

La recogida de datos se realiza simulando 100 agentes en paralelo que interactúan con el entorno en episodios de 1.500 pasos. En cada reinicio del entorno, cada agente se inicializa en una puerta aleatoria en la pista, con una perturbación limitada alrededor de un estado observado previamente al pasar esta puerta. A diferencia de trabajos anteriores44,49,50, no realizamos aleatorización de la dinámica de la plataforma en el momento del entrenamiento. En lugar de ello, realizamos ajustes basados en datos del mundo real. El entorno de formación se implementa utilizando TensorFlow Agents51. La red de políticas y la red de valores están representadas por perceptrones de dos capas con 128 nodos en cada capa y activaciones LeakyReLU con una pendiente negativa de 0,2. Los parámetros de la red se optimizan utilizando el optimizador Adam con una tasa de aprendizaje de 3 × 10−4 tanto para la red de políticas como para la red de valores.

Las políticas están entrenadas para un total de 1 × 108 interacciones de entorno, lo que demora 50 minutos en una estación de trabajo (i9 12900K, RTX 3090, 32 GB de RAM DDR5). El ajuste fino se realiza para 2 × 107 interacciones ambientales.

Realizamos ajustes de la política original en función de una pequeña cantidad de datos recopilados en el mundo real. Específicamente, recopilamos tres despliegues completos en el mundo real, correspondientes a aproximadamente 50 s de tiempo de vuelo. Ajustamos la política identificando observaciones residuales y dinámicas residuales, que luego se utilizan para el entrenamiento en simulación. Durante esta fase de ajuste, solo se actualizan los pesos de la política de control, mientras que los pesos de la red de detección de puertas se mantienen constantes.

Navegar a altas velocidades produce un desenfoque de movimiento sustancial, lo que puede provocar una pérdida de las características visuales rastreadas y una desviación grave en las estimaciones de odometría lineal. Afinamos las políticas con un modelo de odometría que se identifica a partir de solo un puñado de ensayos registrados en el mundo real. Para modelar la deriva en la odometría, utilizamos procesos gaussianos36, ya que permiten ajustar una distribución posterior de las perturbaciones de la odometría, a partir de la cual podemos tomar muestras de realizaciones temporalmente consistentes.

Específicamente, el modelo de proceso gaussiano ajusta la posición residual, la velocidad y la actitud como una función del estado del robot real. Los residuos de observación se identifican comparando las estimaciones de odometría visual-inercial (VIO) observadas durante un lanzamiento en el mundo real con los estados de la plataforma real, que se obtienen de un sistema externo de seguimiento de movimiento.

Tratamos cada dimensión de la observación por separado, ajustando efectivamente un conjunto de nueve procesos gaussianos 1D a los residuos de observación. Usamos una mezcla de núcleos de función de base radial.

en la que L es la matriz de escala de longitud diagonal y σf y σn representan los datos y la varianza del ruido anterior, respectivamente, y zi y zj representan características de los datos. Los hiperparámetros del kernel se optimizan maximizando la probabilidad marginal logarítmica. Después de la optimización de los hiperparámetros del kernel, tomamos muestras de nuevas realizaciones de la distribución posterior que luego se utilizan durante el ajuste de la política. Datos ampliados La Fig. 1 ilustra las observaciones residuales en posición, velocidad y actitud en implementaciones del mundo real, así como 100 realizaciones muestreadas del modelo de proceso gaussiano.

Utilizamos un modelo residual para complementar la dinámica del robot simulada52. Específicamente, identificamos aceleraciones residuales en función del estado de la plataforma s y el empuje colectivo normalizado en masa comandado c:

Utilizamos regresión de k-vecino más cercano con k = 5. El tamaño del conjunto de datos utilizado para la identificación del modelo de dinámica residual depende del diseño de la pista y oscila entre 800 y 1000 muestras para el diseño de la pista utilizado en este trabajo.

Para corregir la deriva acumulada por el oleoducto VIO, las compuertas se utilizan como puntos de referencia distintos para una localización relativa. Específicamente, las puertas se detectan en la vista de la cámara a bordo segmentando las esquinas de las puertas26. Las imágenes en escala de grises proporcionadas por la cámara de seguimiento Intel RealSense T265 se utilizan como imágenes de entrada para el detector de puerta. La arquitectura de la red de segmentación es una U-Net53 de seis niveles con (8, 16, 16, 16, 16, 16) filtros convolucionales de tamaño (3, 3, 3, 5, 7, 7) por nivel y un final Capa adicional que opera en la salida de U-Net y contiene 12 filtros. Como función de activación, se utiliza LeakyReLU con α = 0,01. Para la implementación en NVIDIA Jetson TX2, la red se traslada a TensorRT. Para optimizar el uso de memoria y el tiempo de cálculo, la inferencia se realiza en modo de media precisión (FP16) y las imágenes se reducen a un tamaño de 384 × 384 antes de enviarlas a la red. Un paso hacia adelante a través de la red tarda 40 ms en NVIDIA Jetson TX2.

Las estimaciones de odometría del oleoducto VIO54 muestran una desviación sustancial durante el vuelo a alta velocidad. Utilizamos la detección de puertas para estabilizar las estimaciones de pose producidas por VIO. El detector de puertas genera las coordenadas de las esquinas de todas las puertas visibles. Primero se estima una pose relativa para todas las puertas predichas utilizando una estimación de pose basada en un plano infinitesimal (IPPE)34. Dada esta estimación de pose relativa, cada observación de puerta se asigna a la puerta más cercana en el diseño de pista conocido, lo que produce una estimación de pose para el dron.

Debido a la baja frecuencia de las detecciones de puertas y la alta calidad de la estimación de la orientación de VIO, solo refinamos los componentes traslacionales de las mediciones de VIO. Estimamos y corregimos la deriva de la tubería VIO utilizando un filtro de Kalman que estima la deriva traslacional pd (desplazamiento de posición) y su derivada, la velocidad de deriva vd. La corrección de la deriva se realiza restando los estados de deriva estimados pd y vd de las estimaciones VIO correspondientes. El estado x del filtro de Kalman está dado por \({\bf{x}}={[{{\bf{p}}}_{{\rm{d}}}^{\top },{{\bf{ v}}}_{{\rm{d}}}^{\top }]}^{\top }\in {{\mathbb{R}}}^{6}\).

Las actualizaciones del estado x y la covarianza P vienen dadas por:

Según las mediciones, el ruido del proceso se ajusta a σpos = 0,05 y σvel = 0,1. El estado del filtro y la covarianza se inicializan a cero. Para cada medición zk (estimación de pose a partir de una detección de puerta), la deriva VIO predicha \({{\bf{x}}}_{k}^{-}\) se corrige a la estimación \({{\bf{ x}}}_{k}^{+}\) según las ecuaciones del filtro de Kalman:

en la que Kk es la ganancia de Kalman, R es la covarianza de medición y Hk es la matriz de medición. Si se han detectado varias puertas en un solo cuadro de cámara, todas las estimaciones de pose relativas se apilan y procesan en el mismo paso de actualización del filtro de Kalman. La principal fuente de error de medición es la incertidumbre en la detección de la esquina de la puerta de la red. Este error en el plano de la imagen da como resultado un error de pose cuando se aplica IPPE. Optamos por un enfoque basado en muestreo para estimar el error de pose a partir de la incertidumbre promedio conocida en la detección de la esquina de la puerta. Para cada puerta, el algoritmo IPPE se aplica a la observación nominal de la puerta, así como a 20 estimaciones de las esquinas de la puerta perturbadas. La distribución resultante de las estimaciones de pose se utiliza luego para aproximar la covarianza de medición R de la observación de la puerta.

Alcanzar un desempeño a nivel de campeón en carreras de drones autónomos requiere superar dos desafíos: la percepción imperfecta y los modelos incompletos de la dinámica del sistema. En experimentos controlados de simulación, evaluamos la solidez de nuestro enfoque ante ambos desafíos. Con este fin, evaluamos el rendimiento en una tarea de carrera cuando se implementa en cuatro entornos diferentes. En la configuración (1), simulamos un modelo cuadrotor simplista con acceso a observaciones del estado real del terreno. En el escenario (2), reemplazamos las observaciones del estado real en tierra con observaciones ruidosas identificadas en vuelos del mundo real. Estas observaciones ruidosas se generan al muestrear una realización del modelo de observación residual y son independientes de la conciencia de percepción del controlador implementado. Las configuraciones (3) y (4) comparten los modelos de observación con las dos configuraciones anteriores, respectivamente, pero reemplazan el modelo de dinámica simplista con una simulación aerodinámica más precisa43. Estas cuatro configuraciones permiten una evaluación controlada de la sensibilidad del enfoque a los cambios en la dinámica y la fidelidad de la observación.

En los cuatro entornos, comparamos nuestro enfoque con las siguientes líneas de base: disparo cero, aleatorización de dominio y tiempo óptimo. La línea de base de tiro cero representa una política de carreras basada en el aprendizaje35 entrenada usando RL sin modelo que se implementa de tiro cero desde el dominio de entrenamiento al dominio de prueba. El dominio de entrenamiento de la política es igual al entorno experimental (1), es decir, dinámica idealizada y observaciones de la verdad sobre el terreno. La aleatorización de dominio extiende la estrategia de aprendizaje desde la línea de base de tiro cero al aleatorizar las observaciones y las propiedades dinámicas para aumentar la solidez. La línea de base de tiempo óptimo utiliza una trayectoria de tiempo óptimo precalculada28 que se rastrea mediante un controlador MPC. Este enfoque ha mostrado el mejor rendimiento en comparación con otros métodos basados en modelos para un vuelo óptimo en el tiempo55,56. El modelo dinámico utilizado por la generación de trayectoria y el controlador MPC coincide con la dinámica simulada del entorno experimental (1).

El rendimiento se evalúa evaluando el tiempo de vuelta más rápido, el margen de puerta mínimo y promedio observado de las puertas pasadas con éxito y el porcentaje de pista completada con éxito. La métrica del margen de la puerta mide la distancia entre el dron y el punto más cercano de la puerta al cruzar el plano de la puerta. Un margen de puerta alto indica que el cuadrotor pasó cerca del centro de la puerta. Dejar un margen de puerta más pequeño puede aumentar la velocidad, pero también puede aumentar el riesgo de colisión o de perder la puerta. Cualquier vuelta que resulte en una caída no se considera válida.

Los resultados se resumen en la Tabla de datos ampliados 1c. Todos los enfoques logran completar con éxito la tarea cuando se implementan en dinámicas idealizadas y observaciones reales, con la línea de base de tiempo óptimo que produce el tiempo de vuelta más bajo. Cuando se implementa en entornos que presentan cambios de dominio, ya sea en la dinámica o en las observaciones, el rendimiento de todas las líneas de base colapsa y ninguna de las tres líneas de base puede completar ni siquiera una sola vuelta. Esta caída del rendimiento se manifiesta tanto en los enfoques tradicionales como en los basados en el aprendizaje. Por el contrario, nuestro enfoque, que presenta modelos empíricos de dinámica y ruido de observación, tiene éxito en todos los entornos de implementación, con pequeños aumentos en el tiempo de vuelta.

La característica clave que permite que nuestro enfoque tenga éxito en todos los regímenes de implementación es el uso de un modelo empírico de dinámica y ruido de observación, estimado a partir de datos del mundo real. Una comparación entre un enfoque que tiene acceso a dichos datos y enfoques que no lo tienen no es del todo justa. Por esa razón, también comparamos el desempeño de todos los enfoques de referencia cuando tenemos acceso a los mismos datos del mundo real utilizados por nuestro enfoque. Específicamente, comparamos el desempeño en el entorno experimental (2), que presenta el modelo dinámico idealizado pero la percepción ruidosa. Todos los enfoques de referencia cuentan con las predicciones del mismo modelo de proceso gaussiano que utilizamos para caracterizar el ruido de observación. Los resultados se resumen en la Tabla de datos ampliados 1b. Todas las líneas de base se benefician de las observaciones más realistas, lo que genera tasas de finalización más altas. Sin embargo, nuestro enfoque es el único que completa de forma fiable todo el recorrido. Además de las predicciones del modelo de ruido de observación, nuestro enfoque también tiene en cuenta la incertidumbre del modelo. Para una comparación en profundidad del rendimiento de RL versus el control óptimo en experimentos controlados, remitimos al lector a la ref. 57.

Investigamos el alcance de las variaciones en el comportamiento entre iteraciones. Los hallazgos de nuestro análisis revelan que las operaciones de ajuste posteriores dan como resultado mejoras insignificantes en el rendimiento y alteraciones en el comportamiento (Datos ampliados, figura 2).

A continuación ofrecemos más detalles sobre esta investigación. Comenzamos enumerando los pasos de ajuste para proporcionar la notación necesaria:

Entrenar la política-0 en simulación.

Implemente la política-0 en el mundo real. La política opera con datos reales de un sistema de captura de movimiento.

Identifique los residuos observados por la política-0 en el mundo real.

Entrene la política-1 ajustando la política-0 en los residuos identificados.

Implemente la política-1 en el mundo real. La política opera únicamente en mediciones sensoriales a bordo.

Identifique los residuos observados por la política-1 en el mundo real.

Entrene la política-2 ajustando la política-1 en los residuos identificados.

Comparamos el desempeño de la política 1 y la política 2 en simulación después de realizar ajustes en sus respectivos residuos. Los resultados se ilustran en la Fig. 2 de datos ampliados. Observamos que la diferencia en la distancia desde los centros de las puertas, que es una métrica de la seguridad de la póliza, es de 0,09 ± 0,08 m. Además, la diferencia en el tiempo necesario para completar una sola vuelta es de 0,02 ± 0,02 s. Tenga en cuenta que esta diferencia de tiempo de vuelta es sustancialmente menor que la diferencia entre los tiempos de finalización de una sola vuelta de Swift y los pilotos humanos (0,16 s).

Los cuadrotores utilizados por los pilotos humanos y Swift tienen el mismo peso, forma y propulsión. El diseño de la plataforma se basa en el marco Agilicious58. Cada vehículo tiene un peso de 870 gy puede producir un empuje estático máximo de aproximadamente 35 N, lo que da como resultado una relación empuje-peso estático de 4,1. La base de cada plataforma consta de un bastidor principal Armattan Chameleon de 6″ que está equipado con motores T-Motor Velox 2306 y hélices de tres palas de 5″. Un NVIDIA Jetson TX2 acompañado de una placa portadora Connect Tech Quasar proporciona el principal recurso informático para los drones autónomos, con una CPU de seis núcleos que funciona a 2 GHz y una GPU dedicada con 256 núcleos CUDA que funcionan a 1,3 GHz. Aunque los pases directos de la red de detección de puertas se realizan en la GPU, la política de carreras se evalúa en la CPU, y un pase de inferencia tarda 8 ms. Los drones autónomos llevan una cámara de seguimiento Intel RealSense T265 que proporciona estimaciones VIO59 a 100 Hz que se alimentan por USB al NVIDIA Jetson TX2. Los drones pilotados por humanos no llevan ni un ordenador Jetson ni una cámara RealSense, sino que están equipados con el correspondiente lastre. Los comandos de control en forma de empuje colectivo y velocidades corporales producidos por los pilotos humanos o Swift se envían a un controlador de vuelo comercial, que funciona con un procesador STM32 que opera a 216 MHz. El controlador de vuelo ejecuta Betaflight, un software de control de vuelo de código abierto45.

Las siguientes citas transmiten las impresiones de los tres campeones humanos que corrieron contra Swift.

Alex Vanover:

Estas carreras se decidirán en el split S, es la parte más desafiante de la pista.

¡Esta fue la mejor carrera! Estaba tan cerca del dron autónomo que realmente podía sentir la turbulencia cuando intentaba seguirle el ritmo.

Tomás Bitmatta:

Las posibilidades son infinitas, este es el comienzo de algo que podría cambiar el mundo entero. Por otro lado, soy un corredor, no quiero que nada sea más rápido que yo.

A medida que vuelas más rápido, cambias precisión por velocidad.

Es inspirador ver el potencial de lo que realmente son capaces los drones. Pronto, el dron con IA podría incluso utilizarse como herramienta de entrenamiento para comprender lo que sería posible.

Marvin Schaepper:

Se siente diferente correr contra una máquina, porque sabes que la máquina no se cansa.

El estudio se ha realizado de acuerdo con la Declaración de Helsinki. El protocolo del estudio está exento de revisión por parte de un comité de ética según las normas y reglamentos de la Universidad de Zurich, porque no se han recopilado datos relacionados con la salud. Los participantes dieron su consentimiento informado por escrito antes de participar en el estudio.

Todos los (otros) datos necesarios para evaluar las conclusiones del artículo están presentes en el artículo o en los datos ampliados. Las grabaciones de captura de movimiento de los eventos de carrera con el código de análisis adjunto se pueden encontrar en el archivo 'racing_data.zip' en Zenodo en https://doi.org/10.5281/zenodo.7955278.

El pseudocódigo para Swift que detalla el proceso de entrenamiento y los algoritmos se puede encontrar en el archivo 'pseudocode.zip' en Zenodo en https://doi.org/10.5281/zenodo.7955278. Para protegerse contra posibles usos indebidos, el código fuente completo asociado con esta investigación no se pondrá a disposición del público.

De Wagter, C., Paredes-Vallés, F., Sheth, N. & de Croon, G. Aprendizaje rápido en carreras de drones autónomos. Nat. Mach. Intel. Apocalipsis 3, 923 (2021).

Artículo de Google Scholar

Hannover, D. y col. Carreras de drones autónomos: una encuesta. Preimpresión en https://arxiv.org/abs/2301.01755 (2023).

Sutton, RS y Barto, AG Aprendizaje por refuerzo: una introducción (MIT Press, 2018).

Mnih, V. y col. Control a nivel humano a través del aprendizaje por refuerzo profundo. Naturaleza 518, 529–533 (2015).