Робастное MPC с учетом установившегося режима для систем с ограниченными ресурсами и возмущениями

1. Введение

Модельное прогнозирующее управление (MPC) — это мощная стратегия продвинутого управления, известная своей способностью работать с многомерными системами с ограничениями. Однако его зависимость от решения задачи оптимизации онлайн на каждом шаге создает значительную вычислительную нагрузку. Это ограничение особенно остро для систем с ограниченными вычислительными ресурсами, таких как встраиваемые системы, дроны или устройства периферийных вычислений. Традиционные подходы для смягчения этой проблемы — например, сокращение горизонта прогнозирования — часто приводят к компромиссу с гарантиями производительности, такими как сходимость к установившемуся режиму. Структура MPC с учетом установившегося режима, предложенная в качестве решения, обеспечивает отслеживание выхода и сходимость к желаемому равновесию без дополнительных онлайн вычислений. Тем не менее, ее критический недостаток — отсутствие робастности к внешним возмущениям, что является обязательным требованием для реального применения. Данная статья непосредственно устраняет этот пробел, интегрируя трубчатые методы робастного управления в структуру MPC с учетом установившегося режима, создавая метод, который является одновременно вычислительно эффективным и устойчивым к возмущениям.

2. Предварительные сведения и постановка задачи

В статье рассматриваются дискретные линейные стационарные (LTI) системы, подверженные ограниченным аддитивным возмущениям и ограничениям на состояние и управление. Основная задача состоит в разработке закона MPC, который: 1) Работает с коротким фиксированным горизонтом прогнозирования для ограничения онлайн вычислений. 2) Гарантирует соблюдение ограничений в любое время. 3) Обеспечивает сходимость к желаемому установившемуся режиму. 4) Является робастным к постоянным ограниченным внешним возмущениям. Система моделируется как: $x_{k+1} = Ax_k + Bu_k + w_k$, где $x_k \in \mathbb{R}^n$, $u_k \in \mathbb{R}^m$, а $w_k \in \mathbb{W} \subset \mathbb{R}^n$ — ограниченное возмущение. Множества $\mathbb{X}$ и $\mathbb{U}$ определяют ограничения на состояние и управление соответственно.

3. Предлагаемое робастное MPC с учетом установившегося режима

3.1 Основная формулировка

Предлагаемый контроллер строится на основе номинального MPC с учетом установившегося режима. Ключевая идея — параметризация прогнозируемой траектории состояния таким образом, чтобы она по своей сути направляла систему к допустимому установившемуся режиму $(x_s, u_s)$. Задача онлайн оптимизации формулируется для минимизации функции стоимости на коротком горизонте при одновременном наложении терминальных ограничений, связывающих конечное прогнозируемое состояние с этим установившимся режимом, что обеспечивает свойства сходимости на длинном горизонте, несмотря на короткое окно прогнозирования.

3.2 Трубчатая обработка возмущений

Для обеспечения робастности авторы используют стратегию трубчатого MPC. Основная идея заключается в разложении закона управления на две составляющие: номинальное управление, вычисляемое путем решения MPC с учетом установившегося режима для модели без возмущений, и вспомогательный закон обратной связи, разработанный офлайн, чтобы удерживать фактическое возмущенное состояние внутри ограниченной «трубки» вокруг номинальной траектории. Эта трубка, часто определяемая как робастное положительно инвариантное (RPI) множество, гарантирует, что если номинальное состояние удовлетворяет ужесточенным ограничениям, то фактическое состояние будет удовлетворять исходным ограничениям, несмотря на возмущения. Эта элегантная декомпозиция означает, что сложная обработка робастных ограничений выполняется офлайн, сохраняя простоту онлайн вычислений номинального контроллера.

4. Теоретический анализ

4.1 Рекурсивная разрешимость

В статье приводится строгое доказательство того, что если задача оптимизации разрешима на начальном шаге, она остается разрешимой для всех последующих шагов при действии предлагаемого закона управления и в присутствии ограниченных возмущений. Это фундаментальное требование для любой практической реализации MPC.

4.2 Устойчивость замкнутой системы

Используя теорию устойчивости Ляпунова, авторы демонстрируют, что замкнутая система является устойчивой «вход-состояние» (ISS) по отношению к возмущению. Это означает, что состояние системы в конечном итоге сойдется к ограниченной области вокруг желаемого установившегося режима, причем размер этой области пропорционален границе возмущений.

5. Результаты моделирования

Численное моделирование на эталонной системе (например, двойном интеграторе) используется для проверки производительности контроллера. Ключевые метрики включают: нарушение ограничений (не наблюдалось), ошибку сходимости (ограниченную в пределах теоретической трубки) и время вычислений на шаг управления (значительно ниже, чем у робастного MPC с длинным горизонтом). Результаты наглядно демонстрируют, как фактическая траектория состояния остается внутри вычисленной трубки вокруг номинальной траектории даже при постоянных возмущениях.

6. Экспериментальная проверка на Parrot Bebop 2

Практичность предлагаемого метода проверена на квадрокоптере Parrot Bebop 2 — платформе с ограниченной вычислительной мощностью на борту. Цель управления — отслеживание траектории (например, фигуры «восьмерка») в присутствии смоделированных порывов ветра (моделируемых как возмущения). Экспериментальные данные показывают, что робастное MPC с учетом установившегося режима успешно удерживает дрон близко к желаемой траектории с минимальным отклонением, в то время как загрузка ЦП бортового компьютера остается в допустимых пределах, что подтверждает вычислительную эффективность и практическую робастность метода.

7. Заключение

В статье успешно представлена новая робастная структура MPC, объединяющая вычислительные преимущества проектирования с учетом установившегося режима с гарантиями робастности трубчатого MPC. Она предлагает жизнеспособное решение для реализации высокопроизводительного управления с учетом ограничений на системах с ограниченными ресурсами, работающих в неопределенных средах, что подтверждено как теоретическим анализом, так и аппаратными экспериментами.

8. Оригинальный анализ и экспертное заключение

Ключевая идея: Эта статья — не просто очередная небольшая доработка MPC; это стратегический инженерный компромисс, выполненный с хирургической точностью. Авторы определили точку баланса между вычислительной осуществимостью и робастной производительностью для встраиваемых систем. Они принимают ограничение короткого горизонта прогнозирования — серьезную уступку — но гениально восстанавливают утраченные гарантии (сходимость к установившемуся режиму, робастность) с помощью умного офлайн проектирования (трубчатые множества, параметризация установившегося режима). Это управление как управление ресурсами.

Логика изложения: Аргументация убедительна и линейна. Начинается с нерешенной проблемы (пробел в робастности эффективного MPC), выбирается теоретически обоснованный инструмент (трубчатый MPC), известный своей способностью разделять сложность, и он бесшовно интегрируется в существующую эффективную структуру (MPC с учетом установившегося режима). Валидация логично переходит от теории (доказательства) к моделированию (концепции) и эксперименту (реальность на дроне), следуя золотому стандарту, примером которого являются основополагающие работы, такие как оригинальная статья по трубчатому MPC Mayne и др. (2005) в Automatica.

Сильные стороны и недостатки: Основная сила — практичность. Используя трубчатые методы, подход избегает необходимости сложных онлайн min-max оптимизаций, которые вычислительно неподъемны. Использование дрона для валидации отлично — это понятная платформа с ограниченными ресурсами. Однако недостаток заключается в консервативности, присущей трубчатому MPC. Офлайн вычисление RPI множества и последующее ужесточение ограничений могут значительно сузить область допустимых решений контроллера, потенциально ограничивая его маневренность. Это хорошо известный компромисс в робастном управлении, как обсуждается, например, в лекционных материалах по управлению с ограничениями Лаборатории автоматического управления ETH Zurich. В статье можно было бы более явно количественно оценить эту потерю производительности по сравнению с (вычислительно дорогим) идеальным робастным MPC.

Практические выводы: Для практиков: это готовый к использованию план внедрения робастного MPC на периферийных устройствах. Сосредоточьтесь на эффективном вычислении RPI множества — рассмотрите использование политопных или эллипсоидальных аппроксимаций для баланса сложности и консервативности. Для исследователей: следующая граница — адаптивные или основанные на обучении трубки. Могут ли нейронные сети, подобные используемым в MPC на основе моделей с обучением с подкреплением или вдохновленные работами типа Learning-based Model Predictive Control (туториалы IEEE CDC), обучаться оценивать более узкие множества возмущений онлайн, уменьшая консервативность при сохранении робастности? Это было бы логичным развитием данной работы.

9. Технические детали и математический аппарат

Задача онлайн оптимизации в момент времени $k$: $$ \begin{aligned} \min_{\mathbf{u}_k, x_s, u_s} &\quad \sum_{i=0}^{N-1} \ell(\bar{x}_{i|k} - x_s, \bar{u}_{i|k} - u_s) + V_f(\bar{x}_{N|k} - x_s) \\ \text{s.t.} &\quad \bar{x}_{0|k} = \hat{x}_k, \\ &\quad \bar{x}_{i+1|k} = A \bar{x}_{i|k} + B \bar{u}_{i|k}, \\ &\quad \bar{x}_{i|k} \in \bar{\mathbb{X}} \subseteq \mathbb{X} \ominus \mathcal{Z}, \\ &\quad \bar{u}_{i|k} \in \bar{\mathbb{U}} \subseteq \mathbb{U} \ominus K\mathcal{Z}, \\ &\quad \bar{x}_{N|k} \in x_s \oplus \mathcal{X}_f, \\ &\quad (x_s, u_s) \in \mathcal{Z}_{ss}. \end{aligned} $$ Здесь $\bar{x}, \bar{u}$ — номинальные состояния/управления, $N$ — короткий горизонт, $\ell$ и $V_f$ — пошаговая и терминальная стоимости. Критическими элементами являются ужесточенные множества ограничений $\bar{\mathbb{X}}, \bar{\mathbb{U}}$ (исходные множества, уменьшенные на RPI множество $\mathcal{Z}$ с помощью разности Понтрягина $\ominus$) и вспомогательный закон $u_k = \bar{u}_{0|k}^* + K(x_k - \bar{x}_{0|k}^*)$, где $K$ — стабилизирующий коэффициент. Множество $\mathcal{Z}_{ss}$ определяет допустимые установившиеся режимы.

10. Структура анализа: концептуальный пример

Сценарий: Автономный дрон для доставки, летящий в городском каньоне (ограниченные вычислительные ресурсы, ветровые возмущения).
Шаг 1 – Офлайн проектирование:

Модель и множество возмущений: Определить линеаризованную динамику вокруг режима висения. Охарактеризовать порывы ветра как ограниченное множество $\mathbb{W}$ (например, ±2 м/с в горизонтальной плоскости).
Вычисление RPI трубки: Спроектировать коэффициент обратной связи $K$ (например, LQR) и вычислить минимальное RPI множество $\mathcal{Z}$ для $e_{k+1} = (A+BK)e_k + w_k$. Это определяет «трубку ошибки».
Ужесточение ограничений: Уменьшить воздушный коридор дрона (ограничения состояния) и пределы тяги двигателей (ограничения управления) на $\mathcal{Z}$ и $K\mathcal{Z}$, чтобы получить $\bar{\mathbb{X}}, \bar{\mathbb{U}}$.
Определение множества установившихся режимов: $\mathcal{Z}_{ss}$ содержит все стационарные точки висения внутри ужесточенного коридора.

Шаг 2 – Онлайн работа: На каждом 10-миллисекундном цикле управления:

Измерение состояния: Получить текущее положение/скорость дрона $x_k$ с датчиков.
Решение номинального MPC: Решить небольшую задачу квадратичного программирования (используя $\bar{\mathbb{X}}, \bar{\mathbb{U}}, \mathcal{Z}_{ss}$), чтобы получить номинальный план $\bar{u}^*$ и целевой установившийся режим.
Применение составного управления: $u_k = \bar{u}^*_{0|k} + K(x_k - \bar{x}^*_{0|k})$. Первое слагаемое направляет миссию, второе — активно подавляет порывы ветра, удерживая дрон в трубке.

Эта структура гарантирует безопасный полет (соблюдение ограничений) и выполнение миссии (сходимость к установившемуся режиму) несмотря на ветер, используя только легковесные онлайн вычисления.

11. Будущие применения и направления исследований

Периферийный ИИ и IoT: Развертывание продвинутого управления на умных датчиках, носимых устройствах и микророботах для точных задач в производстве и здравоохранении.
Автономные рои: Масштабируемое управление для больших групп дешевых простых дронов или роботов, где каждый агент имеет серьезные вычислительные ограничения.
Исследования следующего поколения:
- Обучение трубки: Использование данных в реальном времени для адаптивной оценки множества возмущений $\mathbb{W}$ и сужения трубки, уменьшая консервативность. Это объединяется с адаптивным MPC и парадигмами управления на основе обучения.
- Нелинейные расширения: Применение философии к нелинейным системам с использованием концепций нелинейного трубчатого MPC или дифференциальной плоскостности, что критически важно для агрессивного маневрирования дронов.
- Совместное проектирование аппаратного и программного обеспечения: Создание специализированных встраиваемых чипов (ПЛИС, ASIC), оптимизированных для решения конкретной небольшой задачи квадратичного программирования этой структуры при сверхнизком энергопотреблении.

12. Список литературы

Jafari Ozoumchelooei, H., & Hosseinzadeh, M. (2023). Robust Steady-State-Aware Model Predictive Control for Systems with Limited Computational Resources and External Disturbances. [Название журнала].
Mayne, D. Q., Seron, M. M., & Raković, S. V. (2005). Robust model predictive control of constrained linear systems with bounded disturbances. Automatica, 41(2), 219-224.
Rawlings, J. B., Mayne, D. Q., & Diehl, M. M. (2017). Model Predictive Control: Theory, Computation, and Design (2nd ed.). Nob Hill Publishing.
ETH Zurich, Automatic Control Laboratory. (n.d.). Лекционные материалы по модельно-прогнозирующему управлению. Получено с [Сайт института].
Hewing, L., Wabersich, K. P., Menner, M., & Zeilinger, M. N. (2020). Learning-based model predictive control: Toward safe learning in control. Annual Review of Control, Robotics, and Autonomous Systems, 3, 269-296.