Динамическое моделирование при управлении дорожным движением

12:57, 7 января 2024

Статьи

Автор: Redactor

В последние годы развитие методов искусственного интеллекта привело к значительному интересу к машинному обучению с подкреплением (RL — reinforcement learning) в дорожно-транспортном сообществе. Динамическое управление дорожным движением стало заметной областью применения этой технологии и является одной из основных тем исследований в области интеллектуальных транспортных систем. Системы управления потоками в дорожном движении могут извлечь выгоду из динамического управления, смягчая негативные последствия от пробок на дорогах, уменьшая время задержки в пути, а также выбросы вредных веществ, загрязняющих окружающую среду или повышая безопасность на дорогах.

За последние десятилетия большинство работ в этой области преимущественно концентрировались на разработке стратегий простого моделирования дорожной ситуации. Но такая реализация на практике сталкивается с двумя серьёзными проблемами. Во-первых, динамика дорожного движения по своей сути сложна и обычно описывается нелинейными моделями. Следовательно, формулировки оптимального управления, полученные на основе этого, также являются нелинейными. Именно эта нелинейность создаёт трудности при реализации в реальном времени, особенно при решении крупномасштабных задач оптимизации, что приводит к резкому возникновению пробок в момент переключения стратегии управления. Должно пройти значительное время (от часа до двух), чтобы дорожная ситуация после этих моментов нормализовалась. Во-вторых, производительность диспетчерских схем, выполненных на основе таких нелинейных моделей, во многом зависит от точности базовых данных о транспортных потоках, которые стекаются в центры обработки данных (ЦОД), где оперативно анализируются. А в виду того, что даже базовые данные в этой сфере не являются статичными, так как в большом мегаполисе постоянно происходят сужения/расширения дорожного полотна, ремонты (запланированные и аварийные), перекрытия улиц по другим причинам — то и на выходе моделирования информация будет ещё более искажённой.

Таким образом, учитывая наличие различных непредсказуемых факторов человеческого поведения, которые могут повлиять на динамику дорожного движения, становится сложно точно предсказать развитие транспортных процессов с использованием детерминированной модели транспортных потоков. Исследования показали, что несоответствие между моделью прогнозирования и реальным процессом дорожного движения может привести к снижению производительности выработанных схем.

Чтобы решить проблему несоответствия моделей, разработчики выстраивают надёжные подходы к управлению для оптимизации, рассматривая сценарий прогнозирования наихудшего случая, с учётом неопределённых условий дорожного движения. Однако, надёжные методы управления также страдают от высокой вычислительной нагрузки реалтайм, поэтому сценарии их применения могут оперативно работать только в сетях с небольшим трафиком. В последние годы машинное обучение искусственного интеллекта с подкреплением, которое успешно применяется в области робототехники и видеоигр, также привлекло значительное внимание в сфере управления дорожным движением. RL предлагает несколько преимуществ, которые могут преодолеть почти все ограничения управления трафиком.
Одним из заметных преимуществ является то, что методы управления трафиком на основе RL часто не полагаются на онлайн-прогнозирование и оптимизацию трафика, что приводит к сокращению времени онлайн-вычислений по сравнению с подходами оптимального управления на основе моделей. Более того, обучая контроллер RL с использованием данных реального трафика, политику управления можно оптимизировать на основе оценки реального трафика, что потенциально снижает проблему несоответствия модели.

Специальные алгоритмы моделирования были разработаны для решения различных проблем управления дорожным движением, таких как управление сигналами светофора, измерение скорости потока с динамическими изменениями. Но и тут существует несколько факторов, которые ограничивают потенциал реализации стратегии. Во-первых, в процессе обучения отработка случайных управляющих действий может привести к дополнительным задержкам или даже небезопасным дорожным ситуациям, что недопустимо. Во-вторых, учитывая ограниченное время обучения в реальных условиях (а не только исключительно в симуляционных средах), нет никакой гарантии достижения желаемого уровня улучшения показателей. Поэтому, когда модели RL обучаются исключительно на симуляторах, может возникнуть несоответствие между средой обучения и реальным процессом дорожного движения, что может привести к снижению эффективности управления.

Для онлайн-методов внедрения предполагается, что модели обучаются непосредственно в реальной дорожной среде, а затраты на исследование и обучение исследуются посредством микроскопического моделирования. С другой стороны, офлайн-методы включают обучение моделей RL в среде моделирования и перенос полученных оптимальных политик управления в реальные процессы дорожного движения. Базовая структура машинного обучения включает в себя агента, ответственного за принятие решений, и среду, которая включает в себя всё, с чем взаимодействует агент. Обычно агент и среда взаимодействуют дискретно по времени. На каждом временном шаге агент выполняет действие в зависимости от состояния, предоставленного средой. В ответ среда представляет новое состояние, определяемое распределением вероятностей. Представленная базовая структура RL может быть применена к системе управления трафиком, где динамика трафика — это среда, а диспетчер трафика — агент. Агенты формулируются исходя из цели системы управления. Для крупномасштабных задач управления городским движением координация каждого обучающегося агента в рамках стратегий RL становится необходимой для снижения сложности обучения и повышения эффективности.

В системе управления обычно используются два механизма повышения эффективности трафика. При возникновении локального узкого места обычно предполагается, что скорость потока ниже критической, приводит к фундаментальной схеме с уменьшенной пропускной способностью. Благодаря внедрению модели, перед узким местом основной входящий поток постоянно уменьшается, чтобы предотвратить последующее падение пропускной способности.

Существующие стратегии управления городскими светофорами на основе RL охватывают различные сценарии, включая контроль одного перекрёстка, координацию нескольких перекрёстков и контроль периметра. В контексте управления сигналом одного светофора, длина очереди каждой полосы движения и текущая фаза обеспечивают эффективное представление переменных состояния. Выбор действия может включать в себя установку продолжительности фазы зелёного света, в зависимости от конкретных настроек светофора.

Для управления сигналами с несколькими пересечениями на основе RL существуют две преобладающие формулировки агентов, а именно формулировка с одним глобальным агентом и формулировка с несколькими агентами. Единый глобальный агент усваивает информацию о состоянии всех перекрёстков в качестве входных данных и учится одновременно определять скоординированные действия всех перекрёстков. Чтобы решить проблему расширения пространства совместных действий, в результате увеличения числа агентов для моделирования, в некоторых разработках были реализованы методы совместного обучения, которые сочетают процесс обучения централизованного глобального агента с каждым локальным. Эта интеграция позволяет каждому агенту оптимизировать свою политику, учитывая, как своё собственное состояние, так и действия, выполняемые соседними агентами.

Контроль периметра использует сигналы трафика для регулирования потока в восходящем направлении защищённой сети, чтобы предотвратить перенасыщение. В многоранговых сетях происходит моделирование с переменными состояниями, которые охватывают региональные накопления и потребности в трафике. Реализация действия может происходить двумя методами: дискретным или непрерывным. Дискретное управление периметром часто использует двухуровневое управление, при этом периметры находятся в полностью открытом или полностью закрытом состоянии. При непрерывном контроле указывается скорость измерения для каждого канала периметра.

Стратегии управления дорожной обстановкой обычно оцениваются в ходе моделирования всего комплекса организации дорожного движения, но с упором на показатели эффективности, безопасности и устойчивости. Эффективность трафика обычно измеряется такими показателями, как общее затраченное время, пропускная способность, средняя задержка в пути или средняя длина автомобилей в пробке. Показатели безопасности часто оцениваются с использованием суррогатных показателей безопасности, таких как время до столкновения, индекс вероятности аварии и индекс конфликта. Соображения устойчивого развития включают оценку расхода топлива и выбросов загрязняющих веществ, рассчитанных на основе траекторий движения транспортных средств. Корректировки базовых моделей предпринимаются, как средство более эффективной имитации несоответствия окружающей среде, учитывая, что имитационные модели пока не могут идеально воспроизвести гетерогенные характеристики водителей.

Рейтинг статьи

Оцените статью: