В многоагентных системах, где несколько агентов на базе искусственного интеллекта взаимодействуют в одной среде, часто возникает конкуренция между целями отдельных участников. Это приводит к ситуации, когда каждый агент стремится максимизировать собственную выгоду, что в итоге мешает достижению общего результата. Проблема особенно актуальна для децентрализованных систем, где у каждого агента есть только локальная информация.
Команда Paradigms of Intelligence из Google предложила альтернативу традиционным жёстким алгоритмам координации. Вместо ручного задания правил взаимодействия учёные обучили агентов с помощью метода Predictive Policy Improvement (PPI) в среде с разнообразным пулом противников — как обучающихся, так и статических моделей. Такой подход вынуждает каждого агента адаптироваться к поведению других в реальном времени, используя только историю собственных взаимодействий.