Российские ученые создали ИИ, способный самостоятельно обучиться новым действиям
Обучение в контексте позволяет ИИ-агентам адаптироваться к изменениям окружающей среды, используя четыре ключевых компонента: состояние (State), переход (Transition), награда (Reward) и действие (Action). Ранее ИИ-агенты успешно справлялись с первыми тремя компонентами, но адаптация по действиям оставалась проблемной, требуя переобучения при добавлении новых действий.
Модель Headless-AD, созданная на основе алгоритма дистилляции (Algorithm Distillation), решает эту проблему с помощью трех основных модификаций: отказ от конечного линейного слоя, кодировка действий случайными векторами и внедрение контекста. Это позволяет модели автоматически адаптироваться к новым действиям без потери качества.
В экспериментах Headless-AD продемонстрировала значительное преимущество. В задачах рекомендательных систем, таких как «Контекстуальные бандиты», модель смогла рекомендовать в 5 раз больше товаров по сравнению с обученной моделью AD, без необходимости переобучения для нового набора товаров. Также в задаче «Многорукие бандиты» Headless-AD показала результаты на уровне специализированного алгоритма.