DeepSeek и Пекинский университет создадут самосовершенствующиеся ИИ-модели
Новый метод улучшит работу ИИ с меньшими затратами ресурсов/imgs/2025/04/07/09/6780106/fa4d5ef54ca9e6f9f498950e167d222c82e8575d.jpg)
Исследования в этом направлении описаны в недавно опубликованной статье, в которой ученые предлагают новый способ обучения с подкреплением. Эта методика позволяет ИИ лучше учитывать предпочтения человека, награждая модели за более точные и понятные ответы. Обучение с подкреплением уже доказало свою эффективность в узких областях, однако применение этих техник для более широких задач всегда было проблемой. DeepSeek предлагает решение с использованием технологии, которую она называет «самокритическим настройком принципов».
Этот подход продемонстрировал лучшие результаты по сравнению с существующими методами и моделями, требуя меньших вычислительных ресурсов. Новые модели, получившие название DeepSeek-GRM (Generalist Reward Modeling), будут выпущены с открытым исходным кодом, что откроет доступ для других разработчиков ИИ.