Опубликовано 09 декабря 2024, 11:05
1 мин.

Яндекс создал сервис для запуска ИИ на смартфоне и ПК с экономией на мощностях

Проект с открытым кодом поможет сократить расходы на использование LLM
Владимир Малиновский, исследователь из научного отдела Яндекса, разработал сервис для запуска большой языковой модели (LLM) с 8 млрд параметров на обычных компьютерах и смартфонах. Это решение позволяет значительно сократить расходы на вычислительные мощности, что делает использование нейросетей более доступным для корпораций, стартапов и исследователей. Исходный код проекта был опубликован на GitHub и доступен в открытом доступе.
Яндекс создал сервис для запуска ИИ на смартфоне и ПК с экономией на мощностях

© Ferra.ru

Проект основывается на технологии сжатия нейросетей AQLM, которая была разработана командой Yandex Research совместно с университетами ISTA и KAUST летом 2024 года. Это позволило перенести все вычисления на устройства пользователей, исключив необходимость в дорогих графических процессорах.

Сервис позволяет пользователям загрузить модель, размер которой был уменьшен в шесть раз, с 15 до 2,5 ГБ. Модель работает даже без интернета, а её скорость зависит от мощности устройства. Например, на MacBook Pro M1 модель отвечает со скоростью 1,5 токена в секунду.

Программа написана на языке Rust с использованием технологии WebAssembly, что позволяет запускать её прямо в браузере. Несмотря на значительное сжатие, качество работы модели сохраняется на уровне 80% от исходных показателей, благодаря использованию методов AQLM и PV-tuning.