В «Яндексе» упростили подключение нейросетей для бизнес задач
Разработав новый метод сжатия больших языковых моделейКоманда Yandex Research вместе с учёными из IST Austria и Kaust представила новые методы сжатия больших языковых моделей, которые могут значительно сократить затраты на вычислительные ресурсы. Эти методы позволят бизнесу уменьшить расходы до восьми раз, благодаря снижению требований к мощным графическим процессорам.
Разработанное решение «Яндекса» упрощает работу с нейросетями, делая их более доступными. Уменьшение модели позволяет запустить её на меньшем количестве процессоров, что снижает стоимость внедрения и обслуживания. В отличие от других методов сжатия, которые часто ухудшают качество ответов, новый подход сохраняет высокое качество нейросети.
В рамках проекта было создано два инструмента. Один из них позволяет значительно уменьшить размер модели, так, что она может работать на одном процессоре вместо четырёх. Второй инструмент исправляет ошибки, возникающие при сжатии. На тестах с популярными моделями, такими как Llama 2 и Mistral, новый метод показал, что он сохраняет до 95% качества ответов, что гораздо выше по сравнению с другими инструментами. Код и сжатые модели уже доступны на GitHub, а также представлены обучающие материалы для разработчиков.