Сбер анонсировал глобальное обновление своей нейросети
Специалисты из Сбера работают над усовершенствованием сервиса GigaChat, используя одну из самых передовых моделей для русского языка с 29 миллиардами параметров. Согласно выступлению на конференции Сбера по искусственному интеллекту, новая LLM (языковая модель) станет основой для следующей версии GigaChat, и этот шаг приблизит сервис к зарубежным аналогам.
Старший вице-президент и руководитель блока «Технологии» Сбербанка, Андрей Белёвцев, поделился, что проект по обучению моделей для GigaChat является масштабным и сложным, превосходя по вычислительным операциям модель ruGPT-3. Компания создала уникальный датасет специально для GigaChat, над которым работает много сотрудников, чтобы улучшить качество ответов в разных областях.
С использованием новой LLM GigaChat эффективнее следует инструкциям, способен решать более сложные задачи и демонстрирует улучшенное качество в различных аспектах, таких как суммаризация текстов и ответы на вопросы. Сравнение с предыдущей моделью показало общее повышение качества на 23%, а в области фактологии новая модель справляется на 25% лучше.
Разработчики провели ряд экспериментов, используя фреймворк для обучения больших языковых моделей и оптимизацию использования видеокарт. В результате внутренней оценки в бенчмарке MMLU, новая модель GigaChat превзошла самый популярный аналог LLaMA 2 34B.