Сбер выложил исходный код технологии ruGPT-3.5 — он доступен для всех желающих
Такая открытость впечатляетСбер выложил в открытый доступ исходный код своей технологии ruGPT-3.5, которая лежит в основе сервиса GigaChat.
Данная нейросетевая модель, разработанная на основе архитектуры GPT-3 от OpenAI, прошла стадию закрытого тестирования и теперь доступна для всех желающих. Лицензия MIT позволяет использовать материалы проекта даже в коммерческих целях.
Открытость ruGPT-3.5 предоставляет ряд преимуществ. В отличие от многих других больших языковых моделей, у неё есть широкая поддержка русского языка. Это делает технологию более качественной в обработке запросов на нём.
Обучение модели производилось в два этапа с использованием масштабных ресурсов. На первом этапе было обработано 300 ГБ данных из различных источников. Второй этап включал дообучение на 110 ГБ данных, что позволило создать мощную модель с 13 млрд параметров при длине контекста 2048 токенов.