Нейросеть Сбера «научилась» проверять факты в своих ответах GigaSearch — это система, которая создаёт ответы, основываясь на результатах поиска, и активируется автоматически, когда нужно предоставить точный фактический ответ. Этот метод, известный как RAG (Retrieval-Augmented Generation) в англоязычной литературе, позволяет языковым моделям использовать внешние данные. OpenAI также поделились информацией о применении этого подхода. При разработке этой функциональности мы ставили перед собой несколько целей. Во-первых, мы предоставляем пользователю возможность проверить правильность ответа, перейдя по ссылке на первоисточник, если у него есть сомнения. Во-вторых, это даёт возможность получить дополнительную информацию, переходя по ссылкам, если есть желание. Теперь о самом интересном. GigaSearch работает на основе простой схемы: мы предоставляем GigaChat-у документы, связанные с запросом пользователя. Мы обучили GigaChat указывать, какие документы он использовал в ответе, и добавили эту информацию в пользовательский интерфейс. Для этого мы собрали датасет с запросами и ответами, где специальными маркерами SOURCES[X] были указаны использованные источники. После проверки корректности ответов и ссылок разметчиками, корректные пары были включены в датасет для дополнительного обучения GigaChat. Осталось только написать парсер для выделения строк SOURCES[X] из ответа и передачи их в пользовательский интерфейс.