Разгадка тайны машинного обучения на примере GPT-3, на которой работает нашумевшая нейросеть ChatGPT
И не только онаИсследователи изучают явление, известное как контекстное обучение, когда большая языковая модель учится выполнять задачу, увидев всего несколько примеров - несмотря на то, что она не была обучена для этой задачи.
Ученые из Массачусетского технологического института, Google Research и Стэнфордского университета пытаются разгадать эту загадку. Они изучили модели, очень похожие на большие языковые, чтобы понять, как они могут обучаться без обновления параметров.
Теоретические результаты исследователей показывают, что эти массивные нейросетевые модели способны содержать внутри себя меньшие, более простые линейные модели. Большая модель может реализовать простой алгоритм обучения, чтобы обучить эту меньшую линейную модель выполнять новую задачу, используя только информацию, уже содержащуюся в большой модели. Ее параметры остаются фиксированными.
Благодаря лучшему пониманию внутриконтекстного обучения исследователи смогут позволить моделям выполнять новые задачи без необходимости дорогостоящего переобучения.