NASA и IBM разработали новую модель INDUS для науки и космоса
Он основан на больших языковых моделей© Ferra.ru
Кодеры обучены на корпусе из 60 миллиардов токенов, охватывающем астрофизику, планетологию, науку о Земле, биологию и физику. Использование специализированного токенизатора позволяет моделям лучше распознавать научные термины, такие как «биомаркеры» и «фосфорилированные».
INDUS успешно превзошел общедоступные LLMs в биомедицинских задачах, вопросно-ответных бенчмарках и распознавании сущностей в науке о Земле. Модели INDUS обеспечивают высокую скорость работы и точность, что особенно важно для задач с низкой задержкой. Они интегрированы в системы NASA для улучшения доступа к научным данным и повышения производительности кураторов.
INDUS также используется для категоризации публикаций и поиска данных GES-DISC, что улучшает пользовательский опыт и эффективность научных исследований. Модели INDUS доступны в открытом доступе на Hugging Face, поддерживая прозрачность и доступность в искусственном интеллекте.