Возрастное ограничение 12+

Text-to-LoRA: Instant Transformer Adaption

Описание

Text-to-LoRA: Мгновенная адаптация трансформеров


Фундаментальные модели часто требуют адаптации под конкретную задачу, что традиционно включает дорогостоящую и трудоемкую тонкую настройку на специально подобранных наборах данных. Существующие параметрически эффективные методы, такие как LoRA, по-прежнему требуют оптимизации под конкретную задачу и подготовки набора данных для каждого нового приложения. В данной статье представлен Text-to-LoRA (T2L), новый метод мгновенной адаптации больших языковых моделей, основанный исключительно на описании целевой задачи на естественном языке. T2L реализован в виде гиперсети, которая генерирует матрицы низкоранговой адаптации (LoRA) для конкретной задачи за один эффективный прямой проход. Авторы обучили T2L, используя два основных метода: реконструкцию предобученных LoRA для конкретных задач и напрямую с помощью обучения с учителем (SFT) на разнообразном наборе задач. Эксперименты показывают, что T2L может эффективно сжимать сотни экземпляров LoRA, сохраняя при этом производительность, сравнимую с адаптерами для конкретных задач. Важно отметить, что T2L, обученный с использованием SFT, демонстрирует многообещающую обобщающую способность в режиме нулевого обучения (zero-shot generalization), генерируя полезные адаптеры для задач, которые он никогда явно не видел во время обучения. Абляционные исследования подчеркивают важность схемы обучения и качества описаний задач для производительности в режиме нулевого обучения. Визуализации показывают, что T2L, обученный с использованием SFT, учится генерировать различные, но семантически сгруппированные адаптеры для разных задач. Этот подход значительно снижает порог входа для специализации больших моделей, обеспечивая быструю адаптацию с минимальными вычислительными затратами и требованиями к наборам данных.


документ - https://arxiv.org/pdf/2506.06105v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM

Автор

Paper debate
Paper debate