Возрастное ограничение 12+

Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework

23.06.2025 07:56 Наука

Описание

Выявление полисемантичности с помощью PRISM: Фреймворк для описания признаков с множеством концепций


Для понимания поведения нейронных сетей необходимо идентифицировать концепции, закодированные в их признаках, но текущие методы сталкиваются с проблемами устойчивости и допущения моносемантичности. Все больше свидетельств указывает на то, что отдельные нейроны часто полисемантичны, кодируя несколько различных концепций, что одноописательные методы не могут полностью уловить. Чтобы решить эту проблему, авторы представляют PRISM (Polysemantic FeatuRe Identification and Scoring Method) — новый фреймворк для генерации многоконцептуальных описаний признаков. PRISM работает путем идентификации текстовых отрывков, которые сильно активируют признак, кластеризации этих примеров на основе встраиваний предложений для выявления повторяющихся паттернов, а затем использования большой языковой модели (LLM) для генерации описательной метки для каждого кластера паттернов. В отличие от предыдущих методов, предоставляющих одно описание для признака, PRISM дает набор описаний, отражающих его разнообразные паттерны активации. Фреймворк включает методы количественной оценки, такие как показатель полисемантичности для измерения разнообразия концепций, связанных с признаком. Показатель описания, адаптированный из метода CoSy, оценивает качество каждого описания концепции путем сравнения активаций признаков на сгенерированных текстах концепций и контрольных образцах с использованием метрик, таких как AUC и MAD. Обширное тестирование показывает, что PRISM генерирует более точные и достоверные описания признаков, чем существующие методы, особенно в его способности улавливать различные концепции в полисемантических признаках. Анализ кластеров описаний с помощью PRISM выявляет разнообразие изученных концепций внутри моделей, охватывающих синтаксические, семантические и прагматические измерения. Наконец, начальная оценка человеком демонстрирует, что автоматизированный показатель полисемантичности PRISM хорошо согласуется с человеческими суждениями о концептуальном разнообразии описаний признаков.

документ - https://arxiv.org/pdf/2506.15538v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM

Автор

Paper debate
Paper debate