Возрастное ограничение 12+

What Non-Content Perturbations Reveal About Human and Clinical LLM Decision

25.06.2025 06:46 Наука

Описание

📄 Набор данных MedPerturb: Как возмущения, не связанные с контентом, выявляют особенности принятия решений человеком и клиническими большими языковыми моделями (БЯМ)

В данной статье представлен MedPerturb, новый набор данных, предназначенный для оценки медицинских больших языковых моделей (БЯМ) при контролируемых возмущениях клинических данных. Набор данных содержит клинические виньетки, преобразованные по трем осям: гендер, стиль и формат. Авторы предоставляют 800 клинических контекстов, результаты работы четырех БЯМ и экспертные оценки людей. Исследование изучает, как эти возмущения влияют на выбор лечения людьми и БЯМ, и обнаруживает, что БЯМ более чувствительны к гендерным и стилистическим вариациям, в то время как на людей больше влияют изменения формата, созданные БЯМ, такие как клинические резюме. Результаты подчеркивают необходимость создания систем оценки, выходящих за рамки статических тестов, для оценки сходства решений, принимаемых врачами и БЯМ, в условиях реалистичной изменчивости клинических условий. Авторы предоставляют набор данных MedPerturb и код для платформы оценки.
#МедицинскиеБЯМ #НаборДанных #Возмущение #КлиническоеПринятиеРешений #ИИ #СравнениеЧеловекаИИ #Устойчивость

документ - https://arxiv.org/pdf/2506.17163v1
подписаться - https://t.me/arxivdotorg
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM

Автор

Paper debate
Paper debate