Исследователи Массачусетского технологического института (MIT) выявили критический недостаток в популярных моделях, связывающих обработку изображений с текстом (VLM — Vision-Language Models). Эти системы, используемые в медицине для анализа снимков, некорректно интерпретируют слова отрицания, такие как «нет» или «не». Например, при поиске рентгеновских изображений с отёком тканей, но без увеличения сердца, модель может предложить случаи, где оба признака присутствуют. Это чревато ошибками в диагностике: сочетание отёка и увеличенного сердца указывает на сердечное заболевание, а их разделение — на другие причины. Кумайл Альхамуд, аспирант MIT и ведущий автор работы, отметил: «Игнорирование отрицаний может привести к катастрофическим последствиям, если модели внедряются без проверки».