Изследване разкри когнитивни ограничения на чатботовете със скрининг за деменция


Почти всички водещи големи езикови модели или чатботове показват признаци на леко когнитивно увреждане в тестове, широко използвани за откриване на ранни признаци на деменция, показва проучване, публикувано в "Бритиш медикъл джърнъл". 
Резултатите сочат също, че по-старите версии на чатботовете, подобно на по-възрастните пациенти, се представят по-зле на тестовете. Авторите казват, че тези резултати "оспорват предположението, че изкуственият интелект скоро ще замени лекарите".
Огромният напредък в областта на изкуствения интелект доведе до вълна от предположения дали чатботовете могат да надминат хората в медицината. Няколко проучвания показаха, че големите езикови модели (LLM) са забележително вещи в редица задачи за медицинска диагностика, но все още не е изследвана тяхната податливост на увреждания, като например когнитивен спад.
За да запълнят тази празнина в знанията, изследователите оценяват когнитивните способности на водещите публично достъпни LLM - ChatGPT версии 4 и 4o (разработени от OpenAI), Claude 3.5 Sonnet (разработен от Anthropic) и Gemini версии 1 и 1.5 (разработени от Alphabet) - с помощта на Монреалския тест за когнитивна оценка (Montreal Cognitive Assessment  - MoCA).
Тестът MoCA се използва широко за откриване на когнитивни нарушения и ранни признаци на деменция, обикновено при възрастни хора. Чрез редица кратки задачи и въпроси той оценява способности, включително внимание, памет, език, визуално-пространствени умения и изпълнителни функции. Максималният резултат е 30 точки, като резултат от 26 или повече точки обикновено се счита за нормален.
Инструкциите, давани на LLM за всяка задача, са същите като тези към пациентите. Оценяването на точките следва официалните указания и е било възложено на практикуващ невролог. 
ChatGPT 4o постига най-висок резултат на теста MoCA (26 от 30), следван от ChatGPT 4 и Claude (25 от 30), а Gemini 1.0 е с най-нисък резултат (16 от 30). 
Всички чатботове показват слаби резултати при визуално-пространствените умения и изпълнителните задачи, като например задачата за създаване на пътеки (свързване на оградени цифри и букви във възходящ ред) и теста за рисуване на часовник (рисуване на циферблат на часовник, показващ определено време). Моделите Gemini не успяват да се справят със задачата за забавено спомняне (запомняне на последователност от пет думи).
Повечето други задачи, включително назоваване, внимание, език и абстракция, са  изпълнени добре от всички чатботове.
Но при по-нататъшните визуално-пространствени тестове чатботовете не успяват да проявят съпричастност или да интерпретират точно сложни визуални сцени. Само ChatGPT 4o се справя с етапа на теста Stroop, който използва комбинации от имена на цветове и цветове на шрифтове, за да измери как намесата влияе на времето за реакция.
Това са констатации от наблюдения и авторите признават съществените разлики между човешкия мозък и големите езикови модели.
Те обаче посочват, че общият провал на всички големи езикови модели при задачи, изискващи визуална абстракция и изпълнителна функция, подчертава значителна област на слабост, която може да попречи на използването им в клинични условия.
"Не само че невролозите скоро няма да бъдат заменени от големи езикови модели, но нашите открития предполагат, че те скоро могат да се окажат лекуващи нови, виртуални пациенти – модели на изкуствен интелект, показващи когнитивно увреждане", е заключението на авторите.

Пекин

Учени откриха причината за пожълтяването на кората на краставиците

Учени откриха причината за пожълтяването на зелената кора на краставиците, съобщи електронното издание Юрикалърт.  Изследователи от китайски аграрни университети, като...

Лондон

Вселената може би не изглежда еднакво във всички посоки в особено големи мащаби, смятат учени

Международно изследване, публикувано в списание „Нейчър“, предлага нов анализ на разпределението на галактиките във Вселената, като поставя въпроси относно валидността...

Лондон

Два гърбати кита поставиха рекорди, като преплуваха разстоянието между Австралия и Бразилия

Учени са наблюдавали два гърбати кита, които са извършили отделни, рекордни по дължина преходи между Австралия и Бразилия, пише phys.org....

Попово

Националната фолклорна среща „Автентичност и съвремие“ превърна за три дни Попово в център на българското народно творчество

Националната фолклорна среща „Автентичност и съвремие“ превърна Попово в център на българското народно творчество. Форумът се проведе в рамките на...

Банско

Създаване на бизнес контакти и изграждане на общност стоят в основата на „Банско Номад Фест“, казват от екип на фестивала

Създаване на бизнес контакти и изграждане на общност стоят в основата на „Банско Номад Фест", който тази година се проведе...

Свети Влас

В Свети Влас ще бъде открита паметна плоча на изградилия 40 параклиса отец Петър

Бронзов барелеф на отец Петър Цанков ще бъде открит в понеделник в 12.00 часа в близост до храм „Свети Власий"...