Berlin. Im bekannten Test zur Feststellung von Demenz haben Chatbots erhebliche Schwächen gezeigt. Wer noch am besten abgeschnitten hat.

In den letzten Jahren haben die Fortschritte bei Künstlicher Intelligenz (KI) neue Dimensionen erreicht. Vorreiter wie OpenAIs ChatGPT, Alphabets Gemini und Anthropics Claude haben in vielen Bereichen, darunter auch der Medizin, großes Aufsehen erregt. Immer wieder wird darüber debattiert, ob KI irgendwann Menschen in ihrem Job ersetzen kann. Eine neue Studie, veröffentlicht in der Weihnachtsausgabe des „British Medical Journal“, hat nun eine Schwachstelle identifiziert: Die Chatbots zeigen eine leichte kognitive Beeinträchtigungen.

Dafür wurden alle großen Chatbots einem der bekanntesten Tests für kognitive Leistungsfähigkeit unterzogen – dem Montreal Cognitive Assessment (MoCA), einem Standardtest zur Diagnose von Demenz bei Menschen. Der MoCA-Test wird weltweit von Neurologen eingesetzt und bewertet Fähigkeiten wie Aufmerksamkeit, Gedächtnis, Sprache, visuell-räumliche Wahrnehmung und exekutive Funktionen. Die Höchstpunktzahl liegt bei 30, ein Wert von 26 oder höher gilt als normal.

Auch interessant

Studie zu KI: Keines der Modelle erreicht maximale Punktzahl von 30

Keines der Modelle konnte die maximale Punktzahl von 30 erreichen. Während einige Modelle an der Grenze zu leichter kognitiver Beeinträchtigung lagen, schnitt Gemini 1.0 besonders schlecht ab und erreichte nur 16 von 30 Punkten. Die anderen Chatbots schlossen wie folgt ab:

  • ChatGPT 4o erreichte 26 Punkte (Normbereich)
  • ChatGPT 4 erreichte 25 Punkte (leichte kognitive Beeinträchtigung)
  • Claude 3.5 Sonnet erreichte 25 Punkte (leichte kognitive Beeinträchtigung)
  • Gemini 1.5 erreichte 17 Punkte (leichte kognitive Beeinträchtigung)
  • Gemini 1.0 erreichte 16 Punkte (leichte kognitive Beeinträchtigung)

Besonders auffällig war die Leistung bei Aufgaben zur visuellen Wahrnehmung und exekutiven Funktion, wie dem Zeichnen einer Uhr oder dem Kopieren eines Würfels. Alle Modelle hatten Schwierigkeiten, diese Aufgaben korrekt auszuführen. Im Gegensatz dazu schnitten die Modelle bei Aufgaben wie der Benennung von Objekten, der Aufmerksamkeit und der Sprache deutlich besser ab.

Überraschend daran: Auch bei Künstlicher Intelligenz machte das Alter einen Unterschied. Neuere Modelle schnitten in der Regel besser ab als die älteren Versionen. Allein die neueste Version ChatGPT konnte die Aufgaben im Normbereich lösen.

Auch interessant