KI-Chatbots werden zunehmend als die Zukunft des Gesundheitswesens beworben, wobei einige Systeme bei standardisierten medizinischen Prüfungen gut abschneiden und symptomorientierte Ratschläge für Nutzer anbieten. Eine neue Studie, veröffentlicht in Nature Medicine, legt jedoch nahe, dass diese Werkzeuge nicht nur weit davon entfernt sind, Ärzte zu ersetzen, sondern bei der Verwendung für persönliche medizinische Beratung auch Risiken bergen können.
Die Forschung, geleitet von Teams der Universität Oxford, identifizierte eine bedeutende Lücke bei großen Sprachmodellen (LLMs). Während die Systeme über fundiertes technisches Wissen verfügten und bei strukturierten medizinischen Bewertungen gut abschnitten, hatten sie Schwierigkeiten, Nutzern bei realen Gesundheitsproblemen zu helfen. Den Forschern zufolge bleibt die Übersetzung theoretischen Wissens in sichere und praktische medizinische Ratschläge eine große Herausforderung.
Dr. Rebecca Payne, die leitende Medizinerin der Studie, erklärte, dass trotz der wachsenden Begeisterung für KI im Gesundheitswesen die Technologie noch nicht bereit ist, die Verantwortung eines Arztes zu übernehmen. Sie warnte davor, sich bei der Symptomanalyse auf große Sprachmodelle zu verlassen, da diese falsche Diagnosen stellen oder Situationen, die eine dringende medizinische Behandlung erfordern, nicht erkennen könnten.
Groß angelegte Tests offenbaren zentrale Schwächen
An der Studie nahmen 1.300 Personen teil, die KI-Modelle von OpenAI, Meta und Cohere nutzten. Den Teilnehmern wurden medizinische Szenarien präsentiert, die von Ärzten erstellt wurden, und sie wurden gefragt, welche Schritte unternommen werden sollten, um die beschriebenen Zustände zu behandeln.
Die Forscher stellten fest, dass die von KI generierten Ratschläge nicht zuverlässiger waren als herkömmliche Selbstdiagnoseverfahren, wie Online-Recherchen oder persönliche Einschätzungen. In vielen Fällen erhielten die Nutzer eine Mischung aus korrekten und irreführenden Hinweisen, was es schwierig machte, angemessene nächste Schritte zu bestimmen. Ein weiteres Problem war die Kommunikation: Die Teilnehmer hatten oft Schwierigkeiten zu verstehen, welche Informationen die KI benötigte, um genaue Empfehlungen zu geben.
Dr. Payne betonte, dass medizinische Diagnosen mehr erfordern als das Erinnern an Fakten. Sie erklärte, dass eine effektive Versorgung aktives Zuhören, das Stellen klärender Fragen, das Erkennen relevanter Symptome und die Führung der Patienten durch ein dynamisches Gespräch umfasst. Patienten wissen häufig nicht, welche Details medizinisch relevant sind, sodass Ärzte aktiv wichtige Informationen extrahieren müssen. Die Studie kam zu dem Schluss, dass aktuelle LLMs noch nicht in der Lage sind, diese komplexe Interaktion mit Laien zuverlässig zu steuern.
Eine unterstützende Rolle, keine klinische
Obwohl die Forscher vor der Verwendung von KI-Chatbots als medizinische Berater warnten, schlossen sie die Technologie nicht vollständig aus. Stattdessen schlugen sie vor, dass KI eine unterstützende Rolle im Gesundheitswesen spielen kann. Dr. Payne bemerkte, dass LLMs besonders nützlich sind, um Informationen zusammenzufassen und zu organisieren. In klinischen Umgebungen werden sie bereits genutzt, um Konsultationen zu transkribieren und in Überweisungsbriefe, Patienteninformationen oder medizinische Akten umzuwandeln.
Das Team kam zu dem Schluss, dass KI zwar Potenzial im Gesundheitswesen hat, aber derzeit nicht geeignet ist, direkte medizinische Ratschläge zu geben. Sie argumentieren, dass verbesserte Bewertungsrahmen und Sicherheitsstandards notwendig sind, bevor solche Systeme verantwortungsvoll in patientennahe Rollen integriert werden können. Ihr Ziel ist nicht, KI in der Medizin abzulehnen, sondern sicherzustellen, dass sie sich so entwickelt, dass die Patientensicherheit und die klinische Genauigkeit Priorität haben.