ChatGPT, pomimo zaawansowanego treningu na ogromnej ilości danych, okazał się nieskuteczny w medycznych diagnozach na szeroką skalę. Badania przeprowadzone przez naukowców z Uniwersytetu Zachodniego Ontario, Shulich School of Medicine & Dentistry wykazały, że sztuczna inteligencja poprawnie generowała diagnozy jedynie w niespełna połowie przypadków. To zdecydowanie za mało, gdy w grę wchodzi ludzkie życie.
Do testów wykorzystano 150 przypadków z bazy danych Medscape, często używanej do oceniania umiejętności diagnostycznych lekarzy. Eksperyment prowadzono pomiędzy wrześniem 2021 a styczniem 2023 roku.
Odpowiedź z pozoru jest spójna i logiczna, jednak traci przy bliższym poznaniu
Naukowcy zidentyfikowali główne przyczyny błędów w diagnozach generowanych przez ChatGPT, które wynikają z tzw. halucynacji AI. Model potrafi tworzyć odpowiedzi, które na pierwszy rzut oka wydają się spójne. Niestety tak naprawdę często nie mają oparcia w rzeczywistych danych.
Takie odpowiedzi mogą być efektem pominięć, błędów lub trenowania modelu na wąskiej grupie danych. Problemem jest również niezdolność AI do poprawnego rozpoznania dwuznacznych lub niekompletnych informacji wejściowych. Z tego powodu ludzie nadal muszą nadzorować sztuczną inteligencję, szczególnie w medycynie. Ponieważ w tej dziedzinie nawet najmniejszy błąd może mieć poważne konsekwencje.
Sztuczna inteligencja w medycynie nie jest bezużyteczna, jednak nie wolno jej bezgranicznie ufać
Według Amrita Kirpalaniego z Schulich School of Medicine & Dentistry trzeba prowadzić intensywny nadzór nad sposobem, w jaki sztuczna inteligencja jest wykorzystywana w medycynie. W trosce o bezpieczeństwo pacjentów korzystanie z takich narzędzi musi być po prostu ściśle monitorowane. Dane, na których opiera się AI, powinny być dokładnie sprawdzane i weryfikowane przez badaczy przed pożywieniem nimi systemu. Rozwijanie umiejętności komunikacyjnych związanych z interakcjami z modelami AI ma duże znaczenie dla bezpiecznego wdrożenia tej technologii w medycynie.
Mimo ograniczeń, które przynajmniej na razie wykluczają ChatGPT jako samodzielnego diagnostę, model ma pewne zalety. Zwłaszcza gdy postrzegamy go jako narzędzie wspomagające pracę lekarza, a nie ją zastępujące. Badania wykazały, że ChatGPT z powodzeniem (w 74,33 proc. przypadków) sprawdzał się w diagnostyce różnicowej. Model potrafił również analizować skomplikowane tematy medyczne i przedstawiać je w sposób przystępny. To cenna pomoc dla studentów medycyny. Z tego powodu naukowcy sugerują dalszy rozwój i wykorzystywanie modeli AI w celach edukacyjnych oraz jako wsparcie dla lekarzy w ich codziennej pracy. Jednak ostateczna decyzja zawsze należy do człowieka.