ChatGPT to chatbot wykorzystujący sztuczną inteligencję, który dzięki modelowi głębokiego uczenia się rozpoznaje wzorce i relacje między słowami w ogromnych zbiorach danych w celu generowania odpowiedzi podobnych do ludzkich. Podobne chatboty coraz częściej włączane są do popularnych wyszukiwarek, takich jak Google i Bing, których lekarze i pacjenci używają szukając informacji medycznych.
Aby ocenić skuteczność ChatuGPT, zespół dr Rajesha Bhayana, radiologa z University Medical Imaging w Toronto, postanowił sprawdzić, jak sztuczna inteligencja poradzi sobie z egzaminem na lekarza radiologa. W teście zastosowano treść i poziom trudności egzaminów Canadian Royal College i American Board of Radiology. Pytania nie zawierały obrazów i zostały tak pogrupowane, aby ocenić prostsze (przywoływanie wiedzy, podstawowe zrozumienie) i bardziej złożone czynności myślowe (zastosowanie, analiza, synteza). W przypadku tych bardziej złożonych oceniano z kolei opisywanie znalezionych cech obrazu, postępowanie kliniczne, klasyfikację oraz powiązania chorób.
Najpierw przetestowany został ChatGPT w oparciu o GPT-3.5, czyli obecnie najczęściej używaną wersję. Jak się okazało, odpowiedział on poprawnie na 69 proc. pytań (104 ze 150), uzyskując wynik blisko pozytywnej oceny 70 proc. stosowanej przez Royal College w Kanadzie. ChatGPT oparty na GPT-3.5 miał trudności z pytaniami dotyczącymi: myślenia wyższego rzędu (60 proc. - 53 z 89), kalkulacji i klasyfikacji (25 proc. - 2 z 8) oraz stosowania pojęć (30 proc. - 3 z 10).
W kolejnym badaniu sprawdzono najnowszą wersję chatbota – GPT-4. Odpowiedział on poprawnie na 81 proc. (121 ze 150) tych samych pytań, przekraczając próg zaliczenia wynoszący 70 proc. GPT-4 działał znacznie lepiej niż GPT-3.5 w przypadku bardziej skomplikowanych intelektualnie czynności, zwłaszcza gdy chodziło o opisy wyników badań obrazowych (85 proc.) i stosowanie pojęć (90 proc.).
GPT-4 nie wykazał natomiast poprawy w przypadku pytań dotyczących czynności umysłowych niższego rzędu (80 proc. vs 84 proc.) i odpowiedział niepoprawnie na 12 pytań, na które GPT-3.5 odpowiedział poprawnie, co rodzi pytania dotyczące jego wiarygodności w zakresie gromadzenia informacji.
- Początkowo byliśmy zaskoczeni dokładnymi i pewnymi odpowiedziami ChatuGPT na niektóre trudne pytania radiologiczne, ale potem równie zaskoczeni niektórymi bardzo nielogicznymi i niedokładnymi twierdzeniami - powiedział cytowany przez pismo „Radiology” dr Bhayana
Co prawda niebezpieczna tendencja ChatuGPT do generowania niedokładnych odpowiedzi jest rzadsza w wersji GPT-4, nadal jednak ogranicza jego użyteczność w edukacji medycznej i praktyce klinicznej. Oba badania wykazały, że ChatGPT konsekwentnie wypowiadał się w sposób wskazujący, że jest czegoś pewien, nawet jeśli nie miał racji.
- Dla mnie jest to jego największe ograniczenie - zaznaczył dr Bhajana. - Obecnie ChatGPT najlepiej nadaje się do pobudzania pomysłów, pomagania w rozpoczęciu procesu pisania medycznego i podsumowywania danych. Jeśli jest używany do szybkiego przywoływania informacji, zawsze musi być zweryfikowany.