ChatGPT zdał egzamin z radiologii

i

Autor: pixabay.com

technologia

ChatGPT zdał egzamin z radiologii. Jego wiarygodność jest jednak ograniczona

2023-05-19 13:36

ChatGPT - chatbot wykorzystujący sztuczną inteligencję - potrafi na tyle dobrze interpretować wyniki medycznych badań obrazowych, że udało mu się zdać egzamin z radiologii - poinformowało pismo „Radiology”. Jednak skłonność do generowania niedokładnych odpowiedzi oraz wypowiedzi wskazujące, że jest czegoś pewien, nawet jeśli nie ma racji, ograniczają wiarygodność stawianych przez niego diagnoz.

ChatGPT to chatbot wykorzystujący sztuczną inteligencję, który dzięki modelowi głębokiego uczenia się rozpoznaje wzorce i relacje między słowami w ogromnych zbiorach danych w celu generowania odpowiedzi podobnych do ludzkich. Podobne chatboty coraz częściej włączane są do popularnych wyszukiwarek, takich jak Google i Bing, których lekarze i pacjenci używają szukając informacji medycznych.

Aby ocenić skuteczność ChatuGPT, zespół dr Rajesha Bhayana, radiologa z University Medical Imaging w Toronto, postanowił sprawdzić, jak sztuczna inteligencja poradzi sobie z egzaminem na lekarza radiologa. W teście zastosowano treść i poziom trudności egzaminów Canadian Royal College i American Board of Radiology. Pytania nie zawierały obrazów i zostały tak pogrupowane, aby ocenić prostsze (przywoływanie wiedzy, podstawowe zrozumienie) i bardziej złożone czynności myślowe (zastosowanie, analiza, synteza). W przypadku tych bardziej złożonych oceniano z kolei opisywanie znalezionych cech obrazu, postępowanie kliniczne, klasyfikację oraz powiązania chorób.

Najpierw przetestowany został ChatGPT w oparciu o GPT-3.5, czyli obecnie najczęściej używaną wersję. Jak się okazało, odpowiedział on poprawnie na 69 proc. pytań (104 ze 150), uzyskując wynik blisko pozytywnej oceny 70 proc. stosowanej przez Royal College w Kanadzie. ChatGPT oparty na GPT-3.5 miał trudności z pytaniami dotyczącymi: myślenia wyższego rzędu (60 proc. - 53 z 89), kalkulacji i klasyfikacji (25 proc. - 2 z 8) oraz stosowania pojęć (30 proc. - 3 z 10).

W kolejnym badaniu sprawdzono najnowszą wersję chatbota – GPT-4. Odpowiedział on poprawnie na 81 proc. (121 ze 150) tych samych pytań, przekraczając próg zaliczenia wynoszący 70 proc. GPT-4 działał znacznie lepiej niż GPT-3.5 w przypadku bardziej skomplikowanych intelektualnie czynności, zwłaszcza gdy chodziło o opisy wyników badań obrazowych (85 proc.) i stosowanie pojęć (90 proc.).

GPT-4 nie wykazał natomiast poprawy w przypadku pytań dotyczących czynności umysłowych niższego rzędu (80 proc. vs 84 proc.) i odpowiedział niepoprawnie na 12 pytań, na które GPT-3.5 odpowiedział poprawnie, co rodzi pytania dotyczące jego wiarygodności w zakresie gromadzenia informacji.

- Początkowo byliśmy zaskoczeni dokładnymi i pewnymi odpowiedziami ChatuGPT na niektóre trudne pytania radiologiczne, ale potem równie zaskoczeni niektórymi bardzo nielogicznymi i niedokładnymi twierdzeniami - powiedział cytowany przez pismo „Radiology” dr Bhayana

Co prawda niebezpieczna tendencja ChatuGPT do generowania niedokładnych odpowiedzi jest rzadsza w wersji GPT-4, nadal jednak ogranicza jego użyteczność w edukacji medycznej i praktyce klinicznej. Oba badania wykazały, że ChatGPT konsekwentnie wypowiadał się w sposób wskazujący, że jest czegoś pewien, nawet jeśli nie miał racji.

- Dla mnie jest to jego największe ograniczenie - zaznaczył dr Bhajana. - Obecnie ChatGPT najlepiej nadaje się do pobudzania pomysłów, pomagania w rozpoczęciu procesu pisania medycznego i podsumowywania danych. Jeśli jest używany do szybkiego przywoływania informacji, zawsze musi być zweryfikowany.

Pijany ukradł porsche i celowo potrącił rowerzystę. Wstrząsające nagranie