- Tytuł:
-
ChatGPT – a tool for assisted studying or a source of misleading medical information? AI performance on Polish Medical Final Examination
ChatGPT – pomoc naukowa przyszłości czy źródło fałszywych informacji? Analiza odpowiedzi sztucznej inteligencji na przykładzie zadań Lekarskiego Egzaminu Końcowego - Autorzy:
-
Żmudka, Karol
Spychał, Aleksandra
Ochman, Błażej
Popowicz, Łukasz
Piłat, Patrycja
Jaroszewicz, Jerzy - Powiązania:
- https://bibliotekanauki.pl/articles/29783504.pdf
- Data publikacji:
- 2024-04-16
- Wydawca:
- Śląski Uniwersytet Medyczny w Katowicach
- Tematy:
-
artificial intelligence
public health
machine learning
sztuczna inteligencja
zdrowie publiczne
nauczanie maszynowe - Opis:
-
INTRODUCTION: ChatGPT is a language model created by OpenAI that can engage in human-like conversations and generate text based on the input it receives. The aim of the study was to assess the overall performance of ChatGPT on the Polish Medical Final Examination (Lekarski Egzamin Końcowy – LEK) the factors influencing the percentage of correct answers. Secondly, investigate the capabilities of chatbot to provide explanations was examined.
MATERIAL AND METHODS: We entered 591 questions with distractors from the LEK database into ChatGPT (version 13th February – 14th March). We compared the results with the answer key and analyzed the provided explanation for logical justification. For the correct answers we analyzed the logical consistency of the explanation, while for the incorrect answers, the ability to provide a correction was observed. Selected factors were analyzed for an influence on the chatbot’s performance.
RESULTS: ChatGPT achieved impressive scores of 58.16%, 60.91% and 67.86% allowing it pass the official threshold of 56% in all instances. For the properly answered questions, more than 70% were backed by a logically coherent explanation. In the case of the wrongly answered questions the chatbot provided a seemingly correct explanation for false information in 66% of the cases. Factors such as logical construction (p < 0.05) and difficulty (p < 0.05) had an influence on the overall score, meanwhile the length (p = 0.46) and language (p = 0.14) did not.
CONCLUSIONS: Although achieving a sufficient score to pass LEK, ChatGPT in many cases provides misleading information backed by a seemingly compelling explanation. The chatbot can be especially misleading for non-medical users as compared to a web search because it can provide instant compelling explanations. Thus, if used improperly, it could pose a danger to public health. This makes it a problematic recommendation for assisted studying.
WSTĘP: ChatGPT jest modelem językowym stworzonym przez OpenAI, który może udzielać odpowiedzi na zapytania użytkownika, generując tekst na podstawie otrzymanych danych. Celem pracy była ocena wyników działania ChatGPT na polskim Lekarskim Egzaminie Końcowym (LEK) oraz czynników wpływających na odsetek prawidłowych odpowiedzi. Ponadto zbadano zdolność chatbota do podawania poprawnego i wnikliwego wyjaśnienia. MATERIAŁ I METODY: Wprowadzono 591 pytań z dystraktorami z bazy LEK do interfejsu ChatGPT (wersja 13 lutego – 14 marca). Porównano wyniki z kluczem odpowiedzi i przeanalizowano podane wyjaśnienia pod kątem logicznego uzasadnienia. Dla poprawnych odpowiedzi przeanalizowano spójność logiczną wyjaśnienia, natomiast w przypadku odpowiedzi błędnej obserwowano zdolność do poprawy. Wybrane czynniki zostały przeanalizowane pod kątem wpływu na zdolność chatbota do udzielenia poprawnej odpowiedzi. WYNIKI: ChatGPT osiągnął imponujące wyniki poprawnych odpowiedzi na poziomie: 58,16%, 60,91% i 67,86%, przekraczając oficjalny próg 56% w trzech ostatnich egzaminach. W przypadku poprawnie udzielonych odpowiedzi ponad 70% pytań zostało popartych logicznie spójnym wyjaśnieniem. W przypadku błędnych odpowiedzi w 66% przypadków chatbot podał pozornie poprawne wyjaśnienie dla nieprawidłowych od-powiedzi. Czynniki takie jak konstrukcja logiczna (p < 0,05) i wskaźnik trudności zadania (p < 0,05) miały wpływ na ogólną ocenę, podczas gdy liczba znaków (p = 0,46) i język (p = 0,14) takiego wpływu nie miały. WNIOSKI: Mimo iż ChatGPT osiągnął wystarczającą liczbę punktów, aby zaliczyć LEK, w wielu przypadkach podawał wprowadzające w błąd informacje poparte pozornie przekonującym wyjaśnieniem. Chatboty mogą być szczególnym zagrożeniem dla użytkownika niemającego wiedzy medycznej, ponieważ w porównaniu z wyszukiwarką internetową dają natychmiastowe, przekonujące wyjaśnienie, co może stanowić zagrożenie dla zdrowia publicznego. Z tych samych przyczyn ChatGPT powinien być ostrożnie stosowany jako pomoc naukowa. - Źródło:
-
Annales Academiae Medicae Silesiensis; 2024, 78; 94-103
1734-025X - Pojawia się w:
- Annales Academiae Medicae Silesiensis
- Dostawca treści:
- Biblioteka Nauki