Radiology’de yayınlanan iki yeni araştırma çalışmasına göre ChatGPT’nin en son sürümü, büyük dil modellerinin potansiyelini vurgulayan ama aynı zamanda güvenilirliği engelleyen sınırlamaları da ortaya koyan radyoloji kurulu tarzı bir sınavı geçti!
Özet: ChatGPT, radyoloji kurulu tarzı bir sınavı başarıyla geçerek tıbbi bağlamlarda büyük dil modellerinin potansiyelini göstermiştir. Çalışmada, Canadian Royal College ve American Board of Radiology sınavlarının tarzını ve zorluğunu taklit eden 150 çoktan seçmeli soru kullanıldı.
GPT-4 in Radiology: Improvements in Advanced Reasoning
Yöntemler
Bu prospektif çalışmada, GPT-4’ün performansı, daha önce açıklanan seçim süreci ve sınıflandırma ile GPT-3.5’i kıyaslamak için kullanılan aynı 150 çoktan seçmeli metin tabanlı soru üzerinde değerlendirildi (2 ) . Sorular, Canadian Royal College ve American Board of Radiology sınavlarının tarzına, içeriğine ve zorluğuna uyuyordu. GPT-4 performansı genel olarak, soru türüne ve konuya göre değerlendirildi. GPT-4’ün performansı, χ2 testi ( 2). Yanıtlardaki dilin güvenirliği, daha önce açıklandığı gibi ( 2 ) bir Likert ölçeği (1 = güven yok, 5 = yüksek güven) kullanılarak değerlendirildi ve Mann-Whitney U testi kullanılarak GPT-3.5’inkiyle karşılaştırıldı.
Sonuçlar
GPT-4, soruların %81’ini doğru yanıtladı (121/150), %70’lik geçme eşiğini aştı ve soruların %69’unu (104/150) doğru yanıtlayan GPT-3.5’i geride bıraktı (P = .02 ) . Tablo , soru türü ve konuya göre sınıflandırılmış GPT-4 ve GPT-3.5’in performansını göstermektedir.
Kanada, Toronto’daki University Medical Imaging Toronto, Toronto Genel Hastanesi’nde abdominal radyolog ve teknoloji lideri FRCPC baş yazarı Rajesh Bhayana, “ChatGPT gibi büyük dil modellerinin kullanımı patlıyor ve daha da artacak” dedi. “Araştırmamız, ChatGPT’nin radyoloji bağlamındaki performansına ilişkin içgörü sağlıyor ve büyük dil modellerinin inanılmaz potansiyelini ve onu güvenilmez kılan mevcut sınırlamaları vurguluyor.”
Dr. Bhayana, ChatGPT’nin kısa süre önce tarihin en hızlı büyüyen tüketici uygulaması olarak adlandırıldığını ve benzer sohbet robotlarının Google ve Bing gibi doktorların ve hastaların tıbbi bilgi aramak için kullandıkları popüler arama motorlarına dahil edildiğini belirtti.