Peneliti Evaluasi Kinerja ChatGPT dalam Meringkas Abstrak Medis

Dalam penelitian terbaru yang diterbitkan dalam The Annals of Family Medicine, para peneliti mengevaluasi kemanjuran Chat Generative Pretrained Transformer (ChatGPT) dalam merangkum abstrak medis untuk membantu dokter. Penelitian ini bertujuan untuk menentukan kualitas, akurasi, dan bias dalam ringkasan yang dihasilkan ChatGPT, memberikan wawasan tentang potensinya sebagai alat untuk mencerna sejumlah besar literatur medis di tengah keterbatasan waktu yang dihadapi oleh para profesional kesehatan.

Peringkat Tinggi untuk Kualitas dan Akurasi

Penelitian ini memanfaatkan ChatGPT untuk menyingkat 140 abstrak medis dari 14 jurnal berbeda, sehingga mengurangi konten rata-rata sebesar 70%. Meskipun ada beberapa ketidakakuratan dan halusinasi yang terdeteksi dalam sebagian kecil ringkasan, dokter menilai ringkasan tersebut sangat berkualitas dan akurat. Temuan ini menunjukkan bahwa ChatGPT berpotensi membantu dokter dalam meninjau literatur medis secara efisien, menawarkan ringkasan yang ringkas dan akurat di tengah banyaknya informasi.

Peneliti memilih 10 artikel dari masing-masing 14 jurnal yang mencakup berbagai topik dan struktur medis. Mereka menugaskan ChatGPT untuk merangkum artikel-artikel ini dan mengevaluasi ringkasan yang dihasilkan untuk kualitas, akurasi, bias, dan relevansi di sepuluh bidang medis. Studi tersebut menemukan bahwa ChatGPT berhasil memadatkan abstrak medis rata-rata sebesar 70%, memperoleh peringkat tinggi dari pengulas dokter untuk kualitas dan akurasi.

Implikasi untuk perawatan kesehatan

Meskipun mendapat rating tinggi, penelitian ini mengidentifikasi ketidakakuratan dan halusinasi serius dalam sejumlah kecil ringkasan. Kesalahan ini berkisar dari hilangnya data penting hingga salah tafsir terhadap desain penelitian, yang berpotensi mengubah penafsiran temuan penelitian. Namun, kinerja ChatGPT dalam merangkum abstrak medis dianggap dapat diandalkan, dengan sedikit bias yang diamati.

Meskipun ChatGPT menunjukkan keselarasan yang kuat dengan penilaian manusia di tingkat jurnal, kinerjanya dalam menunjukkan relevansi masing-masing artikel dengan spesialisasi medis tertentu kurang mengesankan. Perbedaan ini menyoroti keterbatasan kemampuan ChatGPT untuk secara akurat mengidentifikasi relevansi artikel tunggal dalam konteks spesialisasi medis yang lebih luas.

Studi ini memberikan wawasan berharga tentang potensi AI, khususnya ChatGPT, dalam membantu dokter dalam meninjau literatur medis secara efisien. Meskipun ChatGPT menjanjikan dalam merangkum abstrak medis dengan kualitas dan akurasi tinggi, penelitian lebih lanjut diperlukan untuk mengatasi keterbatasan dan meningkatkan kinerjanya dalam konteks medis tertentu.

Penelitian di masa depan dapat fokus pada penyempurnaan kemampuan ChatGPT untuk mengenali relevansi artikel individual dengan spesialisasi medis tertentu. Selain itu, upaya untuk memitigasi ketidakakuratan dan halusinasi dalam ringkasan yang dihasilkan dapat lebih meningkatkan kegunaan alat AI di lingkungan layanan kesehatan.

Sumber: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/