به گزارش فایننشال تایمز، مطالعهای جدید از دانشکدهی پزشکی بالینی دانشگاه کمبریج نشان میدهد که هوش مصنوعی GPT-4 در ارزیابی چشمپزشکی تقریباً به خوبی یک متخصص در این زمینه عمل میکند. محققان، مدلهای زبانی بزرگ GPT-3.5 و Palm 2 و LLaMA را با ۸۷ سؤال چند گزینهای آزمایش کردند. پنج چشمپزشک متخصص، سه کارآموز چشمپزشکی و دو پزشک […]
به گزارش فایننشال تایمز، مطالعهای جدید از دانشکدهی پزشکی بالینی دانشگاه کمبریج نشان میدهد که هوش مصنوعی GPT-4 در ارزیابی چشمپزشکی تقریباً به خوبی یک متخصص در این زمینه عمل میکند.
محققان، مدلهای زبانی بزرگ GPT-3.5 و Palm 2 و LLaMA را با ۸۷ سؤال چند گزینهای آزمایش کردند. پنج چشمپزشک متخصص، سه کارآموز چشمپزشکی و دو پزشک غیرمتخصص جوان در آزمون آزمایشی یکسان شرکت کردند.
سؤالات در مورد همه چیز از حساسیت به نور گرفته تا آسیب جدی به چشم مطرح شد. پاسخ این سؤالات به صورت عمومی در دسترس نبودند، بنابراین محققان معتقدند که مدلهای زبانی بزرگ از قبل در مورد آنها آموزش ندیدهاند.
GPT-4 امتیاز بالاتری نسبت به کارآموزان و پزشکان جوان کسب کرد و ۶۰ سوال را به درستی پاسخ داد. در حالی که پزشکان بهطور میانگین به ۳۷ سؤال پاسخ درست دادند. پزشکان متخصص به ۵۶ سؤال پاسخ دقیقی ارئه کردند؛ اما با میانگین نمرهی ۶۶٫۴ نشان دادند که همچنان از هوش مصنوعی جلوترند.
PalM 2 به ۴۹ سؤال و GPT-3.5 به ۴۲ سؤال به درستی جواب دادند. LLaMA با ۲۸ پاسخ درست کمترین امتیاز را بین مدلهای زبانی بزرگ دیگر بهدست آورد.
محققان خاطرنشان کردند که مطالعهی جدیدشان تعداد محدودی سؤال ارائه کرد، به خصوص در دستههای خاص؛ به این معنی که نتایج واقعی ممکن است متفاوت باشد. مدلهای زبانی بزرگ ذاتاً تمایل به «توهم» یا ساختن چیزهای مختلف دارند. مثلاً تشخیص اشتباه وجود آب مروارید یا سرطان و بهطور کلی دقت پایین در تشخیص بیماری میتواند عواقب بسیار خطرناکی داشته باشد.