ახალი კვლევის თანახმად, ხელოვნური ინტელექტის ენობრივი მოდელები შემთხვევათა 80%-ზე მეტში ვერ ახერხებენ შესაბამისი ადრეული დიაგნოზის დასმას, რაც მიუთითებს იმაზე, რომ ისინი ჯერ კიდევ არ არიან მზად ზედამხედველობის გარეშე კლინიკური გამოყენებისთვის. ბოსტონში დაფუძნებული არამომგებიანი საავადმყოფოსა და კვლევითი ქსელის, Mass General Brigham-ის მკვლევრების განცხადებით, მართალია ხელოვნური ინტელექტის ჩატბოტებმა გააუმჯობესეს თავიანთი დიაგნოსტიკური სიზუსტე კომპლექსური კლინიკური ინფორმაციის მიწოდებისას, თუმცა ისინი კვლავ მარცხდებიან შესაბამისი დიფერენციალური დიაგნოზის შემუშავებაში შემთხვევათა 80%-ზე მეტში. სამედიცინო ჟურნალში JAMA Network Open გამოქვეყნებული კვლევის შედეგებმა აჩვენა, რომ დიდ ენობრივ მოდელებს (LLMs) ჯერ კიდევ არ გააჩნიათ უსაფრთხო კლინიკური გამოყენებისთვის აუცილებელი მსჯელობის უნარი. კვლევის თანაავტორის, მარკ სუჩის თქმით, მიუხედავად უწყვეტი გაუმჯობესებისა, ფართოდ ხელმისაწვდომი დიდი ენობრივი მოდელები არ არიან მზად დამოუკიდებელი კლინიკური დანერგვისთვის, რადგან მათ არ შეუძლიათ დიფერენციალური დიაგნოზის პროცესის რეპლიკაცია, რაც კლინიკური მსჯელობის ცენტრალურ ნაწილს წარმოადგენს და რასაც იგი “მედიცინის ხელოვნებად“ მიიჩნევს. ცნობილია, რომ დიფერენციალური დიაგნოზი არის პირველი ნაბიჯი ჯანდაცვის პროფესიონალებისთვის კონკრეტული მდგომარეობის იდენტიფიცირებისთვის, რათა ის მსგავსი სიმპტომების მქონე სხვა დაავადებებისგან გამიჯნონ.
კვლევითმა გუნდმა გააანალიზა 21 დიდი ენობრივი მოდელის, მათ შორის Claude-ის, DeepSeek-ის, Gemini-ის, GPT-ისა და Grok-ის უახლესი ხელმისაწვდომი ვერსიების ფუნქციონირება. მკვლევრებმა შეაფასეს მოდელები 29 სტანდარტიზებულ კლინიკურ შემთხვევაზე ახლად შემუშავებული ინსტრუმენტის, PrIME-LLM-ის გამოყენებით, რომელიც ამოწმებს მოდელის უნარს კლინიკური მსჯელობის სხვადასხვა ეტაპზე: საწყისი დიაგნოზის დასმა, შესაბამისი ტესტების დანიშვნა, საბოლოო დიაგნოზამდე მისვლა და მკურნალობის დაგეგმვა. კლინიკური შემთხვევების რეალური განვითარების სიმულაციის მიზნით, ექსპერტები მოდელებს ინფორმაციას ეტაპობრივად აწვდიდნენ, დაწყებული ისეთი ბაზისური მონაცემებით, როგორიცაა პაციენტის ასაკი, სქესი და სიმპტომები, რასაც მოგვიანებით ფიზიკური გამოკვლევისა და ლაბორატორიული ტესტების შედეგები ემატებოდა. რეალურ კლინიკურ პირობებში დიფერენციალური დიაგნოზი კრიტიკულად მნიშვნელოვანია შემდეგ ეტაპზე გადასასვლელად, თუმცა ამ კვლევაში მოდელებს დამატებითი ინფორმაცია მიეწოდებოდათ იმისთვის, რომ მათ შემდეგ ეტაპზე გადასვლა მაშინაც შეძლებოდათ, თუ დიფერენციალური დიაგნოზის ეტაპზე მარცხს განიცდიდნენ. კვლევამ აჩვენა, რომ ენობრივმა მოდელებმა მიაღწიეს მაღალ სიზუსტეს საბოლოო დიაგნოზის დასმისას, მაგრამ ცუდი შედეგები აჩვენეს დიფერენციალური დიაგნოზის გენერირებასა და გაურკვევლობის ნავიგაციაში. კვლევის ავტორის, არია რაოს აღნიშვნით, მოდელების ეტაპობრივი შეფასებით კვლევა მათ ექიმის პოზიციაში აყენებს და აჩვენებს, რომ ეს მოდელები კარგად უმკლავდებიან საბოლოო დიაგნოზის დასახელებას სრული მონაცემების არსებობისას, მაგრამ უჭირთ საქმის საწყის ეტაპზე, როდესაც ბევრი ღია კითხვაა და ინფორმაცია მწირია.
მკვლევრების დასკვნით, ყველა მოდელმა შემთხვევათა 80%-ზე მეტში ვერ შეძლო შესაბამისი დიფერენციალური დიაგნოზის გენერირება, თუმცა საბოლოო დიაგნოზის დასმისას, მოდელების მიხედვით, წარმატების მაჩვენებელი 60%-დან 90%-მდე მერყეობდა. ენობრივი მოდელების უმეტესობამ გაუმჯობესებული სიზუსტე აჩვენა მას შემდეგ, რაც ტექსტთან ერთად ლაბორატორიული შედეგები და გამოსახულებითი კვლევები მიეწოდათ. შედეგებმა გამოავლინა საუკეთესო მაჩვენებლების მქონე მოდელების კლასტერი, რომელშიც შედიოდნენ Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash და Gemini 3.0 Pro. მიუხედავად ამისა, ავტორები აღნიშნავენ, რომ ვერსიებზე დაფუძნებული გაუმჯობესებებისა და მსჯელობაზე ოპტიმიზებული მოდელების უპირატესობების მიუხედავად, არსებულ ენობრივ მოდელებს ჯერ არ მიუღწევიათ უსაფრთხო დანერგვისთვის საჭირო ინტელექტის დონისთვის და კვლავ შეზღუდულნი არიან მოწინავე კლინიკური მსჯელობის დემონსტრირებაში. მარკ სუჩის განცხადებით, ეს შედეგები ამყარებს მოსაზრებას, რომ ჯანდაცვის სფეროში დიდ ენობრივ მოდელებს კვლავ სჭირდებათ ადამიანის ჩართულობა და ძალიან მჭიდრო ზედამხედველობა. ესპანეთის ოჯახისა და სათემო მედიცინის საზოგადოების ხელოვნური ინტელექტისა და ციფრული ჯანმრთელობის სამუშაო ჯგუფის წევრის, სუსანა მანსო გარსიას შეფასებით (რომელიც არ მონაწილეობდა კვლევაში), მიგნება შეიცავს მკაფიო გზავნილს საზოგადოებისთვის, რომ ეს მოდელები არ უნდა იქნას გამოყენებული კლინიკური გადაწყვეტილებების მისაღებად ზედამხედველობის გარეშე. იგი დასძენს, რომ მიუხედავად ხელოვნური ინტელექტის პერსპექტიულობისა, ადამიანის კლინიკური მსჯელობა შეუცვლელი რჩება, რის გამოც საზოგადოებამ ეს ტექნოლოგიები სიფრთხილით უნდა გამოიყენოს და ჯანმრთელობის ნებისმიერი პრობლემის დროს ყოველთვის მიმართოს ჯანდაცვის პროფესიონალს.




