ახალი კვლევა: ზოგადი დანიშნულების AI-მ სპეციალიზებულ სამედიცინო პლატფორმებს რამდენიმე ტესტში აჯობა

ახალი კვლევის მიხედვით, რამდენიმე ზოგადი დანიშნულების ხელოვნური ინტელექტის მოდელმა სამედიცინო ტესტებსა და რეალური ექიმების კითხვებზე ორ სპეციალიზებულ კლინიკურ AI-პლატფორმას აჯობა. ეს არ ნიშნავს, რომ AI ექიმს ცვლის, მაგრამ აჩვენებს ერთ მნიშვნელოვან რამეს: ჯანდაცვაში გამოყენებამდე ნებისმიერი AI-ინსტრუმენტი დამოუკიდებლად და რეალურ გარემოში უნდა შემოწმდეს.

ხელოვნური ინტელექტი ჯანდაცვაში უკვე აღარ არის მხოლოდ მომავლის თემა. ექიმები, კლინიკები, პაციენტები და სამედიცინო ორგანიზაციები სულ უფრო ხშირად იყენებენ AI-ს ინფორმაციის მოსაძიებლად, სამედიცინო ტექსტების გასაანალიზებლად, კვლევების შესაჯამებლად ან რთულ კლინიკურ კითხვებზე ორიენტირებისთვის.

ამ ფონზე ბაზარზე ჩნდება ისეთი პლატფორმები, რომლებიც სპეციალურად მედიცინისთვის არის შექმნილი. მათი მთავარი დაპირებაა, რომ ზოგად AI-მოდელებთან შედარებით უფრო სანდო, უფრო ზუსტი და კლინიკურ პრაქტიკაზე უკეთ მორგებული პასუხები ექნებათ. ლოგიკურადაც ასე უნდა ჟღერდეს: თუ ინსტრუმენტი სპეციალურად ექიმებისთვისაა შექმნილი, თითქოს ის ზოგად AI-ზე უკეთესი უნდა იყოს.

თუმცა Nature Medicine-ში გამოქვეყნებული ახალი კვლევა ამ მოსაზრებას უფრო ფრთხილად გვაყურებინებს.

მკვლევრებმა ერთმანეთს შეადარეს ორი სპეციალიზებული კლინიკური AI-ინსტრუმენტი – OpenEvidence და UpToDate Expert AI – და სამი მოწინავე ზოგადი დანიშნულების დიდი ენობრივი მოდელი: GPT-5.2, Gemini 3.1 Pro და Claude Opus 4.6. კვლევის მიზანი არ იყო იმის დამტკიცება, რომ ერთი კონკრეტული მოდელი “საუკეთესოა“. უფრო მნიშვნელოვანი კითხვა იყო: ნამდვილად სჯობს თუ არა სპეციალურად სამედიცინო AI ზოგადი დანიშნულების ძლიერ მოდელებს, როდესაც საქმე სამედიცინო ცოდნას, კლინიკურ აზროვნებასა და ექიმებისთვის სასარგებლო პასუხებს ეხება.

შეფასება სამ ნაწილად ჩატარდა.

პირველ ეტაპზე მოდელებს მისცეს 500 სამედიცინო კითხვა MedQA-დან – ეს არის აშშ-ის სამედიცინო სალიცენზიო გამოცდის სტილის კითხვები. ამ ნაწილში შეფასდა ძირითადად სამედიცინო ცოდნა და სწორი პასუხის არჩევის უნარი.

მეორე ეტაპზე გამოიყენეს HealthBench – უფრო რთული შეფასება, რომელიც მხოლოდ სწორი პასუხით არ შემოიფარგლება. აქ ყურადღება ექცევა იმასაც, რამდენად სრულყოფილია პასუხი, რამდენად სწორად ითვალისწინებს კონტექსტს, რამდენად გასაგებად არის ახსნილი ინფორმაცია და რამდენად შეესაბამება პასუხი კლინიკოსების მოლოდინს.

მესამე და ყველაზე საინტერესო ნაწილი იყო რეალური კლინიკური შეკითხვები. მკვლევრებმა გამოიყენეს 100 ანონიმიზებული კითხვა, რომლებიც ექიმებმა რეალურ სამუშაო გარემოში დაუსვეს AI-ს. შემდეგ ამ პასუხებს 12 კლინიცისტი აფასებდა ბრმად – ანუ მათ არ იცოდნენ, რომელი პასუხი რომელი სისტემისგან მოდიოდა. შეფასება მოიცავდა სისწორეს, სისრულეს, უსაფრთხოებას და სიცხადეს.

შედეგი საკმაოდ საყურადღებო აღმოჩნდა.

MedQA-ს ცოდნის ტესტში საუკეთესო შედეგი Gemini-მ აჩვენა – 97.4%. GPT-5.2-ის შედეგი იყო 94.2%, Claude-ის – 90.2%. შედარებისთვის, OpenEvidence-მა მიიღო 89.6%, ხოლო UpToDate Expert AI-მ — 88.4%.

HealthBench-ზეც ზოგადი დანიშნულების მოდელები წინ აღმოჩნდნენ. GPT-5.2-მა ყველაზე მაღალი ქულა მიიღო, ხოლო OpenEvidence და UpToDate Expert AI მნიშვნელოვნად ჩამორჩნენ. ეს განსაკუთრებით მნიშვნელოვანია, რადგან HealthBench მხოლოდ ფაქტობრივ ცოდნას არ ზომავს – ის უფრო ახლოს დგას იმასთან, რაც რეალურ სამედიცინო კომუნიკაციაშია საჭირო: სიზუსტე, კონტექსტი, გასაგები ახსნა, გაურკვევლობის მართვა და პრაქტიკული სიფრთხილე.

რეალური კლინიკური შეკითხვების ნაწილშიც იგივე ტენდენცია გამოჩნდა. ზოგადი დანიშნულების მოდელები ერთ ჯგუფში აღმოჩნდნენ უფრო მაღალი შეფასებებით, ხოლო OpenEvidence, UpToDate Expert AI და Google AI Overview – მეორე, შედარებით დაბალ ჯგუფში. საინტერესოა ისიც, რომ ამ კონკრეტულ შეფასებაში სპეციალიზებული კლინიკური პლატფორმები Google-ის ავტომატურ AI-მიმოხილვასთან დაახლოებით ერთ დონეზე აღმოჩნდნენ.

ეს არ ნიშნავს, რომ სპეციალიზებული სამედიცინო AI უსარგებლოა. უფრო სწორი დასკვნაა: სპეციალიზებული ბრენდინგი თავისთავად არ არის ხარისხის გარანტია.

კვლევამ აჩვენა, რომ ზოგადმა მოდელებმა უკეთესი შედეგი აჩვენეს არა მხოლოდ ცოდნის ტესტებში, არამედ პასუხის ხარისხშიც. განსხვავება განსაკუთრებით ჩანდა პასუხის სიცხადეში, სტრუქტურაში და სრულყოფილებაში. ზოგიერთ შემთხვევაში სპეციალიზებული პლატფორმების პასუხები ნაკლებად ორგანიზებული იყო, ზოგჯერ აკლდა მნიშვნელოვანი დეტალები, ზოგჯერ კი პასუხი პრაქტიკული გამოყენებისთვის ნაკლებად გასაგები ჩანდა.

ავტორები რამდენიმე შესაძლო ახსნას განიხილავენ. ერთ-ერთი მიზეზი შეიძლება იყოს ის, რომ თანამედროვე ზოგადი მოდელები ძალიან სწრაფად ვითარდება. მათ აქვთ დიდი სასწავლო ბაზა, ფართო ზოგადი ცოდნა, ძლიერი ენობრივი უნარი და ხშირად უკეთ შეუძლიათ სხვადასხვა ტიპის ინფორმაციის ერთმანეთთან დაკავშირება.

მეორე მხრივ, სპეციალიზებული სამედიცინო სისტემები ხშირად იყენებენ ე.წ. retrieval-augmented generation-ს – ანუ პასუხის გაცემამდე ეძებენ შესაბამის წყაროებს და შემდეგ ამ წყაროებზე დაყრდნობით აგენერირებენ პასუხს. თეორიულად ეს ძალიან კარგი მიდგომაა, რადგან სამედიცინო პასუხს მტკიცებულებებზე უნდა ჰქონდეს საყრდენი. მაგრამ პრაქტიკაში, თუ სისტემა არასწორ ან ნაწილობრივ რელევანტურ მასალას მოიძიებს, ან მოძიებულ ინფორმაციას ცუდად გააერთიანებს, შედეგი შეიძლება გაუარესდეს.

სწორედ ამიტომ, ჯანდაცვაში AI-ის შეფასება მხოლოდ ერთი კითხვით არ უნდა შემოიფარგლოს: “იცის თუ არა სწორი პასუხი?“ არანაკლებ მნიშვნელოვანია: როგორ ხსნის? რას ტოვებს გამოუთქმელს? როგორ მართავს გაურკვევლობას? გვაფრთხილებს თუ არა რისკებზე? ამბობს თუ არა, როდის არის საჭირო ექიმთან მიმართვა? და რაც მთავარია – შეიძლება თუ არა მის პასუხზე რეალურ კლინიკურ გარემოში პასუხისმგებლიანად დაყრდნობა?

კვლევის ერთ-ერთი მთავარი ღირებულება ის არის, რომ ავტორები არ ცდილობენ სენსაციური დასკვნის გამოტანას. ისინი არ ამბობენ, რომ ზოგადი AI ყოველთვის სჯობს სპეციალიზებულს. პირიქით, ხაზს უსვამენ, რომ ეს არის სწრაფად ცვალებადი სფეროს ერთი კონკრეტული მომენტის სურათი. მომავალში შეიძლება გამოჩნდეს უფრო დახვეწილი, კონკრეტულ სპეციალობაზე მორგებული სამედიცინო AI-ინსტრუმენტები, რომლებიც ზოგად მოდელებს აჯობებენ გარკვეულ ამოცანებში.

კვლევას შეზღუდვებიც აქვს. მაგალითად, სპეციალიზებული კლინიკური პლატფორმები საჯარო API-ით არ იყო ხელმისაწვდომი, ამიტომ მათი გამოყენება ბრაუზერის საშუალებით მოხდა, რამაც შეიძლება გარკვეული ტექნიკური სხვაობები შექმნა. ასევე, სტანდარტულ სამედიცინო ბენჩმარკებზე ყოველთვის არსებობს რისკი, რომ მოდელებს მსგავსი კითხვები ადრე ჰქონდეთ ნანახი. ამის გამო განსაკუთრებით მნიშვნელოვანი ხდება კვლევის მესამე ნაწილი – რეალური, ანონიმიზებული კლინიკური შეკითხვები, რომლებიც ბრმად შეაფასეს ექიმებმა.

ყველაზე ფრთხილი და პრაქტიკული დასკვნა ასეთია: სამედიცინო AI-ის დანერგვა არ უნდა ეფუძნებოდეს მხოლოდ სახელწოდებას, მარკეტინგს ან იმას, რომ პლატფორმა “კლინიკურია“. საჭიროა დამოუკიდებელი შემოწმება, რეალურ გარემოში ტესტირება, ექიმების მონაწილეობა, უსაფრთხოების მონიტორინგი და მკაფიო პასუხისმგებლობის სისტემა.

ეს განსაკუთრებით მნიშვნელოვანია ჯანდაცვის სისტემებისთვის, რომლებიც ახლა იწყებენ AI-ინსტრუმენტების დანერგვას. თუ კლინიკა, უნივერსიტეტი, სადაზღვევო კომპანია ან სახელმწიფო უწყება აპირებს AI-ის გამოყენებას, მთავარი კითხვა არ უნდა იყოს მხოლოდ “რომელი პლატფორმაა ყველაზე პოპულარული?“ მთავარი კითხვა უნდა იყოს: “რომელი ინსტრუმენტი მუშაობს უკეთ ჩვენს რეალურ გარემოში, ჩვენს ექიმებთან, ჩვენს პაციენტებთან და ჩვენს კლინიკურ ამოცანებთან?“

პაციენტებისთვის კი მთავარი გზავნილია: AI შეიძლება იყოს სასარგებლო დამხმარე, მაგრამ ის არ არის ექიმის შემცვლელი. განსაკუთრებით დიაგნოზის, მკურნალობის, მედიკამენტების ან გადაუდებელი მდგომარეობების შემთხვევაში, AI-ის პასუხი დამოუკიდებელ სამედიცინო გადაწყვეტილებად არ უნდა იქცეს.

საბოლოოდ, Nature Medicine-ის ეს კვლევა გვახსენებს, რომ ჯანდაცვაში ტექნოლოგიური პროგრესი მხოლოდ ახალი ინსტრუმენტების შექმნას არ ნიშნავს. პროგრესი ნიშნავს იმასაც, რომ ეს ინსტრუმენტები მკაცრად, გამჭვირვალედ და დამოუკიდებლად შევამოწმოთ.

სამედიცინო AI-ის მთავარი კითხვა დღეს აღარ არის მხოლოდ – “შეუძლია თუ არა პასუხის გაცემა?“
მთავარი კითხვაა – “შეგვიძლია თუ არა ამ პასუხის უსაფრთხოდ, პასუხისმგებლიანად და რეალურ კლინიკურ გარემოში გამოყენება?“

ახალი კვლევა: ზოგადი დანიშნულების AI-მ სპეციალიზებულ სამედიცინო პლატფორმებს რამდენიმე ტესტში აჯობა

Author: ალექსანდრე ჩხიკვიშვილი

მსგავსი სტატიები