أخبار ar.wedoany.com، أصدر فريق بحثي من جامعة ولاية بنسلفانيا الأمريكية مؤخرًا دراسة حول موثوقية نماذج اللغة الكبيرة في تقديم الاستشارات الطبية. أظهرت الدراسة أن روبوتات الدردشة المعتمدة على الذكاء الاصطناعي حققت دقة إجمالية بلغت حوالي 76.2% عند الإجابة عن الأسئلة الصحية اليومية للمستخدمين العاديين. وتسلط هذه النتيجة الضوء مجددًا على حدود موثوقية الذكاء الاصطناعي في سيناريوهات الاستشارات الطبية وخدمة العملاء والتطبيقات عالية المخاطر.
ركزت الدراسة على الأسئلة الصحية التي قد يطرحها مستخدمو الإنترنت العاديون، بدلاً من اختبار نماذج اللغة الكبيرة بقواعد بيانات الامتحانات الطبية أو حالات المرضى الافتراضية التي أعدها خبراء. نظم فريق البحث مسابقة للأسئلة والأجوبة بالذكاء الاصطناعي في جامعة ولاية بنسلفانيا تحت اسم "Diagnose-a-thon"، حيث قدم 34 مشاركًا 212 مجموعة من المطالبات والإجابات المولدة بالذكاء الاصطناعي حول استفسارات صحية حقيقية أو افتراضية، باستخدام نماذج شملت ChatGPT-4o وChatGPT-3.5 وGemini-1.5 Pro وLlama3-8b. بعد ذلك، قام 9 أطباء معتمدون بتقييم دقة هذه الإجابات ومدى الضرر المحتمل لها. أشارت النتائج إلى أن حوالي 76.2% من الإجابات المولدة بالذكاء الاصطناعي اعتُبرت دقيقة، لكن نسبة الخطأ تجاوزت 20%، وهي نسبة كافية للتأثير على ثقة المستخدمين في موثوقية النظام، خاصة في مجال طبي تكون فيه هوامش الخطأ منخفضة للغاية.
كما كشفت الدراسة عن وجود تباين واضح في الأداء بين التخصصات الطبية المختلفة. ففي تخصصات مثل أمراض النساء والتوليد، والأذن والأنف والحنجرة، كانت فعالية إجابات الذكاء الاصطناعي أعلى، بينما كانت درجات الضرر المحتمل أقل. في المقابل، كان الأداء أضعف في تخصصات مثل الطب الباطني، وطب الأعصاب، والأمراض الجلدية، حيث انخفضت فعالية الإجابات وارتفعت المخاطر المحتملة. كما تؤثر جودة المطالبات على النتائج، حيث أن الأسئلة الأكثر تحديدًا والتي يتراوح طولها بين 60 و250 حرفًا تؤدي غالبًا إلى مخرجات أكثر دقة.
تحمل هذه النتائج إيحاءات مباشرة لأنظمة الاستشارات الطبية وخدمة العملاء القائمة على الذكاء الاصطناعي. إذا كانت روبوتات الإجابة على الأسئلة الصحية موجهة مباشرة للمرضى، فغالبًا ما يعتبر المستخدمون الإجابات بمثابة توصيات تشخيصية أو أساس لاتخاذ إجراءات، بينما قد تفتقر النماذج إلى القدرة على إجراء الفحوصات البدنية، أو تتبع التاريخ المرضي، أو تحليل بيانات الفحوصات المخبرية والصور، أو تقييم المخاطر السريرية. بالنسبة للمستشفيات، وشركات التأمين، ومنصات الصيدليات، وشركات الصحة الرقمية، فإن الذكاء الاصطناعي أكثر ملاءمة لمهام مثل تنظيم المعلومات الأولية، وتلخيص المواد قبل الاستشارة، وشرح الأسئلة الشائعة، ومساعدة الأطباء في البحث، على أن يقوم الأطباء المدربون بعد ذلك بعمليات الحكم والتأكيد والتواصل. خاصة في مجالات مثل طب الأعصاب والأمراض الجلدية التي تعتمد بشكل كبير على الخبرة المهنية والملاحظة السريرية، يجب أن تدخل إجابات الذكاء الاصطناعي في سير عمل الطبيب، ولا ينبغي أن تكون الأساس النهائي للتشخيص الذاتي للمريض.
يرى فريق جامعة ولاية بنسلفانيا أن الذكاء الاصطناعي لن يحل محل الأطباء البشريين ببساطة، لكنه قد يتيح فرصة لتعزيز قدرة الأطباء على معالجة المعلومات، وشرح المعرفة الطبية، وخدمة المرضى. من المقرر عرض هذه الدراسة في مؤتمر ACM للعدالة والمساءلة والشفافية لعام 2026، الذي سيعقد في الفترة من 25 إلى 28 يونيو في مونتريال، كندا. مع استمرار دخول روبوتات الدردشة إلى أنظمة الرعاية الصحية، والمالية، والحكومية، وخدمة العملاء في الشركات، فإن الدقة، وتنبيهات المخاطر، وآليات تدخل المتخصصين، وحدود المسؤولية ستصبح شروطًا أساسية لنجاح نشر الذكاء الاصطناعي في خدمة العملاء على نطاق واسع.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









