كشفت دراسة حديثة أجرتها مؤسسة “Legal Guardian Digital” عن تفاوتات هائلة في دقة روبوتات الدردشة الشهيرة، محذرة من ظاهرة “الهلوسة” التي قد تؤدي إلى تضليل المستخدمين ببيانات خاطئة تمامًا.
وبعيدًا عن التعقيدات التقنية، تعتمد النماذج اللغوية الكبيرة (LLMs) على أنماط إحصائية لتوقع الكلمة التالية. وعندما يفشل النموذج في العثور على نمط دقيق للإجابة، فإنه يقوم بتركيب كلمات تبدو منطقية من الناحية الإحصائية لكنها تفتقر إلى الصحة الواقعية. هذا يعني أن الروبوت لا يتعمد الكذب، بل ينفذ برمجته في محاولة تقديم إجابة حتى لو كانت المعلومات غير متوفرة لديه.
وفجرت الدراسة مفاجأة بشأن Google Gemini، حيث تصدر قائمة الروبوتات الأكثر “هلوسة” بمعدل خطأ وصل إلى 32% من إجاباته. هذه الأرقام قد تثير قلق شركة “أبل”، التي تفيد التقارير بأنها تدفع لجوجل مليار دولار سنويًا لاستخدام نسخة مخصصة من “جميني” لتعزيز محرك “سيري” في نظام iOS 27 المنتظر هذا العام.
وجاء ChatGPT في المرتبة الثانية من حيث نسبة الخطأ، حيث قدم معلومات غير دقيقة في 30% من ردوده، وهو ضعف معدل خطأ منافسه الصيني DeepSeek.
على الجانب الآخر، أثبت Perplexity AI أنه الأكثر جدارة بالثقة، بمعدل هلوسة لم يتجاوز 13%، يليه المحرك الصيني DeepSeek بنسبة 14%، ثم Grok المملوك لإيلون ماسك بنسبة 15%.
وأشارت الدراسة إلى أن الدقة ليست المعيار الوحيد، بل “التوفر” أيضًا؛ حيث كان Perplexity و Grok هما الوحيدين اللذين لم يتعرضا لأي توقف (Uptime 100%) خلال فترة الدراسة. بينما حقق ChatGPT نسبة توفر بلغت 99.98%، وحل Claude في المركز الأخير بنسبة 99.68%، وهي لا تزال نسبة موثوقة جدًا.

