يلمح GPT-3 الهائل لشركة OpenAI إلى حدود نماذج اللغة للذكاء الاصطناعي

قبل قليل أكثر من عام، OpenAI، شركة ذكاء اصطناعي مقرها سان فرانسيسكو، صدمت العالم بعرض قفزة مذهلة في قوة الحواسيب في تكوين جمل باللغة الطبيعية، وحل الأسئلة، مثل استكمال الجملة وصياغة فقرات طويلة من النص تبدو إنسانية بشكل جيد.

أحدث عمل من ذلك الفريق يظهر كيف نضج تفكير OpenAI في بعض الجوانب. GPT-3 ، كما يطلق عليه الإصدار الجديد ، ظهر الأسبوع الماضي ، بمزيد من الخيارات والتفاصيل ، تم إنشاؤه بواسطة بعض من نفس المؤلفين للإصدار السابق ، بما في ذلك Alec Radford و Ilya Sutskever ، إلى جانب العديد من المشاركين الإضافيين ، بما في ذلك علماء من جامعة جونز هوبكنز.

إنه الآن نموذج لغوي حقيقي للوحش، كما يطلق عليه، فهو يبتلع نصوص بنسبتين من الحجم الذي يبتلعه سابقه.

لكن في إطار هذه المغامرة الكبرى، يبدو أن فريق OpenAI يقتربون من بعض الحقائق الأعمق، تماماً كما قارب الدكتور ديفيد بومان حدود المعروف في نهاية فيلم 2001.

مدفونًا في الجزء الختامي للورقة بطول 72 صفحة، نماذج اللغة هي متعلمة قليلة الحصص ، التي تم نشرها الأسبوع الماضي على خادم الطباعة المسبقة arXiv، يوجد اعتراف ملفت للنظر.

"قيد أصلي تحدي للنهج العام الموضح في هذا الورق - تكبير أي نموذج يشبه اللغة، سواء ذاتي أو ثنائي الاتجاه - هو أنه قد يصادف في النهاية (أو قد يكون بالفعل يصادف) حدود الهدف الأساسي للتدريب المسبق،" كتب الكتاب.

ما يقوله الكتاب هو أن بناء شبكة عصبية تقوم فقط بتوقع احتمالات الكلمة التالية في أي جملة أو عبارة قد يكون لها حدود. مجرد جعلها أقوى وملئها بمزيد من النص قد لا يؤدي إلى نتائج أفضل. هذا هو اعتراف مهم داخل ورقة بحثية تحتفل بشكل رئيسي بتحقيق رمى المزيد من الطاقة الحاسوبية في مشكلة ما.

صورة مقابلة GPT-3

لفهم أهمية استنتاجات الكتّاب، يجب أن ننظر إلى كيفية الوصول إلى هنا. تاريخ عمل OpenAI على اللغة كان جزءًا من تاريخ تقدم مستمر لنوع واحد من النهج، مع زيادة النجاح مع زيادة حجم التكنولوجيا.

الـ GPT الأصلي، و GPT-2، هما كلاهما تكيفات من ما يُعرف بالمحول (الترانسفورمر)، وهي اختراع طورته جوجل في عام 2017. يستخدم المحول (الترانسفورمر) وظيفة تُسمى "الانتباه" لحساب احتمالية ظهور كلمة، مع الكلمات المحيطة بها. أثارت OpenAI الجدل قبل عام عندما قالت إنها لن تُصدر الشيفرة المصدرية لأكبر نسخة من GPT-2، وذلك لأنها قالت إن هذه الشيفرة المصدرية يُمكن أن تقع في أيدي خاطئة وأنها يمكن أن تُستغل لإيهام الناس بأمور مثل الأخبار الزائفة.

الورقة الجديدة تأخذ تقنية GPT إلى مستوى أعلى من خلال جعلها أكبر حجمًا. كانت أكبر إصدار لـ GPT-2 ، والذي لم يتم نشره بصورة المصدر ، يحتوي على 1.5 مليار معلمة. GPT-3 مكون من 175 مليار معلمة. المعلمة هي عبارة عن حساب في الشبكة العصبية يطبق وزنًا أكبر أو أقل على بعض جوانب البيانات ، ليعطي هذا الجانب أهمية أكبر أو أقل في الحساب العام للبيانات. إنها هذه الأوزان التي تعطي شكلاً للبيانات وتمنح الشبكة العصبية منظورًا مكتسبًا على البيانات.

زيادة الأوزان مع مرور الوقت أدت إلى نتائج تجارب مذهلة من قبل عائلة برامج GPT ومشتقات المحوّل الكبيرة الأخرى مثل BERT من جوجل، نتائج كانت مثيرة للإعجاب بشكل متواصل.

لا يهم أن العديد من الأشخاص أشاروا إلى أنه لا يبدو أن أي من هذه النماذج اللغوية تفهم اللغة بأي شكل من الأشكال بطريقة ذات مغزى. إنها تجتاز الاختبارات بنجاح، وهذا يعني شيئًا.

النسخة الأحدث تظهر مرة أخرى تقدمًا كميًا. مثل GPT-2 وغيرها من البرامج المبنية على "Transformer" ، يتم تدريب GPT-3 على مجموعة البيانات Common Crawl ، وهو مجموعة نصوص تم جلبها من الويب تحتوي على تقريبًا تريليون كلمة. "حجم مجموعة البيانات والنموذج هما أكبر بحوالي مائتي درجة من تلك المستخدمة لـ GPT-2" ، يكتب المؤلفون.

GPT-3 بحجم 175 مليار معلمة قادر على تحقيق ما يصفه الكتاب كـ "تعلم فوق ذاتي". تعني التعلم فوق الذات أن شبكة GPT العصبية لا تعاد تدريبها لأداء مهمة مثل استكمال الجملة. بتوفير مثال لمهمة ما، مثل جملة غير مكتملة، ثم الجملة المكتملة، ستقوم GPT-3 بإكمال أي جملة غير مكتملة تعطى لها.

GPT-3 قادر على تعلم كيفية أداء مهمة مع وجود استعلام واحد، بشكل أفضل في بعض الحالات من النسخ المعدلة من عملية التحويل التي تم ضبطها، لتنفيذ تلك المهمة بشكل محدد فقط. وبالتالي، GPT-3 هو انتصار للتعميم الشامل. فقط أطعمه بكمية هائلة من النص حتى يكون اوزانه مثالية، ويمكنه أن يؤدي بشكل جيد جدًا في عدد من المهام المحددة بدون أي تطوير إضافي.

هنا تأتي القصة إلى نهاية ملفتة في الورقة الجديدة. بعد سرد النتائج المثيرة للإعجاب لـ GPT-3 في مهام اللغة التي تتراوح بين استكمال الجمل إلى استنتاج التبعية المنطقية للبيانات إلى الترجمة بين اللغات، يلاحظ المؤلفون العيوب.

"على الرغم من التحسينات الكمية والنوعية القوية لـ GPT-3 ، وخاصة مقارنة بالإصدار السابق المباشر GPT-2 ، إلا أن لديها نقاط ضعف بارزة."

تتضمن هذه النقاط الضعف عدم قدرة البرنامج على تحقيق دقة كبيرة في ما يسمى بـ (Adversarial NLI). NLI أو التستدل باللغة الطبيعية هو اختبار يجب على البرنامج تحديد العلاقة بين جملتين. لقد قام باحثون من شركة فيسبوك وجامعة كارولاينا الشمالية بإدخال نسخة معادية، حيث يقوم البشر بإنشاء أزواج جمل تكون صعبة على الكمبيوتر أن يحلها.

يقول الكتّاب أن GPT-3 لا يقوم بأفضل من الصدفة في أمور مثل Adversarial NLI. والأسوأ من ذلك، بعد أن زودوا نظامهم بقوة معالجة تصل إلى 175 مليار وزن، الكتّاب ليسوا على يقين تمامًا من السبب وراء عدم تحقيقهم للنتائج المطلوبة في بعض المهام.

هذا هو الوقت الذي يصلون فيه إلى الاستنتاج المذكور أعلاه، بأنه ربما تغذية جسم كبير من النصوص إلى آلة ضخمة ليست الإجابة النهائية.

أمر آخر مثير للدهشة هو الملاحظة التالية. قد يكون ممارسة محاولة التنبؤ بما سيحدث في اللغة هو نهج خاطئ، يكتب الكتاب. قد يكونون يستهدفون المكان الخطأ.

"عندما يكون هناك أهداف للتدريب الذاتي ، يعتمد تحديد المهمة على إجبار المهمة المرغوبة على أن تصبح مشكلة تنبؤية" ، يكتبون ، "في حين أن نظم اللغة المفيدة في النهاية (مثل المساعدين الافتراضيين) قد يكون من الأفضل تفكيرها على أنها تأخذ إجراءات موجهة نحو الهدف بدلاً من مجرد عمليات التنبؤ."

المؤلفين يتركونها لوقت آخر لتحديد كيف سيتم التعامل مع هذا الاتجاه الجديد المثير للاهتمام.

على الرغم من أن الاعتراف بأن الأكبر قد لا يكون الأفضل في النهاية، فإن نتائج تحسين GPT-3 في العديد من المهام من المرجح أن تزيد، وليس تخفيف، الرغبة في الحصول على شبكات عصبية أكبر وأكبر. بواقع 175 مليار معلمة، GPT-3 هو ملك الشبكات العصبية الكبيرة، في الوقت الحالي. وفي عرض قدمته شركة الشرائح الذكية Tenstorrent في أبريل، تم وصف شبكات عصبية مستقبلية بأكثر من تريليون معلمة.

بالنسبة لجزء كبير من مجتمع التعلم الآلي، ستبقى إنشاء نماذج لغوية أكبر وأكبر هي حالة الفن الحالية.

مقالات ذات صلة

عرض المزيد >>

أطلق العنان لقوة الذكاء الاصطناعي مع HIX.AI!