هذه التكنولوجيا الجديدة قد تجعل GPT-4 وكل ما يشبهه يتلاشى

صورة3.jpg

مع كل الحماس حول برنامج الذكاء الاصطناعي لمحادثة المعروف باسم ChatGPT من OpenAI، وتكنولوجيا خليفته GPT-4، البرامج في النهاية، هي مجرد تطبيقات برمجية. ومثل جميع التطبيقات، فإن لديها قيود تقنية يمكن أن تجعل أدائها غير مثلى.

في ورقة بحث نُشرت في مارس، اقترح علماء الذكاء الاصطناعي في جامعة ستانفورد ومعهد MILA للذكاء الاصطناعي في كندا تقنية يمكن أن تكون أكثر كفاءة بكثير من GPT-4 - أو أي شيء مشابه له - في امتصاص كميات ضخمة من البيانات وتحويلها إلى إجابة.

أيضًا: يرغب هؤلاء الموظفون السابقون في شركة أبل في استبدال الهواتف الذكية بهذا الجهاز

معروفة باسم الضبع المهلوس، تستطيع تقنية Hyena تحقيق دقة مكافئة في الاختبارات المعيارية، مثل الإجابة على الأسئلة، مع استهلاك جزء بسيط من قوة الحساب. في بعض الحالات، يستطيع رمز Hyena التعامل مع كميات نصوص يجعل تقنية GPT تنفد ذاكرتها وتفشل.

"نتائجنا الواعدة في مقياس أقل من مليار المعامل تشير إلى أن الانتباه قد لا يكون كل ما نحتاجه ،" كتب الكتاب. تشير تلك الملاحظة إلى عنوان تقرير AI الأرقام لعام 2017 ، 'الانتباه هو كل ما تحتاجه'. في هذا الورقة ، عرض العالم أشيش فاسواني وزملاؤه من العلماء في جوجل برنامج Google's Transformer AI على العالم. أصبح المحوِّل أساسًا لكل واحدة من نماذج اللغة الكبيرة الحديثة.

ولكن لديه المحول عيب كبير. إنه يستخدم شيئا يسمى "الانتباه"، حيث يأخذ البرنامج الحاسوبي المعلومات في مجموعة واحدة من الرموز، مثل الكلمات، وينقل تلك المعلومات إلى مجموعة جديدة من الرموز، مثل الإجابة التي تراها من ChatGPT، وهي النتاج.

أيضًا:ما هو GPT-4؟ هنا كل ما تحتاج إلى معرفته

هذه العملية المهمة -- أداة أساسية في جميع برامج اللغة الكبيرة، بما في ذلك ChatGPT و GPT-4 -- لديها تعقيد حسابي "رباعي" (المرجع: معقد الزمن في الحساب). يعني هذا التعقيد أن الوقت اللازم لـ ChatGPT لإنتاج إجابة يزيد بشكل مربعي مع زيادة كمية البيانات المدخلة إليه.

في وقت ما، إذا كان هناك أكثر من اللازم من البيانات - وهو اللفظ، أو سلسلة من محادثات على مدار ساعات وساعات من الدردشة مع البرنامج - إما أن يتعطل البرنامج في توفير إجابة، أو يجب أن يتم إعطاؤه عدد أكبر وأكبر من عقود الرسومات لتشغيله بشكل أسرع وأسرع، مما يؤدي إلى زيادة متطلبات الحوسبة.

في ورقة البحث الجديدة "هرم الضبع: نحو نماذج لغوية تحويلية أكبر" التي تم نشرها على خادم المطبوعات المسبقة arXiv، يقترح المؤلف الرئيسي مايكل بولي من جامعة ستانفورد وزملاؤه استبدال وظيفة الانتباه في نموذج التحويل بشيء "أقل من رباعي" ألا وهو الضبع.

كما:ما هو الأوتو-جي بي؟ كل ما تحتاج لمعرفته حول أداة الذكاء الاصطناعي القوية التالية

المؤلفون لم يشرحوا الاسم، ولكن يمكن للشخص أن يتخيل العديد من الأسباب لبرنامج "الضبع". الضباع هي حيوانات تعيش في أفريقيا ويمكنها الصيد لمسافات طويلة. في معنى ما، يمكن أن يكون نموذج اللغة قويًا جدًا مثل الضبع الذي يصطاد لمسافات طويلة للعثور على الغذاء.

ولكن الكتّاب قلقون حقًا بشأن "التسلسل الهرمي"، كما يوحي العنوان، ولديهم عائلات من الضباع البرية التي تمتلك تسلسل هرمي صارم حيث يحتل أفراد عشيرة الضباع المحلية مستويات متفاوتة من الرتبة تؤسس للسيطرة. وبطريقة مشابهة، يطبق برنامج الضبع عمليات بسيطة جدًا، كما سترى، مرارًا وتكرارًا، بحيث يتم دمجها لتشكيل نوع من التسلسل الهرمي لمعالجة البيانات. إنه الجزء المجموعي الذي يمنح البرنامج اسمه المتراكب (الضبع).

أيضًا:يمكن لإصدارات ChatGPT المستقبلية أن تحل محل غالبية الأعمال التي يقوم بها الناس اليوم، كما يقول بن جورتزل

من أبرز المساهمين في الورقة المؤلفة عباقرة عالم الذكاء الاصطناعي، مثل يوشوا بينجيو، المدير العلمي لمعهد ميلا وحائز جائزة تورينج لعام 2019، وهي جائزة مكافآت الحوسبة المعادلة لجائزة نوبل. يُعتبر بينجيو بشكل واسع بأنه طوّر آلية الانتباه قبل فترة طويلة من طرحها على شكل التحويل.

أيضًا من بين الكتاب هو الأستاذ المشارك في علوم الحاسوب بجامعة ستانفورد كريستوفر ريه، الذي ساهم في السنوات الأخيرة في تطوير مفهوم الذكاء الاصطناعي كـ "برمجيات 2.0".

للعثور على بديل ذو تعقيد أقل من التركيز، قام فريق بولي بدراسة كيفية عمل آلية التركيز لمعرفة ما إذا كان بإمكان تنفيذ هذا العمل بطريقة أكثر كفاءة.

ممارسة حديثة في علم الذكاء الاصطناعي، تعرف بصفة التفسير الميكانيكي، تقدم نظرة عميقة حول ما يحدث داخل شبكة عصبية، داخل "دوائر" الانتباه الحسابية. يمكنك أن تفكر فيها كما لو كنت تفكك البرمجيات بنفس الطريقة التي تفكك بها ساعة أو حاسوب لمعرفة أجزاءه وفهم كيفية عمله.

أيضًا:استخدمت ChatGPT لكتابة نفس الروتين باستخدام ١٢ من أعلى لغات البرمجة. فيما يلي كيف قام بذلك

عمل مستشهر به بواسطة بولي والفريق هو مجموعة من التجارب التي قام بها الباحث نيلسون إلهاج من شركة الذكاء الاصطناعي أنثروبيك. تلك التجارب تفكك برامج المحولات لمعرفة ماذا يقوم الاهتمام بفعله.

في الجوهر، ما وجدته الحجاج وفريقه هو أن الانتباه يعمل عند مستوى أساسي جدًا من خلال عمليات الحاسوب البسيطة جدًا، مثل نسخ كلمة من المدخل الأخير ولصقها في الإخراج.

على سبيل المثال، إذا قمت ببدء كتابة جملة من هاري بوتر وحجر الساحر، مثل "كان السيد درسلي المدير لشركة تدعى غرنينجز..."، مجرد كتابة "د-ي-ر-س"، بداية الاسم، قد يكون كافيًا لتشجيع البرنامج على اكمال الاسم "درسلي" لأنه رأى الاسم في جملة سابقة من حجر الساحر. يستطيع النظام نسخ سجل الأحرف "ل-ي-ة" من الذاكرة لإكمال الجملة.

أيضا: يقول المتنبئ بالمستقبل أن تشات جي بي تي هو أكثر شبهاً بـ "ذكاء فضائي" من الدماغ البشري

ومع ذلك، تعاني عملية الانتباه من مشكلة تعقيد رباعية عندما يزداد حجم الكلمات ويتزايد. تحتاج المزيد من الكلمات إلى المزيد من ما يعرف بـ "الأوزان" أو المعلمات لتشغيل عملية الانتباه.

كما يكتب المؤلفون: "بلوك المحوّل هو أداة قوية لنمذجة التسلسلات، ولكنه ليس خاليًا من بعض القيود. واحدة من أبرز تلك القيود هي التكلفة الحسابية، التي تتزايد بسرعة مع ازدياد طول سلسلة الإدخال."

على الرغم من أن تفاصيل تقنية لـ ChatGPT وGPT-4 لم تُكشف عنها من قبل شركة OpenAI، يُعتقد أنها قد تحتوي على تريليون أو أكثر من معايير مثل هذه. تشغيل هذه المعايير يتطلب المزيد من رقائق وحدة معالجة الرسومات (GPU) من Nvidia، مما يزيد من تكلفة الحوسبة.

لتقليل تكلفة الحساب الرباعي الثاني، قامت بولي وفريقها بتعويض عملية الانتباه بما يسمى "تكوير"، وهو واحد من أقدم العمليات في برامج الذكاء الاصطناعي، المحسنة في الثمانينيات من القرن الماضي. التكوير عبارة عن فلتر يمكنه استخلاص العناصر في البيانات، سواء كانت بكسلات في صورة رقمية أو كلمات في جملة.

أيضا: نجاح ChatGPT يمكن أن يؤدي إلى تحول ضار في سرية الذكاء الاصطناعي ، حسبما يقول الرائد في مجال الذكاء الاصطناعي Bengio

بولي وفريقه يقومون بنوع من المزج: يأخذون العمل الذي قام به الباحث في جامعة ستانفورد دانييل ي. فو وفريقه لتطبيق المرشحات التكثيفية على سلاسل من الكلمات، ويجمعون ذلك مع عمل العالم الباحث ديفيد روميرو وزملائه في جامعة فريجه في جامعة أمستردام الذي يتيح للبرنامج تغيير حجم المرشح على الطاير. هذه القدرة على التكيف المرن تقلل من عدد المعاملات الغالية التكلفة التي يحتاجها البرنامج ليكون لديه.

صورة4.jpg

نتيجة التجميع الفوري هي أنه يمكن تطبيق توزيع على مبلغ غير محدود من النصوص دون الحاجة إلى مزيد ومزيد من المعلمات من أجل نسخ المزيد والمزيد من البيانات. إنها طريقة "خالية من الاهتمام"، كما يقول المؤلفون.

"يمكن لعمليات الضباع أن تقلص الفجوة في الجودة بشكل كبير مع الاهتمام عند التطوير على نطاق واسع ،" يكتب بولي والفريق ، "والوصول إلى التعقيد المماثل والأداء في المرحلة اللاحقة مع ميزانية حوسبية أصغر." التعقيد هو مصطلح فني يشير إلى مدى تطور الإجابة التي يتم إنشاؤها بواسطة برنامج مثل ChatGPT.

لإظهار قدرة Hyena، يقوم المؤلفون باختبار البرنامج على سلسلة من المقاييس التي تحدد مدى جودة برنامج اللغة في مجموعة متنوعة من المهام الذكاء الاصطناعي.

أيضًا: "تحدث أشياء غريبة جديدة في البرمجيات"، يقول أستاذ الذكاء الاصطناعي في جامعة ستانفورد، كريس ريه

تجربة واحدة هي "التجميعة"، مجموعة مكونة من 825 غيغابايت من النصوص تم تجميعها في عام 2020 بواسطة منظمة بحث الذكاء الاصطناعي غير الربحية Eleuther.ai. يتم جمع النصوص من مصادر "ذات جودة عالية" مثل ببمد، آركسيف، جيت هاب، مكتب براءات الاختراع الأمريكي وغيرها، بحيث تكون المصادر ذات شكل أكثر صرامة من مجرد مناقشات منتديات Reddit، على سبيل المثال.

أكبر تحديات البرنامج كانت في إنتاج الكلمة التالية عند إعطاء مجموعة جديدة من الجمل كإدخال. تمكّن برنامج Hyena من تحقيق درجة مكافئة لبرنامج GPT الأصلي من OpenAI في عام 2018، مع نسبة 20% أقل من العمليات الحسابية - "أول تحقيق بتصميم غير معتمد على الانتباه، بنية تكاملية لمطابقة جودة GPT" مع عدد أقل من العمليات، على حد قول الباحثين.

صورة1.jpg

فيما بعد، قام المؤلفون باختبار البرنامج على مهام التفكير المعروفة باسم SuperGLUE والتي تم تقديمها في عام 2019 من قبل علماء في جامعة نيويورك، بحث الذكاء الاصطناعي في فيسبوك، وحدة العقل العميق لشركة جوجل، وجامعة واشنطن.

على سبيل المثال ، عندما يتم إعطاء الجملة "جسدي يلقي ظلًا على العشب" ، وخياران للسبب، "كانت الشمس تشرق" أو "تم قص العشب" ، وطُلب اختيار الأحد المناسب ، يجب أن ينتج البرنامج "كانت الشمس تشرق" باعتباره الناتج المناسب.

في مهام متعددة، نجح برنامج Hyena في تحقيق درجات مماثلة أو قريبة من نسخة من GPT مع التدريب على أقل من نصف كمية بيانات التدريب.

أيضًا: كيفية استخدام بينج الجديد (وكيف يختلف عن ChatGPT)

ما هو أكثر إثارة للاهتمام هو ما حدث عندما زادت طول العبارات المستخدمة كإدخال: المزيد من الكلمات يعني تحسينًا أفضل في الأداء. في 2،048 "رمز"، والذي يمكن أن تعتبره ككلمات، فإن الهاينا يحتاج إلى وقت أقل لإكمال مهمة اللغة مقارنة بالنهج التركيز.

في 64،000 رمزًا، يشير المؤلفون إلى أن "تسارع الهايينا يصل إلى 100 مرة" -- تحسين أداء بنسبة مئوية مئة مرة.

بولي وفريقه يجادلون بأنهم لم يحاولوا فقط نهجًا مختلفًا مع Hyena، بل أنهم "كسروا الحاجز التربيعي"، مما تسبب في تغيير كمي لمدى صعوبة البرنامج في حساب النتائج.

يشيرون إلى أن هناك أيضًا تحولات محتملة في الجودة أكثر أهمية في المستقبل: "كسر الحاجز التربيعي هو خطوة رئيسية نحو إمكانيات جديدة للتعلم العميق، مثل استخدام الكتب الدراسية بأكملها كسياق، وإنتاج الموسيقى على شكل طويل، أو معالجة صور بمقياس جيجابيكسل،" كما يكتبون.

قدرة الضبع الهينا على استخدام فلتر يمتد بكفاءة أكبر على آلاف وآلاف الكلمات، حسبما يكتب الكتاب، يعني أنه يمكن أن يكون هناك عملياً أي حد لـ "السياق" السؤال او الاستعلام ضمن برنامج اللغة. يمكنه بالفعل استدعاء عناصر من النصوص أو من المحادثات السابقة المبتعدة كثيراً عن خيوط المحادثة الحالية - تماماً مثل الضباع التي تصطاد على مسافات بعيدة.

أيضًا: أفضل شاتبوتات الذكاء الاصطناعي: ChatGPT وبدائل ممتعة أخرى لتجربتها

"عناصر العمليات الهينا لديها سياق غير محدود"، كما يكتبون. "أي أنها ليست مقيدة اصطناعيًا بالمحيط المحلي، ويمكنها تعلم الاعتماديات على المدى البعيد بين أي من عناصر [المدخلات]".

بالإضافة إلى ذلك، بالإمكان تطبيق البرنامج على بيانات من وسائط مختلفة، مثل الصور وربما الفيديو والأصوات.

من المهم أن نلاحظ أن برنامج Hyena الذي يظهر في الورقة صغير الحجم مقارنة بـ GPT-4 أو حتى GPT-3. في حين أن لدى GPT-3 175 مليار معلمة أو وزنًا ، يحتوي أكبر إصدار من Hyena فقط على 1.3 مليار معلمة. وبالتالي ، يتبقى لنا أن نرى كيف ستقدم Hyena في مقارنة كاملة ومباشرة مع GPT-3 أو 4.

ولكن إذا تحققت الكفاءة المحققة عبر نسخ أكبر من برنامج الضبع، فإنه يمكن أن يكون نمطًا جديدًا يكاد يكون منتشرًا كما كانت الاهتمام في العقد الماضي.

كما يستنتج بولي وفريقه: "تصميمات أبسط ما دون المربع مثل Hyena، المستندة إلى مجموعة من المبادئ التوجيهية البسيطة والتقييم على مؤشرات تفسيرية آلية، قد تشكل أساسًا لنماذج كبيرة فعّالة."

مقالات ذات صلة

عرض المزيد >>

أطلق العنان لقوة الذكاء الاصطناعي مع HIX.AI!