نسخة جديدة مفتوحة المصدر من ChatGPT

تقدمت تقنية Open Source GPT Chat بخطوة أخرى مع إصدار نموذج Dolly Large Language Model (DLL) الذي تم إنشاؤه بواسطة شركة Databricks للبرمجيات المؤسسية.

تسمى النسخة الجديدة من ChatGPT بـ Dolly، نسبةً إلى الشاة الشهيرة التي حملت هذا الاسم، والتي تم تكاثر نسخةً مِنها وهي أول حيوان ثديي يتم تكاثره.

النماذج اللغوية الضخمة ذات المصدر المفتوح

إن LLM دولي هو أحدث تجسيد لحركة الذكاء الاصطناعي مفتوح المصدر المتزايدة التي تسعى لتوفير الوصول الأكبر إلى التكنولوجيا بحيث لا تكون بحكمة ومراقبة الشركات الكبيرة.

واحدة من المخاوف التي تدفع حركة الذكاء الاصطناعي المفتوحة هي أن الشركات قد تكون مترددة في تسليم البيانات الحساسة لطرف ثالث يسيطر على تكنولوجيا الذكاء الاصطناعي.

مستند على البرمجيات المفتوحة المصدر

تم إنشاء دوللي من نموذج مفتوح المصدر تم إنشاؤه بواسطة معهد البحوث غير الربحي EleutherAI ونموذج جامعة ستانفورد Alpaca الذي بدوره تم إنشاؤه من نموذج LLaMA ذو 65 مليار معلمة مفتوح المصدر والذي تم إنشاؤه بواسطة Meta.

LLaMA، والذي يعني نموذج اللغة الكبير للذكاء الاصطناعي، هو نموذج لغوي يتم تدريبه على البيانات المتاحة للعامة.

وفقًا لمقال لويتس آند باياس، يمكن لـ LLaMA أن تتفوق على العديد من نماذج اللغة الأعلى (OpenAI GPT-3، Gopher بواسطة العقل العميق و Chinchilla بواسطة DeepMind) على الرغم من أنها أصغر.

إنشاء مجموعة بيانات أفضل

جاءت إلهامًا آخر من ورقة بحث أكاديمية (إلتواء النموذج اللغوي بتعليمات مُنشأة ذاتياً: البي دي إف) توضح طريقة لإنشاء بيانات تدريب عالية الجودة لتوليد الأسئلة والإجابات بشكل آلي وأفضل من البيانات العامة المحدودة.

يشرح بحث Self-Instruct:

"...نختار مجموعة من التعليمات المكتوبة من قبل الخبراء للمهام الجديدة، ونظهر عبر التقييم البشري أن ضبط GPT3 بواسطة SELF-INSTRUCT يفوق استخدام مجموعات الأوامر العامة المتاحة حاليًا بفارق كبير، مع تبقى فقط فجوة مطلقة بنسبة 5% خلف InstructGPT...

...عند تطبيق طريقتنا على GPT3 الأصلي، نقدم تحسينًا مطلقًا بنسبة 33% على النموذج الأصلي في تعليمات SUPERNATURALINSTRUCTIONS ، وهي تعادل أداء InstructGPT... الذي يتم تدريبه ببيانات المستخدم الخاصة والتعليقات البشرية."

أهمية دولي هي أنها تُظهر أنه يمكن إنشاء نموذج لغوي كبير ومفيد باستخدام مجموعة بيانات أصغر ولكن تحتوي على جودة عالية.

شركة داتابريكس تلاحظ:

“دوللي تعمل عن طريق استخدام نموذج مفتوح المصدر بحجم 6 مليار بارامتر من EleutherAI وتعديله بشكل بسيط جدًا لاستدراك قدرات متابعة التعليمات مثل الابتكار وتوليد النصوص غير المتوفرة في النموذج الأصلي، باستخدام بيانات من Alpaca.

نثبت أن أي شخص يمكنه أن يأخذ نموذج لغوي كبير مفتوح المصدر جاهز ويمنحه قدرة على اتباع تعليمات سحرية مشابهة لـ ChatGPT عن طريق تدريبه خلال 30 دقيقة على جهاز واحد، باستخدام بيانات تدريب عالية الجودة.

من المدهش، عدم تبع التعليمات لا يبدو يتطلب أحدث أو أكبر النماذج: نموذجنا يحتوي فقط على 6 مليار معلمة، بالمقارنة مع 175 مليار لـ GPT-3."

داتابريكس المفتوحة المصدر للذكاء الاصطناعي

يتم قول أن دولي يدير الذكاء الاصطناعي. إنه جزء من حركة متنامية انضمت إليها مؤخرًا منظمة موزيلا غير الربحية مع تأسيس Mozilla.ai. موزيلا هي ناشر متصفح Firefox وغيرها من البرامج مفتوحة المصدر.

نسخة جديدة مفتوحة المصدر من CloneChatGPT - تسمى Dolly

النماذج اللغوية الضخمة ذات المصدر المفتوح

مستند على البرمجيات المفتوحة المصدر

إنشاء مجموعة بيانات أفضل

داتابريكس المفتوحة المصدر للذكاء الاصطناعي

مقالات ذات صلة