مع إطلاق OpenAI GPT-4 في منتصف مارس 2023

صورة gpt-4-640b66db8c60d-sej-1520x800.jpg

أكد مدير تكنولوجيا المعلومات في مايكروسوفت ألمانيا، أندرياس براون، أن GPT-4 سيأتي في غضون أسبوع من 9 مارس 2023 وسيكون متعدد الوسائط. تعني الذكاء الاصطناعي متعدد الوسائط أنه سيكون قادرًا على التشغيل مع أنواع متعددة من المدخلات مثل الفيديو والصور والصوت.

تحديث: تم إصدار GPT-4 في 14 مارس 2023

أطلقت OpenAI نسخة GPT-4 في 14 مارس 2023. إنها نموذج متعدد الوسائط يقبل استفسارات الصور والنصوص.

الوضع النمطي هو عبارة تُستخدم في التعلم الآلي للإشارة إلى أشكال الإدخال مثل النصوص وأيضًا الحواس مثل الصوت والرؤية والشم، إلخ.

وصف إعلان OpenAI حجم تطورات GPT-4 بالتفصيل:

“…على الرغم من أن الكمبيوتر أقل قدرة من البشر في العديد من السيناريوهات الحقيقية، إلا أنه يظهر أداءً على مستوى البشر في مختلف المقاييس المهنية والأكاديمية.

على سبيل المثال، يجتاز اختبار بار محاكاة بنتيجة تصل إلى النسبة العليا في العشرة بالمئة من المتقدمين للامتحان؛ وفي المقابل، كانت نسبة نجاح GPT-3.5 في العشرة السفلى.

قضينا 6 أشهر في تعديل GPT-4 بشكل متكرر باستخدام الدروس المستفادة من برنامج الاختبار التحريضي الخاص بنا وأيضًا ChatGPT، مما أسفر عن أفضل نتائجنا على الإطلاق (على الرغم من أنها ليست مثالية) في الحقيقة وقابلية التوجيه ورفض خروج عن الحدود.”

نماذج لغوية متعددة الوسائط وحجمها الكبير

أهم الأخبار الرئيسية من الإعلان هو أن GPT-4 هو متعدد الوسائط (تنبأ SEJ بأن GPT-4 متعدد الوسائط في يناير 2023).

التركيز على النمط هو إشارة إلى نوع الإدخال الذي يتعامل به نموذج لغة كبير (في هذه الحالة).

تتضمن الواجهة المتعددة نصوصًا وكلامًا وصورًا وفيديو.

يعمل GPT-3 و GPT-3.5 فقط في وضع واحد، النصوص.

وفقًا لتقرير الأخبار الألماني، قد يكون بإمكان GPT-4 العمل على الأقل في أربعة أنماط، الصور والصوت (السمعي) والنص والفيديو.

يقتبس الدكتور أندرياس براون، المدير التنفيذي العالمي لمايكروسوفت في ألمانيا:

"سنقدم جي بي تي-٤ الأسبوع المقبل، وسنحتوي هناك على نماذج متعددة الوسائط التي ستقدم إمكانيات مختلفة تمامًا - على سبيل المثال الفيديوهات..."

كان التقرير قليل التحديدات بالنسبة للإصدار GPT-4، لذا ليس واضحاً ما تم مشاركته حول التعددية في GPT-4 بشكل خاص أو فقط عموميًا.

قام مدير استراتيجية الأعمال في مايكروسوفت، هولجر كين، بشرح مصطلحات متعددة الوسائط، ولكن التقرير لم يكن واضحاً عما إذا كان يشير إلى تقنية GPT-4 متعددة الوسائط أم مجرد مفهوم عام للمتعددية الوسائط.

أعتقد أن إشاراته إلى التعددية وسائط خاصة بـ GPT-4.

تقرير الأخبار المشترك:

"قد شرح كين معنى الذكاء الاصطناعي المتعدد الوسائط، الذي يمكن ترجمة النصوص ليس فقط إلى صور، ولكن أيضًا إلى موسيقى وفيديو".

حقيقة أخرى مثيرة هي أن مايكروسوفت تعمل على "مقاييس الثقة" من أجل أن تربط الذكاء الاصطناعي بهوية الحقائق لجعله أكثر موثوقية.

مايكروسوفت كوسموس-1

شيء تم على ما يبدو إداراجه بشكل غير كافي في الولايات المتحدة هو أن شركة مايكروسوفت أطلقت نموذج لغة متعددة الأوضاع يسمى Kosmos-1 في بداية مارس ٢٠٢٣.

وفقًا لتقرير من موقع الأخبار الألماني Heise.de:

“...قام الفريق بتعريض النموذج المدرب مسبقًا لاختبارات مختلفة، وحقق نتائج جيدة في تصنيف الصور، والإجابة على أسئلة حول محتوى الصورة، والتسمية التلقائية للصور، والتعرف على النص البصري ومهام إنتاج التحدث.

...الاستدلال البصري، أي استخلاص الاستنتاجات حول الصور دون استخدام اللغة كخطوة وسيطة، يبدو أنه أمر مهم هنا...

كوسموس-1 هو نمط متعدد الوسائط يدمج طرق الوضع النصي والصور.

GPT-4 يذهب أبعد من Kosmos-1 لأنه يضيف وسيلة تواصل ثالثة، الفيديو، ويبدو أنه يشمل أيضًا وسيلة الصوت.

يعمل عبر عدة لغات

يبدو أن GPT-4 يعمل في جميع اللغات. ويوصف بأنه قادر على استلام سؤال باللغة الألمانية والرد باللغة الإيطالية.

هذا مثال غريب نوعًا ما لأنه، من الذي سيطرح سؤالًا بالألمانية ويرغب في الحصول على إجابة بالإيطالية؟

هذا هو ما تم تأكيده:

"...تقدمت التكنولوجيا إلى الدرجة التي تعمل في جميع اللغات: يمكنك أن تسأل سؤالاً بالألمانية وتحصل على إجابة بالإيطالية.

بفضل الأوضاع المتعددة، ستقوم Microsoft(-OpenAI) بجعل النماذج شاملة."

أعتقد أن نقطة الاختراق هي أن النموذج يتجاوز اللغة بقدرته على استخلاص المعرفة من مختلف اللغات. لذا إذا كانت الإجابة باللغة الإيطالية ، فسوف يعرف ذلك ويكون قادرًا على تقديم الإجابة باللغة التي تم طرح السؤال بها.

هذا سيجعله مشابهًا لهدف الذكاء الاصطناعي متعدد الوسائط لـ جوجل المعروف باسم MUM. يقال أن MUM قادر على تقديم إجابات باللغة الإنجليزية للبيانات التي تكون موجودة فقط بلغة أخرى، مثل اليابانية.

تطبيقات GPT-4

لا توجد إعلانات حالية عن مكان ظهور GPT-4. ولكن تم ذكر Azure-OpenAI بشكل محدد.

جوجل تكافح للحاق بمايكروسوفت من خلال دمج تكنولوجيا منافسة في محرك البحث الخاص بها. هذا التطور يزيد من انطباع أن جوجل تتخلف وتفتقر إلى قيادة في الذكاء الاصطناعي الموجه للمستخدمين.

جوجل بالفعل تدمج الذكاء الاصطناعي في العديد من منتجاته مثل جوجل لينز، جوجل مابس و في مجالات أخرى التي يتفاعل فيها المستخدمون مع جوجل. هذا النهج هو استخدام الذكاء الاصطناعي كتكنولوجيا مساعدة لمساعدة الناس في المهام الصغيرة.

الطريقة التي يقوم بها مايكروسوفت في تنفيذها أكثر وضوحًا وبالتالي تستحوذ على كل الانتباه وتعزز صورة جوجل كشركة تتكبد وتكافح من أجل اللحاق بالركب.

اقرأ إعلان إصدار OpenAI GPT-4 الرسمي هنا.

اقرأ التقرير الأصلي باللغة الألمانية هنا:

سيتم إطلاق GPT-4 الأسبوع المقبل - وسيكون متعدد الوسائط، وفقًا لما قالته مايكروسوفت في ألمانيا

مقالات ذات صلة

عرض المزيد >>

أطلق العنان لقوة الذكاء الاصطناعي مع HIX.AI!