تكنولوجيا / اليوم السابع

تطلق Gemini Embedding 2 لفهم النصوص والصور والفيديو معاً

أعلنت شركة Google عن إطلاق أول نموذج تضمين متعدد الوسائط بالكامل يحمل اسم Gemini Embedding 2، وهو نموذج ذكاء اصطناعي جديد قادر على تحليل النصوص والصور والصوت والفيديو داخل نظام موحد لفهم البيانات.

وأوضحت الشركة أن النموذج الجديد يقوم بربط هذه الأنواع المختلفة من المحتوى داخل مساحة تضمين واحدة، ما يسمح للذكاء الاصطناعي بفهم المفاهيم سواء ظهرت في شكل كلمات مكتوبة أو صوت مسموع أو صورة أو حتى مقطع .

وتؤكد الشركة، التي تتخذ من مدينة Mountain View مقراً لها، أن هذه التقنية ستجعل من السهل على نماذج اللغة الكبيرة فهم المعلومات بطريقة أكثر تكاملاً، كما ستساعدها على تنفيذ مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.

أول نموذج تضمين متعدد الوسائط من

في تدوينة رسمية على مدونتها، كشفت Google تفاصيل النموذج الجديد، موضحة أنه يمثل الجيل التالي من نماذج التضمين التي طورتها الشركة، ويُعد Gemini Embedding 2 خليفة لنموذج التضمين السابق الذي كان يركز على النصوص فقط وتم إطلاقه العام الماضي، لكنه الآن قادر على فهم المعاني والسياق الدلالي عبر أكثر من 100 لغة مختلفة.

كما أصبح النموذج متاحاً حالياً في مرحلة المعاينة العامة من خلال واجهة البرمجة الخاصة بمنصة Gemini API وكذلك عبر منصة الذكاء الاصطناعي السحابية Vertex AI.

كيف تتعامل نماذج الذكاء الاصطناعي مع البيانات

عادةً ما تستخدم نماذج الذكاء الاصطناعي أنظمة منفصلة للتعامل مع أنواع البيانات المختلفة. فالنصوص يتم تخزينها ومعالجتها في نظام خاص، بينما تُحفظ الصور في نظام آخر، وكذلك الحال بالنسبة لمقاطع الفيديو والملفات الصوتية.

وعندما يطلب المستخدم معلومات معينة، يبدأ النموذج في البحث داخل النظام المرتبط بنوع الملف المطلوب فقط، فعلى سبيل المثال، غالباً ما تتعامل نماذج اللغة الكبيرة مع كلمة “قطة” داخل مستند نصي بشكل مختلف تماماً عن ظهور قطة داخل مقطع فيديو أو صورة، ويزيد الأمر تعقيداً أن طرق استخراج المعلومات تختلف من نوع محتوى إلى آخر.

نظام موحد لمعالجة جميع أنواع المحتوى

يهدف Gemini Embedding 2 إلى حل هذه المشكلة من خلال تقديم بنية جديدة تعتمد على مساحة تضمين موحدة يمكنها التعامل مع جميع أنواع البيانات، فبدلاً من استخدام أنظمة متعددة، يستطيع النموذج التعامل مع النصوص والصور والفيديو والصوت داخل نظام واحد فقط.

ويعني ذلك أن النموذج يمكنه تحليل مستند يحتوي على نصوص وصور في الوقت نفسه، بطريقة تشبه إلى حد كبير الطريقة التي يفهم بها البشر المعلومات من مصادر متعددة في آن واحد، وتقول Google إن هذه البنية الجديدة تساعد على تبسيط الأنظمة التقنية المعقدة وتحسين أداء العديد من التطبيقات المعتمدة على الذكاء الاصطناعي.

واسعة للنموذج الجديد

وبحسب جوجل، يمكن استخدام Gemini Embedding 2 في مجموعة واسعة من التطبيقات المتقدمة، ومن بين هذه الاستخدامات تقنيات Retrieval-Augmented Generation المعروفة اختصاراً باسم RAG، والتي تساعد نماذج الذكاء الاصطناعي على توليد إجابات أكثر دقة من خلال الاستفادة من مصادر خارجية.

كما يمكن استخدام النموذج في تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر داخل النصوص، إضافة إلى تنظيم البيانات وتجميعها داخل مجموعات متشابهة.

قدرات تقنية متقدمة للنموذج

يأتي Gemini Embedding 2 بعدد من القدرات التقنية المتقدمة التي تسمح له بالتعامل مع أنواع مختلفة من البيانات، فعلى مستوى النصوص، يمتلك النموذج نافذة سياق تصل إلى 8192 رمز إدخال، ما يسمح له بمعالجة كميات كبيرة من المحتوى النصي في الطلب الواحد.

كما يستطيع النموذج تحليل ما يصل إلى ست صور في الطلب الواحد بصيغ PNG وJPEG، أما بالنسبة للفيديو، فيمكنه معالجة مقاطع تصل مدتها إلى 120 ثانية بصيغ MP4 وMOV، ويتميز النموذج أيضاً بقدرته على معالجة البيانات الصوتية بشكل مباشر دون الحاجة إلى تحويلها أولاً إلى نص مكتوب، وهي ميزة تساهم في تسريع عملية تحليل الصوت، إضافة إلى ذلك، يستطيع النموذج تضمين ملفات PDF يصل طولها إلى ست صفحات.

ملحوظة: مضمون هذا الخبر تم كتابته بواسطة اليوم السابع ولا يعبر عن وجهة نظر مصر اليوم وانما تم نقله بمحتواه كما هو من اليوم السابع ونحن غير مسئولين عن محتوى الخبر والعهدة علي المصدر السابق ذكرة.

قد تقرأ أيضا