تملك غوغل بالفعل نموذجا لتوليد مقاطع الفيديو باستخدام الذكاء الاصطناعي يدعى "فيو"، ولكن هذا لم يمنعها من الإعلان عن عائلة نماذج أخرى بقدرات تتخطى "فيو" باسم "جيميناي أومني"(Gemini Omni) ، يبدأ أولها بنموذج "أومني فلاش" (Omni Flash)، ضمن فعاليات مؤتمرها الأخير للمطورين.

وتأتي عائلة نماذج "جيميناي أومني" لتقدم تجربة توليد مقاطع فيديو مختلفة تماما عن تلك التي توفرها "فيو" أو حتى حزمة أدوات "فلو" المختلفة، وذلك لأنها قادرة على توليد مقاطع الفيديو مباشرة من خلال الصور ومقاطع الفيديو، فضلا عن النصوص، أي أنها تستطيع التعامل مع أكثر من نوع من المدخلات.

المستخدم لا يكتب فقط

تجسد عائلة نماذج "جيميناي أومني" اختلافا كبيرا في تجربة استخدام نماذج الذكاء الاصطناعي لتوليد مقاطع الفيديو من خلالها، إذ تحرر المستخدم من الحاجة لكتابة أوامر نصية طويلة ومعمقة، وتمنحه القدرة على توليد مقاطع الفيديو بناء على أي نوع من المدخلات يجده.

ويستطيع المستخدم من خلال "جيميناي أومني" التعامل مع الصور والنصوص ومقاطع الفيديو على حد سواء لتتمكن من توليد مقاطع فيديو احترافية تحافظ على المحتوى والشخصيات الموجودة في المواد الأصلية.

شاهد على يوتيوب

ويعني هذا إن قمت برفع صورة مباشرة إلى الأداة، فإنك تستطيع توليد مقطع فيديو للشخص أو الأشكال الموجودة في الصورة واستخدامها بكل تفاصيلها داخل المقطع دون خسارة أي شيء.

وتفتح هذه القدرة أمام مستخدمي "أومني" مجموعة كبيرة ومتنوعة من الاستخدامات التي لم تكن موجودة في السابق وكانت تتطلب مستوى احترافيا في كتابة الأوامر الموجهة للذكاء الاصطناعي.

استخدامات عدة

توجد العديد من الاستخدامات التي يمكن الاستفادة من "أومني" فيها، بدءا من إمكانية تعديل مقاطع الفيديو الموجودة مسبقا، وفق تقرير موقع "تيك كرانش" (Tech Crunch) التقني الأمريكي.

وإلى جانب ذلك، تستطيع تعديل الصور على غرار أداة "نانو بانانا برو" (Nanno Banana Pro) باستخدام "أومني" مباشرة والاستفادة أيضا من القدرات المتطورة للأداة.

ولا تحتاج عملية تعديل أو مونتاج مقاطع الفيديو إلى أي مهارات أو قدرات خاصة، يكفي فقط أن تصف لـ"أومني" ما ترغب بتعديله في المقطع لتقوم هي تلقائيا بتعديل المقطع ثم تحويله إلى مقطع جديد جاهز للمشاركة.

كما يوفر النموذج للمستخدمين القدرة على توليد صورة رمزية حقيقية "أفاتار" تشبه المستخدم بشكل متطابق إلى جانب استخدام درجات الصوت ذاتها للمستخدم، ثم تستطيع تحريك هذه الصورة واستخدامها في مقاطع الفيديو كما ترغب، وفق تقرير "تيك كرانش".

مصدر الصورة غوغل تصف عائلة "جيميناي أومني" بأنها نماذج عالم (أسوشيتد برس)

ولكن تظل قدرات "أومني فلاش" محصورة بإمكانية توليد مقطع فيديو لمدة 10 ثوان فقط، وفق التقرير، وترى "غوغل" بأن المستخدمين لن يرغبوا في إنشاء مقاطع أطول من هذا في الوقت الحالي.

وتضيف نيكول بريشتوفا مديرة إدارة المنتجات في شركة "غوغل ديب مايند" أن تقييد مدة المقاطع المنتجة بـ10 ثوان فقط ليس تقييدا للنموذج أو بسبب ضعفه، ولكنه قرار يستند إلى الرغبة في إتاحة النموذج لأكبر عدد من المستخدمين معا.

وتحمل كافة المقاطع التي يتم توليدها مباشرة باستخدام "جيميناي أومني" العلامة المميزة لمقاطع الفيديو المولدة بالذكاء الاصطناعي من قبل غوغل، والتي تسهل على الأدوات والمنصات اكتشافها، وهي "سينث آي دي" (SynthID)، وذلك لحماية المستخدمين من إساءة استخدام الأداة.

وتعود عائلة نماذج "أومني" بالنفع على كل من يعمل في وظائف لها علاقة مباشرة بمقاطع الفيديو إلى جانب صناع المحتوى، إذ تقلل الوقت اللازم لتعديل وإنتاج مقاطع الفيديو دون الحاجة إلى تعلم برامج المونتاج المعقدة.

كما أن استخدام "أومني" لا يتطلب حواسيب متطورة وذات عتاد قوي، بل يمكن استخدامها والاستفادة منها مباشرة من خلال تطبيق الهاتف الخاص بـ"جيميناي".

ما الفرق بين "أومني" و"فيو"؟

يشير تقرير موقع "ذا فيرج" التقني الأمريكي إلى أن الاختلاف الرئيسي بين "أومني" و"فلو"، أداة توليد مقاطع الفيديو القديمة من غوغل، يكمن في نوعية المدخلات التي تستطيع كل أداة التعامل معها.

وتستطيع "فيو" التعامل مع الصور والنصوص لتوليد مقاطع الفيديو، بينما يوسع "أومني" التجربة إلى التعامل مع مدخلات متعددة، تشمل الصور ومقاطع الفيديو والصوت والنصوص، إلى جانب تحرير الفيديو بالمحادثة.

وبينما يبدو أن هذا هو الاختلاف الأبرز بين "أومني" و"فلو" من ناحية المستخدم، إلا أن الآلية التي تقف خلف كل أداة مختلفة تماما، وذلك لأن غوغل تصف "أومني" بكونه أقرب إلى نموذج "عالم" بدلا من مجرد نموذج ذكاء اصطناعي تقليدي.

ويكمن الفرق بين نماذج العالم ونماذج الذكاء الاصطناعي التقليدية في كونها قادرة على فهم والتعامل مع قوانين العالم الطبيعي الفيزيائية والواقعية والالتزام بها إلى حد كبير وتوقع نتائجها على الأشياء الموجودة ضمن النموذج.

ويعني هذا أن مقطع الفيديو الذي سيقوم "أومني" بتوليده سيكون أقرب إلى الواقع ويلتزم بقوانين العالم الفيزيائية ويتبعها مثل الجاذبية واتجاه حركة الهواء وتأثر الأشياء بالقوة الخارجية وغيرها، وهو ما يزيد من واقعية المقاطع بشكل كبير.

كما أن "أومني" يعتمد على عائلة مختلفة من نماذج الذكاء الاصطناعي التي تقدمها غوغل، وهي تدمج بشكل مباشر بين نموذج الذكاء الاصطناعي اللغوي "جيميناي" والبيانات التي تم تدريبه عليها وبين نماذج توليد مقاطع الفيديو الخاصة بالشركة، وفق تقرير "تيك كرانش".

زيادة قدرات التزييف العميق

تحاول غوغل وضع مجموعة من القيود والآليات لتقويض استخدام "أومني" في توليد مقاطع التزييف العميق مثل وضع العلامة المميزة للكشف عن المقاطع المولدة بالذكاء الاصطناعي "سينث آي دي"، فضلا عن وضع خطوات للتيقن من هوية المستخدم قبل إتاحة عمل "أفاتار" خاص به.

ولكن، تملك العديد من الأدوات قيودا مماثلة ولم تكن قادرة على إيقاف سيل مقاطع النفايات الرقمية المولدة بالذكاء الاصطناعي إلى جانب مقاطع التزييف العميق، فهل تستطيع أدوات غوغل التغلب على هذا الأمر؟

المصدر: الجزيرة

الصفحة الرئيسية

جيميناي أومني: هل يصبح المونتاج محادثة مع الذكاء الاصطناعي؟

المستخدم لا يكتب فقط

استخدامات عدة

ما الفرق بين "أومني" و"فيو"؟

زيادة قدرات التزييف العميق

إقرأ أيضا

بعد 25 عاما من الروابط الزرقاء.. غوغل تعيد اختراع البحث

جيميناي أومني: هل يصبح المونتاج محادثة مع الذكاء الاصطناعي؟

آخر الأخبار

رويترز: خامنئي أمر بإبقاء اليورانيوم عالي التخصيب داخل إيران

حرب إيران.. زيارة محتملة لقائد الجيش الباكستاني إلى طهران وجدل إسرائيلي بشأن لبنان