شهدت تكنولوجيا توليد الصور من النصوص قفزة نوعية مدفوعة بنماذج الانتشار والتحليل الذاتي التلقائي، حيث لم يعد توليد صور تحاكي الواقع الفوتوغرافي يتطلب مهارات في برامج التصميم المعقدة مثل فوتوشوب، بل تحول الأمر إلى علم يعرف بهندسة الوصف يعتمد على صياغة شيفرات لغوية دقيقة وممنهجة لتوجيه نماذج الذكاء الاصطناعي لاستخراج تفاصيل بصرية معقدة بدقة مذهلة.
وتشير الدراسات التجريبية المنشورة في منصات البحث التقني إلى أن نماذج توليد الصور تمنح الكلمات الأولى في الوصف وزنا تقنيا أكبر مقارنة بالكلمات الأخيرة، مما يتطلب ترتيبا تسلسليا دقيقا لعناصر الوصف. فالبنية الرياضية والتقنية المثالية لبناء وصف فائق الواقعية تتكون من العناصر التالية:
وفقا لأبحاث تطوير الألعاب والتصميم الرقمي، تتيح بعض النماذج مثل ستايبل ديفيوجن (Stable Diffusion) وفلوكس (Flux) التحكم في قوة الكلمات باستخدام الأقواس والمعاملات الرقمية، مثل زيادة تركيز تفصيل معين عبر كتابته بصيغة (keyword:1.2). بالمقابل، تستخدم الأوصاف السلبية لاستبعاد التشوهات ومنع النموذج من توليد أخطاء بصرية مثل الأيدي المشوهة أو المظهر البلاستيكي غير الطبيعي.
لتوليد صورة واقعية، يجب أولا اختيار "المحرك" المناسب، فالنماذج الرائدة حاليا تعتمد على تقنيات انتشار متطورة (Diffusion Models) وأخرى تعتمد على المحولات (Transformers):
السر لا يكمن في كتابة وصف طويل، بل في كتابة وصف هيكلي، فوفقا لدليلي التصميم الصادرين عن مجتمع ميدجورني ومركز أبحاث أوبن إيه آي، تنقسم صياغة الأمر الواقعي إلى خمسة عناصر أساسية:
1- الموضوع الأساسي
ابدأ بتحديد دقيق جدا للموضوع دون تعميم، فبدلا من كتابة "رجل عجوز"، اكتب "رجل عجوز يبلغ من العمر 70 عاما، تظهر على وجهه تجاعيد عميقة ونظرة حكيمة".
2- بيئة العمل والإضاءة
الإضاءة هي الفارق الجوهري بين الصورة التي تبدو كرسوم حاسوبية (CGI) والصورة الحقيقية، ولذلك استخدم مصطلحات التصوير الاحترافي:
3- إعدادات الكاميرا والعدسة
محاكاة الكاميرات الحقيقية تخدع خوارزميات الذكاء الاصطناعي لإنتاج عمق ميدان واقعي:
4- التفاصيل الدقيقة والخلفية
لتحقيق الواقعية الفائقة، اطلب تفاصيل مجهرية تمنع السطح الأملس الزائف (Plastic Look):
إليك الصيغة الهيكلية التي يمكنك محاكاتها باللغة الإنجليزية، لأن النماذج تتفوق في فهمها:
[Subject] + [Environment/Background] + [Lighting] + [Camera/Lens] + [Style/Quality Details]
مثال تطبيقي لـ بورتريه سينمائي واقعي:
"A close-up photographic portrait of a 30-year-old female astronaut, sweat drops on her skin, looking through a spacecraft window at planet Earth. Soft cinematic volumetric lighting, shot on 85mm lens, f/1.8, photorealistic, hyper-detailed skin texture, 8k resolution."
وترجمة النص أعلاه هي:
صورة فوتوغرافية مقرّبة لرائدة فضاء تبلغ من العمر 30 عاما، تظهر قطرات العرق على بشرتها، وهي تنظر من خلال نافذة مركبة فضائية إلى كوكب الأرض. إضاءة سينمائية ناعمة، تم التقاطها بعدسة 85 ملم، f/1.8، واقعية للغاية، نسيج بشرة فائق التفاصيل، دقة 8K.
إذا كنت تستخدم أدوات مثل ميدجورني أو ستايبل ديفيوجن عبر واجهات مبسطة، فهناك حيلتان ترفعان الجودة فورا:
تاريخيا، عانت نماذج الذكاء الاصطناعي من توليد أيدي بـ 6 أصابع أو عيون مشوهة، فقد وضح تقرير لموقع تيك كرنتش أن الأجيال الجديدة مثل ميدجورني الجيل السادس ودال-إي 3 حلت هذه المشكلة بنسبة تتجاوز 90% عبر زيادة تدريب النماذج على تشريح الجسد البشري.
لكن في حال واجهت مشكلة في الأيدي، عليك أن تستخدم أدوات "إعادة التوليد الموضعي" المتاحة في معظم المنصات الآن، وذلك من خلال تظليل اليد المعيبة فقط، واطلب من الذكاء الاصطناعي إعادة توليدها منفردة مع كتابة perfectly anatomically correct hand.
المصدر:
الجزيرة
مصدر الصورة
مصدر الصورة
مصدر الصورة