تطلق Google أداة إنشاء صور قوية تعمل بالذكاء الاصطناعي يمكنك استخدامها مجانًا
نشرت: 2024-08-23في عصر يهيمن فيه المحتوى المرئي على المشهد الرقمي، ارتفع الطلب على أدوات قوية ويمكن الوصول إليها لإنشاء الصور. من منشورات وسائل التواصل الاجتماعي إلى العروض التقديمية الاحترافية، لم تعد القدرة على إنشاء صور فريدة وجذابة بصريًا ترفًا، بل أصبحت ضرورة.
وإدراكًا لهذا الاتجاه، عززت جوجل لعبتها بإصدار Imagen 3، وهو مولد صور متطور يعمل بالذكاء الاصطناعي ومتوفر الآن مجانًا في الولايات المتحدة. لا يعد هذا التطور مجرد فوز للمبدعين، بل هو قفزة كبيرة إلى الأمام في إضفاء الطابع الديمقراطي على تكنولوجيا الذكاء الاصطناعي.
تم تقديم Imagen 3 لأول مرة للعالم خلال الكلمة الرئيسية لـ Google I/O في شهر مايو. ومع ذلك، لم يكن الأمر كذلك حتى نشرت Google ورقة بحثية شاملة حول الأداة التي أصبحت متاحة على نطاق واسع من خلال خدمة AI Test Kitchen الخاصة بالشركة. لقد فتحت هذه الخطوة عالمًا جديدًا من الإمكانيات لكل من منشئي المحتوى الهواة والمحترفين، مما يوفر لهم أداة متطورة تنافس بعضًا من أفضل الأدوات في الصناعة.
يعمل Imagen 3 في جوهره مثل مولدات صور الذكاء الاصطناعي الأخرى الموجودة في السوق. يقوم المستخدمون ببساطة بإدخال مطالبة نصية، وفي غضون 30 ثانية تقريبًا، تظهر سلسلة من الصور بناءً على الوصف المقدم. تصرح Google بكل فخر أن Imagen 3 "يُفضل على النماذج الحديثة الأخرى في وقت التقييم"، ويبدو أن المراجعات المبكرة تدعم هذا الادعاء.
تغيير قواعد اللعبة في عالم توليد الصور بالذكاء الاصطناعي
ما الذي يميز Imagen 3 عن منافسيها؟ وفي الاختبارات التي أجرتها PetaPixel، أظهرت الأداة قدرة ملحوظة على إنتاج صور عالية الجودة تنافس تلك التي تنتجها المنصات الشهيرة مثل Midjourney وDALL-E من OpenAI. إن حقيقة أن Imagen 3 مجاني الاستخدام حاليًا يمنحها ميزة كبيرة على هذه البدائل، مما يجعل تكنولوجيا توليد الصور المتقدمة في متناول الجماهير بشكل أكبر.
وصفت Google Imagen 3 بأنه "نموذج تحويل النص إلى الصورة الأعلى جودة"، مع تسليط الضوء على العديد من التحسينات الرئيسية مقارنة بأسلافه. وفقًا للشركة، فإن الإصدار الأخير قادر على إنشاء صور بتفاصيل أكبر وإضاءة أكثر ثراءً وعدد أقل من القطع الأثرية المشتتة للانتباه مقارنة بالنماذج السابقة.
وتتجلى هذه التحسينات بشكل خاص في قدرة النموذج على تفسير المطالبات المعقدة وتقديمها بدقة، وهي ميزة ضرورية للمستخدمين الذين يتطلعون إلى إنشاء صور بأنماط مرئية محددة أو تفاصيل معقدة.
على سبيل المثال، تتميز إحدى الصور الاختبارية التي تم إنشاؤها بواسطة Imagen 3 بمنظر قريب لوجه نمر الثلج. وتلتقط الصورة العلامات السوداء المعقدة للحيوان على فروه ذو الألوان الفاتحة، وعيناه الخضراء الفاتحة تحدق باهتمام في المشاهد. يوضح مستوى التفاصيل وطريقة تعتيم الخلفية بشكل فني للتأكيد على وجه نمر الثلج القدرات المتقدمة للأداة.
وتظهر صورة اختبارية أخرى رجلاً ذو شعر قصير مجعد يبتسم للكاميرا، ويرتدي قميصًا أبيض تحت سترة زرقاء. تسلط الخلفية غير الواضحة، التي تشير إلى بيئة حضرية خارجية، الضوء على كفاءة العارضة في إنشاء صور نابضة بالحياة يمكن بسهولة الخلط بينها وبين صور حقيقية.
خطوة إلى الأمام في الفهم والدقة
أحد أبرز التحسينات في Imagen 3 هو قدرته المحسنة على فهم المطالبات ومعالجتها. قامت Google بترقية قدرة النموذج بشكل كبير على تفسير الأوصاف التفصيلية، مما يسمح له بإنشاء مجموعة واسعة من الأنماط المرئية والتقاط التفاصيل الدقيقة بدقة من مطالبات أطول وأكثر تعقيدًا.
يعد هذا التقدم أمرًا بالغ الأهمية للمستخدمين الذين يحتاجون إلى دقة عالية في صورهم، سواء للمشاريع الإبداعية أو المواد التسويقية أو الأغراض التعليمية.
على سبيل المثال، تُظهر صورة المناظر الطبيعية الهادئة بالأبيض والأسود التي تم إنشاؤها بواسطة Imagen 3 نهرًا متعرجًا يتدفق عبر منطقة غابات، مع مجموعة من الجبال المغطاة بالثلوج الشاهقة في الخلفية مقابل سماء غائمة جزئيًا. يشير تكوين الصورة والاهتمام بالتفاصيل إلى فهم النموذج المتطور للمشاهد الطبيعية وقدرته على إنشاء صور مذهلة بصريًا تلقى صدى لدى المشاهدين.
ومع ذلك، على الرغم من نقاط القوة العديدة التي يتمتع بها Imagen 3، إلا أن بعض جوانب تطوير Imagen 3 تظل محاطة بالغموض. لقد التزمت Google الصمت نسبيًا بشأن البيانات المحددة المستخدمة لتدريب النموذج. تشير الورقة البحثية المصاحبة لإصدار الأداة إلى أن Imagen 3 تم تدريبها على "مجموعة بيانات كبيرة تشتمل على صور ونصوص وشروح مرتبطة بها"، ولكنها تقدم القليل من التفاصيل أبعد من ذلك.
وقد أدى هذا النقص في الشفافية إلى تكهنات بأن مجموعة البيانات قد تتضمن عددًا كبيرًا من الصور المحمية بحقوق الطبع والنشر، وهو مصدر قلق مشترك في مجتمع الذكاء الاصطناعي.
ما وراء توليد الصور: قوة الرسم الداخلي
بالإضافة إلى إنشاء الصور من الصفر، يوفر Imagen 3 أيضًا للمستخدمين القدرة على تحرير الصور الموجودة باستخدام تقنية تعرف باسم inpainting. تتيح هذه الطريقة، التي أصبحت شائعة بشكل متزايد في مجال تحرير الصور باستخدام الذكاء الاصطناعي، للمستخدمين تحديد جزء من الصورة وتعديله وفقًا لمطالبة جديدة.
على سبيل المثال، إذا أراد المستخدم تغيير لون ملابس شخص ما أو إضافة عنصر جديد إلى منظر طبيعي، فيمكنه القيام بذلك ببضع ضغطات على المفاتيح فقط.
تعمل ميزة inpainting على تحسين تنوع Imagen 3 بشكل كبير، مما يجعلها أداة قيمة ليس فقط لإنشاء صور جديدة، ولكن أيضًا لتحسين الصور الموجودة وتحسينها. تفتح هذه الإمكانية إمكانيات جديدة للمصممين والمسوقين ومنشئي المحتوى الذين يحتاجون إلى إجراء تعديلات سريعة على الصور دون البدء من الصفر.
ومع ذلك، فمن المهم ملاحظة أن Imagen 3، مثل العديد من أدوات الذكاء الاصطناعي، يأتي مع بعض القيود. قامت Google بتنفيذ إجراءات وقائية لمنع إنشاء صور مثيرة للجدل أو قد تكون ضارة. على سبيل المثال، عندما حاولت شركة PetaPixel إنشاء صورة "كامالا هاريس ودونالد ترامب ممسكين بأيديهما"، تم رفض الطلب. وبالمثل، قوبلت محاولات إنشاء صور بأسلوب الفنانين المشهورين أو الأعمال المحمية بحقوق الطبع والنشر بالمقاومة.
ومع ذلك، وكما هو الحال مع معظم التقنيات، فقد وجد المستخدمون طرقًا للتغلب على هذه القيود. ومن خلال تعديل مطالباتهم، يمكنهم في كثير من الأحيان تحقيق نتائج تشبه إلى حد كبير النتيجة المرجوة دون إثارة قيود النموذج. على سبيل المثال، من خلال مطالبة Imagen 3 بـ "التقاط صورة مثيرة بالأبيض والأسود تم التقاطها في عام 1942 لمنتزه Grand Teton الوطني في وايومنغ"، يمكن للمستخدمين إنتاج صورة تذكرنا بالتصوير الفوتوغرافي الشهير لـ Ansel Adams.
أظهر موقع The Verge حلاً بديلاً مشابهًا من خلال طلب "صورة لقنفذ أزرق كرتوني يركض في أحد الحقول". تحمل الصورة الناتجة تشابهًا مذهلاً مع Sonic the Hedgehog، مما يوضح كيف يمكن للمستخدمين تجاوز قيود حقوق الطبع والنشر بشكل إبداعي دون انتهاكها بشكل مباشر.
التحديات والخلافات
في حين أن Imagen 3 قد تم استقباله بشكل جيد إلى حد كبير، إلا أنه لم يكن خاليًا من الجدل. في وقت سابق من هذا العام، واجهت شركة جوجل رد فعل عنيف بعد اتهام منشئ صور الذكاء الاصطناعي الخاص بها على جيميني بالمبالغة في تصحيح التحيزات، مما أدى إلى محو الأشخاص البيض من بعض الصور التي تم إنشاؤها. أثارت هذه الحادثة نقاشًا أوسع حول الآثار الأخلاقية للذكاء الاصطناعي في توليد الصور، لا سيما فيما يتعلق بالتمثيل والتحيز.
وردًا على هذه الاحتجاجات، قامت جوجل بإزالة مولد الصور من جيميني، مما يدل على استعداد الشركة لتحمل مسؤولية التكنولوجيا التي تطورها. يؤكد الجدل الدائر حول جيميني على أهمية اليقظة المستمرة والاعتبارات الأخلاقية في تطوير أدوات الذكاء الاصطناعي مثل Imagen 3.
ومع ازدياد تقدم هذه التقنيات واستخدامها على نطاق واسع، تتزايد احتمالات حدوث عواقب غير مقصودة، مما يجعل من الضروري بالنسبة للشركات إعطاء الأولوية للشفافية والعدالة والمساءلة.
كيفية الوصول إلى الصورة 3
بالنسبة لأولئك المهتمين باستكشاف إمكانيات Imagen 3، فإن الوصول إلى الأداة أمر بسيط نسبيًا. يمكن للمستخدمين في الولايات المتحدة تجربة أداة إنشاء الصور من خلال زيارة موقع DeepMind الإلكتروني والانتقال إلى خدمة AI Test Kitchen. وهنا، يمكنهم تجربة مطالبات مختلفة، واختبار ميزة الرسم الداخلي، وتجربة قوة أحدث ابتكارات الذكاء الاصطناعي من Google بشكل مباشر.
الأفكار النهائية
في الختام، يمثل إصدار Google لـ Imagen 3 علامة بارزة في تطور إنشاء الصور المدعومة بالذكاء الاصطناعي. من خلال تقديم أداة مجانية عالية الجودة تنافس بعضًا من أفضل النماذج في السوق، لا تعمل Google على تطوير مجال الذكاء الاصطناعي فحسب، بل تجعله أيضًا في متناول جمهور أوسع.
ومع استمرار تطور التكنولوجيا، يمكننا أن نتوقع رؤية قدرات أكثر إثارة للإعجاب من Imagen 3 وأدوات مماثلة، مما يزيد من عدم وضوح الخطوط الفاصلة بين الإبداع البشري والتعلم الآلي.
سواء كنت مصممًا محترفًا، أو منشئ محتوى عاديًا، أو مجرد فضول بشأن أحدث التطورات في مجال الذكاء الاصطناعي، فإن Imagen 3 هي أداة تستحق الاستكشاف. إن الجمع بين القوة والدقة وسهولة الوصول يجعلها إضافة قيمة إلى الترسانة المتنامية من الأدوات الرقمية المتاحة للمبدعين اليوم. فلماذا الانتظار؟ انغمس في عالم الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي وشاهد ما يمكنك إنشاؤه باستخدام Imagen 3 من Google.