كيف تدرب الذكاء الاصطناعي بالانتشار المستقر مع وجهك لإنشاء فن باستخدام DreamBooth

نشرت: 2022-10-10

ضيف بوست تاروناب دوتا.

إذا كان عام 2021 هو عام نماذج لغة الذكاء الاصطناعي القائمة على الكلمات ، فإن عام 2022 قد اتخذ قفزة في نماذج الذكاء الاصطناعي لتحويل النص إلى صورة. هناك العديد من نماذج الذكاء الاصطناعي لتحويل النص إلى صورة المتاحة اليوم والتي يمكنها إنتاج صور عالية الجودة. يعد Stable Diffusion أحد أكثر الخيارات شهرة وشهرة. إنه نموذج سريع ومستقر ينتج عنه نتائج متسقة.

how to train stable diffusion

لا تزال عملية إنشاء الصور غامضة إلى حد ما ، ولكن من الواضح أن الانتشار المستقر ينتج عنه نتائج ممتازة. يمكن استخدامه لإنشاء صور من النص أو لتغيير الصور الموجودة. تسمح الخيارات والمعلمات المتاحة بالكثير من التخصيص والتحكم في الصورة النهائية.

في حين أنه من الأسهل نسبيًا العمل على صور المشاهير والشخصيات الشهيرة ، فقط بسبب مجموعة الصور المتوفرة بالفعل ، ليس من السهل جعل الذكاء الاصطناعي يعمل على وجهك. يقول المنطق لإطعام نموذج الذكاء الاصطناعي بصورك ثم دعه يقوم بسحره ، ولكن كيف يمكن للمرء أن يفعل ذلك بالضبط؟

في هذه المقالة ، سنحاول توضيح كيفية تدريب نموذج الانتشار المستقر باستخدام انعكاس نصي لـ DreamBooth على مرجع صورة لإنشاء تمثيلات AI لوجهك أو أي كائن آخر وإنشاء صور نتيجة بنتائج مذهلة ودقة واتساق. إذا كان الأمر يبدو تقنيًا للغاية ، فتوقف ، وسنحاول أن نجعله مناسبًا للمبتدئين قدر الإمكان.

جدول المحتويات

ما هو الانتشار المستقر؟

دعنا نتخلص من الأساسيات. يعد نموذج الانتشار المستقر نموذجًا حديثًا للتعلم الآلي لتحويل النص إلى صورة تم تدريبه على مجموعة صور كبيرة. التدريب مكلف ، حيث تبلغ تكلفته حوالي 660 ألف دولار. ومع ذلك ، يمكن استخدام نموذج Stable Diffusion لتوليد الفن باستخدام اللغة الطبيعية.

أصبحت نماذج التعلم العميق لتحويل النص إلى صورة من الذكاء الاصطناعي شائعة بشكل متزايد بسبب قدرتها على ترجمة النص بدقة إلى صور. هذا النموذج مجاني للاستخدام ويمكن العثور عليه في Hugging Face Spaces و DreamStudio. يمكن أيضًا تنزيل أوزان النموذج واستخدامها محليًا.

يستخدم Stable Diffusion عملية تسمى "الانتشار" لإنشاء صور تبدو مشابهة لموجه النص.

باختصار ، تأخذ خوارزمية Stable Diffusion وصفًا نصيًا وتقوم بإنشاء صورة بناءً على هذا الوصف. ستبدو الصورة التي تم إنشاؤها مشابهة للنص ولكنها لن تكون نسخة طبق الأصل تمامًا. تشمل البدائل لـ Stable Diffusion نماذج Dall-E من OpenAI ونماذج Imagen من Google.

دليل لتدريب الذكاء الاصطناعي على الانتشار المستقر مع وجهك لإنشاء صورة باستخدام DreamBooth

اليوم ، سأوضح كيفية تدريب نموذج Stable Diffusion باستخدام وجهي كمرجع أولي من أجل إنشاء صور بأسلوب متسق ودقيق للغاية يكون أصليًا وحديثًا.

لذلك ، لهذا الغرض ، سنستخدم Google Colab المسمى DreamBooth لتدريب Stable Diffusion.

قبل إطلاق Google Colab هذا ، يجب أن نجهز أصول محتوى معينة.

المرحلة 1: Google Drive مع مساحة خالية كافية

لهذا ، تحتاج إلى حساب Google Drive به 9 غيغابايت على الأقل من المساحة الخالية.

يأتي حساب Google Drive المجاني مع 15 غيغابايت من مساحة التخزين المجانية ، وهو ما يكفي لهذه المهمة. لذلك يمكنك إنشاء حساب Gmail جديد (يمكن التخلص منه) لهذا الغرض فقط.

google drive

المرحلة 2: مرجع الصور لتدريب الذكاء الاصطناعي

ثانيًا ، يجب أن يكون لديك ما لا يقل عن عشرة صور لوجهك أو أي كائن مستهدف جاهز للاستخدام كمراجع.

  • يرجى التأكد من أن ملامح الوجه مرئية ومضاءة بشكل كافٍ في الصور الملتقطة. تجنب استخدام الظلال الشديدة ، خاصة على الوجه.
  • بالإضافة إلى ذلك ، يجب أن يكون الهدف مواجهًا للكاميرا أو أن يكون له ملف جانبي يكون فيه كلتا العينين وجميع ملامح الوجه مرئية بوضوح.
  • يجب أن تكون الكاميرا قادرة على التقاط ملامح وجه عالية الجودة. الخيار الأفضل هو الكاميرا ذات العدسة الأحادية العاكسة (DSLR) ذات المستوى الاحترافي أو الكاميرا غير المزودة بمرآة. يمكن أن تكفي أيضًا كاميرا الهاتف الذكي ذات الجودة الممتازة.
  • يجب وضع التركيبة في مركز الإطار مع مسافة صغيرة للرأس.
  • كصور إدخال ، يجب أن تكون كافية لا تقل عن اثنتي عشرة صورة عن قرب للوجه ، وخمس صور في منتصف اللقطة تغطي من الرأس إلى أعلى الخصر ، وثلاث صور كاملة الشكل تقريبًا.
  • يجب أن يكون ما لا يقل عن عشرين صورة مرجعية كافية لهذا الغرض.

birme faces

في حالتي ، قمت بتصوير وتجميع مجموعة من حوالي 50 صورة شخصية ، والتي قمت بقصها إلى 512 × 512 بكسل باستخدام الأداة عبر الإنترنت - بيرمي. يمكنك أيضًا استخدام أي محرر صور بديل لهذا الغرض.

يرجى أن تضع في اعتبارك أنه يجب تحسين صورة المخرجات النهائية للويب وتقليل حجم الملف مع الحد الأدنى من فقدان الجودة.

المرحلة الثالثة: جوجل كولاب

يمكن الآن تنفيذ وقت تشغيل Google Colab.

هناك إصدارات مجانية ومدفوعة من منصة Google Colab. يمكن تشغيل Dreambooth على الإصدار المجاني ، ولكن الأداء أسرع بشكل ملحوظ وأكثر اتساقًا في إصدار Colab Pro (المدفوع) ، والذي يعطي الأولوية لاستخدام وحدة معالجة الرسومات عالية السرعة ويخصص ما لا يقل عن 15 جيجابايت من VRAM للمهمة المطروحة.

إذا كنت لا تمانع في إنفاق بضعة دولارات ، فإن اشتراك Colab Pro بقيمة 10 دولارات يتضمن 100 وحدة حسابية كل شهر يعد أكثر من كافٍ لهذه الجلسة.

google colab signup

سيكون لديك أيضًا وصول إلى ذاكرة RAM إضافية ووحدات معالجة رسومات أقوى نسبيًا وأسرع.

دعني أكرر هذا: لست بحاجة إلى أن تكون متخصصًا تقنيًا لتشغيل Colab. أنت أيضًا لا تحتاج إلى أي خبرة سابقة في الترميز.

بمجرد التسجيل في Google Colab (الإصدار المجاني أو المدفوع) ، قم بتسجيل الدخول باستخدام بيانات الاعتماد الخاصة بك وتوجه إلى هذا الرابط لفتح DreamBooth Stable Diffusion .

يحتوي Google Colab على أقسام "وقت التشغيل" أو خلايا بها أزرار تشغيل قابلة للنقر على الجانب الأيسر ، مرتبة بالتسلسل. لتشغيل وقت التشغيل بدءًا من الأعلى ، ما عليك سوى النقر فوق أزرار التشغيل واحدة تلو الأخرى. يتكون كل جزء من وقت تشغيل يجب تنفيذه. عند النقر فوق زر التشغيل ، يتم تنفيذ القسم المقابل كوقت تشغيل. بعد مرور بعض الوقت ، ستظهر علامة اختيار خضراء على يسار زر التشغيل للإشارة إلى أن وقت التشغيل قد تم تنفيذه بنجاح.

يرجى التأكد من تنفيذ وقت تشغيل واحد فقط يدويًا في كل مرة والانتقال إلى قسم "وقت التشغيل" التالي فقط عند انتهاء وقت التشغيل الحالي.

في جزء وقت التشغيل من شريط القائمة العلوي ، لديك خيار تشغيل جميع أوقات التشغيل في وقت واحد. ومع ذلك، لا ينصح بذلك.

change runtime type dreambooth

يوجد أدناه خيار بعنوان "تغيير نوع وقت التشغيل". إذا كنت مشتركًا في اشتراك احترافي ، فيمكنك اختيار وحفظ وحدة معالجة الرسومات "المميزة" وذاكرة الوصول العشوائي العالية لتنفيذك.

choose high ram

أنت الآن جاهز لبدء DreamBooth Colab.

run dream booth

10 خطوات لإكمال نموذج ذكاء اصطناعي مدرب بنجاح على DreamBooth

الخطوة 1: حدد GPU و VRAM

الخطوة الأولى هي تحديد نوع GPU و VRAM المتاحين. سيتمكن مستخدمو Pro من الوصول إلى GPU السريع و VRAM المحسّن الأكثر استقرارًا.

determine GPU VRAM

بمجرد النقر فوق زر التشغيل ، سيعرض تحذيرًا لأن GitHub ، موقع الويب المصدر للمطور ، يتم الوصول إليه. ما عليك سوى النقر فوق " تشغيل على أي حال " للمتابعة.

choose vram

الخطوة 2: قم بتشغيل DreamBooth

في الخطوة التالية ، عليك تثبيت متطلبات وتبعيات معينة. تحتاج فقط إلى النقر فوق زر التشغيل والسماح بتشغيله.

dreambooth play

الخطوة 3: قم بتسجيل الدخول إلى Hugging Face

بعد النقر على زر التشغيل ، ستطلب منك الخطوة التالية تسجيل الدخول إلى حساب Hugging Face الخاص بك. يمكنك إنشاء حساب مجاني إذا لم يكن لديك حساب بالفعل. بمجرد تسجيل الدخول ، انتقل إلى صفحة الإعدادات من الزاوية العلوية اليمنى.

hugging face settings

ثم ، انقر فوق قسم "رموز الوصول " وزر " إنشاء جديد " لإنشاء "رمز وصول" جديد وإعادة تسميته بالشكل المطلوب.

access tokens

انسخ رمز الوصول ، ثم ارجع إلى علامة التبويب Colab وأدخله في الحقل المتوفر ، ثم انقر فوق " تسجيل الدخول ".

login to huggingface

الخطوة 4: قم بتثبيت xformers

في هذه الخطوة ، يمكنك النقر فوق وقت التشغيل لتثبيت xformers بمجرد الضغط على زر التشغيل.

install xformers

الخطوة 5: قم بتوصيل Google Drive

بعد النقر فوق زر التشغيل ، سيُطلب منك في نافذة منبثقة جديدة للحصول على إذن للوصول إلى حساب Google Drive الخاص بك. انقر فوق "السماح" عندما يُطلب منك الأذونات.

access google drive folder

بعد منح الأذونات ، يجب عليك تأكيد تحديد " حفظ في Google Drive ". يجب عليك أيضًا تعيين اسم جديد لمتغير " CLASS NAME ". إذا كنت ترغب في إرسال صور مرجعية لشخص ما ، ما عليك سوى وضع "شخص" أو "رجل" أو "امرأة". إذا كانت صورك المرجعية لكلب ، فاكتب "كلب" وهكذا. يمكنك الاحتفاظ بالحقول المتبقية دون تغيير. بدلاً من ذلك ، يمكنك إعادة تسمية دليل الإدخال - "INSTANCE DIR" أو دليل الإخراج - "OUTPUT DIR. "

dreambooth settings

الخطوة 6: تحميل الصور المرجعية

بعد النقر على زر التشغيل في الخطوة السابقة ، سترى خيار تحميل وإضافة جميع الصور المرجعية الخاصة بك.

upload images

أود أن أوصي بحد أدنى 6 صور و 20 صورة كحد أقصى. راجع "المرحلة 2" أعلاه للحصول على شرح موجز لكيفية اختيار أفضل صورة مرجعية بناءً على كيفية التقاط الموضوع.

select images

بمجرد تحميل جميع صورك ، يمكنك مشاهدتها في العمود الأيسر. يوجد رمز المجلد. بمجرد النقر فوقه ، ستتمكن من عرض المجلدات والمجلدات الفرعية التي يتم تخزين بياناتك فيها حاليًا.

ضمن دليل البيانات ، يمكنك عرض دليل الإدخال الخاص بك ، حيث يتم تخزين جميع الصور التي تم تحميلها. في المثال الخاص بي ، يُعرف باسم "sks" (الاسم الافتراضي).

بالإضافة إلى ذلك ، يرجى ملاحظة أنه يتم تخزين هذا المحتوى مؤقتًا فقط في تخزين Google Colab وليس على Google Drive.

input directory

start training

الخطوة 7: تدريب نموذج الذكاء الاصطناعي باستخدام DreamBooth

هذه هي الخطوة الأكثر أهمية ، حيث ستقوم بتدريب نموذج ذكاء اصطناعي جديد بناءً على جميع الصور المرجعية التي تم تحميلها باستخدام DreamBooth.

train images dreambooth

يجب أن تركز فقط على حقلي إدخال. المعلمة الأولى هي "—محث الحالة." هنا ، يجب عليك إدخال اسم فريد للغاية. في حالتي ، سأستخدم اسمي الأول متبوعًا بالأحرف الأولى من اسمي. الفكرة كلها هي الحفاظ على الاسم الكامل فريدًا ودقيقًا.

حقل الإدخال الثاني الحاسم هو معلمة "موجه الفئة". يجب إعادة تسميتها لتتطابق مع الاسم الذي استخدمته في "الخطوة 4". في حالتي ، استخدمت مصطلح "رجل". لذلك سأعيد كتابته في هذا الحقل والكتابة فوق أي إدخال سابق.

dreambooth parameters

يمكن ترك باقي الحقول دون مساس. لقد لاحظت أن المستخدمين يجرون التجارب عن طريق تغيير الحقول مثل "- عدد صور الفئة" إلى 12 و "- خطوات القطار القصوى" إلى 1000 أو 2000 أو حتى أعلى. ومع ذلك ، يرجى تذكر أن تعديل هذه الحقول قد يتسبب في نفاد ذاكرة Colab وتعطله ، مما يتطلب منك إعادة التشغيل من البداية. لذلك ، يُنصح بعدم تعديلها في المحاولة الأولية. يمكنك تجربتها في المستقبل بعد اكتساب الخبرة الكافية.

بمجرد تنفيذ وقت التشغيل هذا بالنقر فوق زر التشغيل ، سيبدأ Colab في تنزيل الملفات القابلة للتنفيذ الضرورية ، وبعد ذلك سيكون قادرًا على التدريب باستخدام الصور المرجعية الخاصة بك.

سيستغرق تدريب النموذج من 15 دقيقة إلى أكثر من ساعة. يجب أن تتحلى بالصبر وتتبع التقدم حتى اكتمال وقت التشغيل. إذا كان Google Colab الخاص بك في وضع الخمول لفترة طويلة ، فقد تتم إعادة تعيينه. لذا استمر في التحقق من التقدم والنقر فوق علامة التبويب من حين لآخر.

colab executing

execution complete

الخطوة 8: تحويل نموذج AI إلى تنسيق ckpt

بعد اكتمال التدريب ، سيكون لديك خيار تحويل النموذج المدرب إلى ملف بتنسيق ckpt ، وهو متوافق بشكل مباشر مع Stable Diffusion.

يمكن إجراء التحويل في مرحلتين من وقت التشغيل. الأول هو " تنزيل البرنامج النصي " ، والثاني هو " تشغيل التحويل " ، حيث يكون لديك خيار تقليل حجم تنزيل النموذج المدرب. ومع ذلك ، فإن القيام بذلك سيؤدي إلى انخفاض جودة الصورة الناتجة بشكل كبير.

لذلك ، للحفاظ على الحجم الأصلي ، يجب أن يظل خيار " fp16 " غير محدد.

run conversion

في نهاية وقت التشغيل المحدد هذا ، سيتم حفظ ملف يسمى " model.ckpt " على Google Drive المتصل.

model ckpt

يمكننا حفظ هذا الملف للاستخدام في المستقبل لأنه يتم حذف أوقات التشغيل على الفور عند إغلاق علامة تبويب متصفح DreamBooth Colab. عند إعادة فتح إصدار Colab من DreamBooth لاحقًا ، سيتعين عليك البدء من نقطة الصفر.

لنفترض أنك قمت بحفظ ملف النموذج المدرب على Google Drive الخاص بك. في هذه الحالة ، يمكنك استردادها لاحقًا لاستخدامها مع Stable Diffusion GUI المثبت محليًا أو DreamBooth أو أي أجهزة كمبيوتر دفتري Stable Diffusion Colab تتطلب تحميل ملف "model.ckpt" حتى يعمل وقت التشغيل بفاعلية. يمكنك أيضًا حفظه على الأقراص الثابتة المحلية لاستخدامه لاحقًا.

الخطوة 9: التحضير للموجه النصي

تعد عمليتا وقت التشغيل التاليتان ضمن فئة "الاستدلال" النموذج المدرب حديثًا للموجه النصي المستخدم في إنشاء الصور. ما عليك سوى الضغط على زر التشغيل لكل وقت تشغيل ، وسوف ينتهي في غضون دقائق.

inference

الخطوة 10: إنشاء صور AI

هذه هي الخطوة الأخيرة ، حيث يمكنك كتابة المطالبات النصية ، وسيتم إنشاء صور AI.

يجب عليك استخدام الاسم الدقيق لـ "example_prompt" و "–class_prompt" معًا من الخطوة 6 في بداية موجه النص. على سبيل المثال ، في حالتي ، استخدمت "صورة لرجل tarunabhtd ، لوحة رقمية" لإنشاء صور ذكاء اصطناعي جديدة تشبهني.

image prompt

image generation

يمكنك أدناه رؤية بعض نتائج الصور التي تم إنشاؤها باستخدام نموذج DreamBooth المدرب.

sample generated images

العب مع المطالبات للحصول على أفضل المخرجات

إذا اتبعت بعناية الخطوات الموضحة أعلاه ، فستتمكن من إنشاء صور AI تشبه إلى حد كبير ميزات الوجه في صورك المرجعية. تتطلب هذه الطريقة فقط منصة Google Colab عبر الإنترنت لتنفيذ نسخة مطورة من تقنية الذكاء الاصطناعي لعكس النص.

للحصول على أفكار أفضل للمطالبات النصية ، يمكنك التحقق من مواقع مثل -

  • OpenArt AI
  • كريا AI
  • معجم الفن

تحتاج أيضًا إلى تعلم فن صياغة مطالبات نصية أفضل وأكثر فاعلية باستخدام مجموعة متنوعة من الأساليب الفنية والتركيبات المتنوعة. سيكون مكان البداية الجيد هو Stable Diffusion SubReddit.

لدى Reddit مجتمع ضخم مخصص لـ Stable Diffusion. هناك أيضًا عدد من مجموعات Facebook ومجتمعات Discord التي تناقش وتشارك وتستكشف طرقًا جديدة للانتشار المستقر.

أدناه ، أشارك أيضًا روابط لبعض مقاطع الفيديو التعليمية لبرنامج DreamBooth التي يمكنك مشاهدتها على Youtube -

آمل أن تجد هذا الدليل مفيدًا. إذا كانت لديك أي أسئلة ، فلا تتردد في التعليق أدناه ، وسنحاول مساعدتك.

مؤلف:
Tarunabh Dutta هو صانع أفلام حائز على جوائز وأنجز أكثر من 45 مشروعًا في آخر 16 عامًا ، بما في ذلك الأفلام الروائية والأفلام القصيرة ومقاطع الفيديو الموسيقية والأفلام الوثائقية والإعلانات التجارية ، تحت شعاره المستقل "TD Film Studio".