Cara Melatih AI Difusi Stabil dengan Wajah Anda untuk Membuat Seni Menggunakan DreamBooth

Diterbitkan: 2022-10-10

Posting Tamu oleh Tarunabh Dutta.

Jika tahun 2021 adalah tahun model bahasa AI berbasis kata, 2022 telah mengambil lompatan ke model AI Text-to-Image. Ada banyak model AI teks-ke-gambar yang tersedia saat ini yang dapat menghasilkan gambar berkualitas tinggi. Difusi Stabil adalah salah satu opsi paling populer dan terkenal. Ini adalah model yang cepat dan stabil yang menghasilkan hasil yang konsisten.

how to train stable diffusion

Proses pembuatan gambar masih agak misterius, tetapi jelas bahwa Difusi Stabil menghasilkan hasil yang sangat baik. Ini dapat digunakan untuk menghasilkan gambar dari teks atau untuk mengubah gambar yang ada. Opsi dan parameter yang tersedia memungkinkan banyak penyesuaian dan kontrol atas gambar akhir.

Meskipun relatif lebih mudah untuk mengerjakan gambar selebritas dan tokoh populer, semata-mata karena kumpulan gambar yang sudah tersedia, tidak mudah membuat AI bekerja di wajah Anda sendiri. Logikanya mengatakan untuk memberi makan model AI dengan gambar Anda dan kemudian membiarkannya melakukan keajaibannya, tetapi bagaimana tepatnya seseorang bisa melakukannya?

Pada artikel ini, kami akan mencoba mendemonstrasikan cara melatih model Difusi Stabil menggunakan inversi teks DreamBooth pada referensi gambar untuk membangun representasi AI dari wajah Anda sendiri atau objek lain dan menghasilkan foto hasil dengan hasil, presisi, dan konsistensi yang luar biasa. Jika kedengarannya terlalu teknis, tunggu saja, dan kami akan mencoba membuatnya seramah mungkin bagi pemula.

Daftar isi

Apa itu Difusi Stabil?

Mari kita singkirkan dasar-dasarnya. Model Difusi Stabil adalah model pembelajaran mesin teks-ke-gambar canggih yang dilatih pada kumpulan gambar besar. Biaya pelatihannya mahal, sekitar $660.000. Namun, model Difusi Stabil dapat digunakan untuk menghasilkan seni menggunakan bahasa alami.

Model AI Text-to-Image pembelajaran mendalam menjadi semakin populer karena kemampuannya menerjemahkan teks secara akurat ke dalam gambar. Model ini gratis untuk digunakan dan dapat ditemukan di Hugging Face Spaces dan DreamStudio. Bobot model juga dapat diunduh dan digunakan secara lokal.

Difusi Stabil menggunakan proses yang disebut "difusi" untuk menghasilkan gambar yang terlihat mirip dengan prompt teks.

Singkatnya, algoritma Difusi Stabil mengambil deskripsi tekstual dan menghasilkan gambar berdasarkan deskripsi itu. Gambar yang dihasilkan akan terlihat mirip dengan teks tetapi tidak akan menjadi replika yang sama persis. Alternatif untuk Difusi Stabil termasuk model OpenAI Dall-E dan Google Imagen.

Panduan untuk Melatih AI Difusi Stabil dengan Wajah Anda untuk Membuat gambar menggunakan DreamBooth

Hari ini, saya akan mendemonstrasikan cara melatih model Difusi Stabil menggunakan wajah saya sebagai referensi awal untuk menghasilkan gambar dengan gaya yang sangat konsisten dan akurat yang asli dan segar.

Jadi, untuk tujuan ini, kami akan menggunakan Google Colab bernama DreamBooth untuk melatih Difusi Stabil.

Sebelum meluncurkan Google Colab ini, kita harus menyiapkan aset konten tertentu.

Tahap 1: Google Drive dengan ruang kosong yang cukup

Untuk ini, Anda memerlukan akun Google Drive dengan setidaknya 9 GB ruang kosong.

Akun Google Drive gratis dilengkapi dengan 15 GB ruang penyimpanan gratis, yang cukup untuk tugas ini. Jadi Anda dapat membuat akun Gmail baru (sekali pakai) hanya untuk tujuan ini.

google drive

Tahap 2: Gambar Referensi untuk melatih AI

Kedua, Anda harus memiliki setidaknya selusin potret wajah atau objek target yang siap digunakan sebagai referensi.

  • Harap pastikan bahwa fitur wajah terlihat dan cukup terang dalam gambar yang diambil. Hindari menggunakan bayangan yang keras, terutama pada wajah.
  • Selain itu, subjek harus menghadap kamera atau memiliki profil samping di mana kedua mata dan semua fitur wajah terlihat jelas.
  • Kamera harus mampu menangkap fitur wajah berkualitas tinggi. Pilihan terbaik adalah kamera DSLR atau mirrorless tingkat profesional. Kamera smartphone dengan kualitas yang sangat baik juga sudah cukup.
  • Komposisi harus diposisikan di tengah bingkai dengan sedikit ruang kepala.
  • Sebagai gambar input, minimal dua belas foto close-up wajah, lima foto mid-shot menutupi dari kepala hingga di atas pinggang, dan kira-kira tiga foto full-figure sudah memadai.
  • Minimal dua puluh foto referensi harus cukup untuk tujuan ini.

birme faces

Dalam kasus saya, saya telah memotret dan mengumpulkan koleksi sekitar 50 potret diri, yang telah saya potong menjadi 512 x 512 piksel menggunakan alat online – Birme. Anda juga dapat menggunakan editor gambar alternatif untuk tujuan ini.

Harap diingat bahwa gambar keluaran akhir harus dioptimalkan untuk web dan diperkecil ukuran filenya dengan penurunan kualitas yang minimal.

Tahap 3: Google Colab

Waktu proses Google Colab sekarang dapat dijalankan.

Ada versi gratis dan berbayar dari platform Google Colab. Dreambooth dapat berjalan pada versi gratis, tetapi kinerjanya jauh lebih cepat dan lebih konsisten pada versi Colab Pro (berbayar), yang memprioritaskan penggunaan GPU berkecepatan tinggi dan menetapkan setidaknya 15 GB VRAM untuk tugas yang ada.

Jika Anda tidak keberatan menghabiskan beberapa dolar, langganan Colab Pro senilai $10 yang mencakup 100 unit komputasi setiap bulan sudah lebih dari cukup untuk sesi ini.

google colab signup

Anda juga akan memiliki akses ke memori ekstra RAM dan GPU yang relatif lebih bertenaga dan lebih cepat.

Izinkan saya mengulangi ini: Anda TIDAK perlu menjadi pakar teknis untuk menjalankan Colab ini. Anda juga tidak memerlukan pengalaman pengkodean sebelumnya.

Setelah Anda mendaftar dengan Google Colab (versi gratis atau berbayar), masuk dengan kredensial Anda dan buka tautan ini untuk membuka DreamBooth Stable Diffusion .

Google Colab memiliki bagian atau sel "waktu proses" dengan tombol putar yang dapat diklik di sisi kiri, yang disusun secara berurutan. Untuk memutar runtime mulai dari atas, cukup klik tombol play satu per satu. Setiap segmen terdiri dari runtime yang harus dijalankan. Saat Anda mengklik tombol putar, bagian yang sesuai dijalankan sebagai runtime. Setelah beberapa waktu, tanda centang hijau akan muncul di sebelah kiri tombol putar untuk menunjukkan bahwa runtime berhasil dijalankan.

Harap pastikan bahwa Anda secara manual hanya menjalankan satu runtime pada satu waktu dan pergi ke bagian "runtime" berikutnya hanya ketika runtime saat ini telah selesai.

Di bagian runtime dari bilah menu atas, Anda memiliki opsi untuk menjalankan semua runtime secara bersamaan. Namun, ini tidak disarankan.

change runtime type dreambooth

Di bawah itu adalah opsi berlabel "Ubah jenis runtime." Jika Anda berlangganan langganan pro, Anda dapat memilih dan menyimpan GPU "premium" dan RAM tinggi untuk eksekusi Anda.

choose high ram

Sekarang Anda siap untuk memulai DreamBooth Colab.

run dream booth

10 Langkah untuk Berhasil Menyelesaikan Model AI Terlatih di DreamBooth

LANGKAH 1: Tentukan GPU dan VRAM

Langkah awal adalah menentukan jenis GPU dan VRAM yang tersedia. Pengguna pro akan memiliki akses ke GPU cepat dan VRAM yang ditingkatkan yang lebih stabil.

determine GPU VRAM

Setelah Anda mengklik tombol putar, itu akan menampilkan peringatan karena GitHub, situs web sumber pengembang, sedang diakses. Anda hanya perlu mengklik “ Run Anyway ” untuk melanjutkan.

choose vram

LANGKAH 2: Jalankan DreamBooth

Pada langkah selanjutnya, Anda harus menginstal persyaratan dan dependensi tertentu. Anda hanya perlu mengklik tombol play dan membiarkannya berjalan.

dreambooth play

LANGKAH 3: Masuk ke Memeluk Wajah

Setelah mengklik tombol putar, langkah selanjutnya akan mengharuskan Anda untuk masuk ke akun Hugging Face Anda. Anda dapat membuat akun gratis jika Anda belum memilikinya. Setelah masuk, navigasikan ke halaman Pengaturan Anda dari sudut kanan atas.

hugging face settings

Kemudian, klik bagian ' Access Tokens ' dan tombol ' Create New ' untuk menghasilkan "token akses" baru dan beri nama sesuai keinginan.

access tokens

Salin token akses, lalu kembali ke tab Colab dan masukkan ke kolom yang disediakan, lalu klik “ Login .”

login to huggingface

LANGKAH 4: Instal xformers

Pada langkah ini, Anda dapat mengklik runtime untuk menginstal xformers hanya dengan menekan tombol play.

install xformers

LANGKAH 5: Hubungkan Google Drive

Setelah mengklik tombol putar , Anda akan diminta di jendela pop-up baru untuk izin mengakses akun Google Drive Anda. Klik "Izinkan" ketika dimintai izin.

access google drive folder

Setelah memberikan izin, Anda harus mengonfirmasi bahwa " simpan ke Google Drive " dipilih. Anda juga harus menetapkan nama baru untuk variabel ' CLASS NAME '. Jika Anda ingin mengirimkan gambar referensi seseorang, cukup masukkan 'orang', 'pria', atau 'wanita'. Jika gambar referensi Anda adalah seekor anjing, ketik 'anjing' dan seterusnya. Anda dapat mempertahankan bidang yang tersisa tidak berubah. Atau, Anda dapat mengganti nama direktori input—'INSTANCE DIR' atau direktori output—'OUTPUT DIR.'

dreambooth settings

LANGKAH 6: Unggah foto referensi

Setelah mengklik tombol putar di langkah sebelumnya, Anda akan melihat opsi untuk mengunggah dan menambahkan semua foto referensi Anda.

upload images

Saya akan merekomendasikan minimal 6 dan maksimal 20 foto. Lihat “TAHAP 2” di atas untuk penjelasan singkat tentang cara memilih gambar referensi terbaik berdasarkan cara subjek ditangkap.

select images

Setelah semua gambar Anda diunggah, Anda dapat melihatnya di kolom sebelah kiri. Ada ikon folder. Setelah Anda mengkliknya, Anda akan dapat melihat folder dan subfolder tempat data Anda saat ini disimpan.

Di bawah direktori data, Anda dapat melihat direktori input Anda, tempat semua foto yang Anda unggah disimpan. Dalam contoh saya, ini dikenal sebagai "sks" (nama default).

Selain itu, harap perhatikan bahwa konten ini hanya disimpan sementara di penyimpanan Google Colab Anda dan bukan di Google Drive.

input directory

start training

LANGKAH 7: Latih model AI dengan DreamBooth

Ini adalah langkah paling penting, karena Anda akan melatih model AI baru berdasarkan semua foto referensi yang Anda unggah menggunakan DreamBooth.

train images dreambooth

Anda hanya harus fokus pada dua bidang input. Parameter pertama adalah “—instance prompt.” Di sini, Anda harus memasukkan nama yang sangat unik. Dalam kasus saya, saya akan menggunakan nama depan saya diikuti dengan inisial saya. Seluruh idenya adalah untuk menjaga agar nama lengkap tetap unik dan tepat.

Kolom input penting kedua adalah parameter '—class prompt'. Anda harus mengganti namanya agar sesuai dengan yang Anda gunakan di 'LANGKAH 4'. Dalam kasus saya, saya menggunakan istilah "pria." Jadi saya akan mengetik ulang ke bidang ini dan menimpa entri sebelumnya.

dreambooth parameters

Sisa bidang dapat dibiarkan tak tersentuh. Saya telah mengamati pengguna yang bereksperimen dengan mengubah bidang seperti '—jumlah gambar kelas' menjadi 12 dan '—langkah kereta maksimum' menjadi 1000, 2000, atau bahkan lebih tinggi. Namun, harap diingat bahwa mengubah kolom ini dapat menyebabkan Colab kehabisan memori dan mogok, sehingga Anda harus memulai ulang dari awal. Oleh karena itu, disarankan untuk tidak mengeditnya pada upaya awal. Anda bisa bereksperimen dengan mereka di masa depan setelah mendapatkan pengalaman yang cukup.

Setelah Anda menjalankan waktu proses ini dengan mengeklik tombol putar, Colab akan mulai mengunduh file yang dapat dijalankan yang diperlukan dan kemudian dapat berlatih menggunakan gambar referensi Anda.

Pelatihan model akan memakan waktu mulai dari 15 menit hingga lebih dari satu jam. Anda harus bersabar dan melacak kemajuan sampai runtime selesai. Jika Google Colab Anda menganggur terlalu lama, mungkin akan disetel ulang. Jadi, terus periksa perkembangannya dan klik tab sesekali.

colab executing

execution complete

LANGKAH 8: Ubah model AI ke format ckpt

Setelah pelatihan selesai, Anda akan memiliki opsi untuk mengonversi model terlatih ke file dalam format ckpt, yang secara langsung kompatibel dengan Difusi Stabil.

Konversi dapat dilakukan dalam dua fase runtime. Yang pertama adalah " Unduh skrip ," dan yang kedua adalah " Jalankan konversi ," di mana Anda memiliki opsi untuk mengurangi ukuran unduhan model terlatih. Namun, hal itu akan menurunkan kualitas gambar yang dihasilkan secara signifikan.

Oleh karena itu, untuk mempertahankan ukuran aslinya, opsi ' fp16 ' harus tetap tidak dicentang.

run conversion

Di akhir runtime khusus ini, file bernama “ model.ckpt ” akan disimpan ke Google Drive Anda yang terhubung.

model ckpt

Kami dapat menyimpan file ini untuk penggunaan di masa mendatang karena runtime Anda segera dihapus saat Anda menutup tab browser DreamBooth Colab. Saat Anda membuka kembali DreamBooth versi Colab nanti, Anda harus memulai dari awal.

Misalkan Anda menyimpan file model terlatih ke Google Drive Anda. Dalam hal ini, Anda dapat mengambilnya nanti untuk digunakan dengan Stable Diffusion GUI, DreamBooth, atau notebook Stable Diffusion Colab yang diinstal secara lokal yang memerlukan file "model.ckpt" untuk dimuat agar runtime beroperasi secara efektif. Anda juga dapat menyimpannya ke hard disk lokal Anda untuk digunakan nanti.

LANGKAH 9: Bersiaplah untuk Prompt Tekstual

Dua proses runtime berikutnya di bawah kategori "Inferensi" mempersiapkan model yang baru dilatih untuk prompt tekstual yang digunakan untuk pembuatan gambar. Cukup tekan tombol putar untuk setiap runtime, dan itu akan selesai dalam hitungan menit.

inference

LANGKAH 10: Hasilkan gambar AI

Ini adalah langkah terakhir, di mana Anda dapat mengetik perintah tekstual, dan gambar AI akan dihasilkan.

Anda harus menggunakan nama persis 'instance_prompt' dan '–class_prompt' bersama-sama dari LANGKAH 6 di awal prompt teks. Misalnya, dalam kasus saya, saya menggunakan "potret pria tarunabhtd, lukisan digital" untuk menghasilkan gambar AI baru yang menyerupai saya.

image prompt

image generation

Di bawah ini Anda dapat melihat beberapa hasil gambar yang dihasilkan dengan model terlatih DreamBooth.

sample generated images

Bermain-main dengan Anjuran untuk Mendapatkan Hasil Terbaik

Jika Anda mengikuti langkah-langkah yang diuraikan di atas dengan cermat, Anda akan dapat menghasilkan gambar AI yang sangat mirip dengan fitur wajah dalam gambar referensi Anda. Metode ini hanya memerlukan platform Google Colab online untuk menjalankan versi yang ditingkatkan dari teknologi AI untuk inversi tekstual.

Untuk ide yang lebih baik untuk prompt teks, Anda dapat melihat situs-situs seperti –

  • OpenArt AI
  • Krea AI
  • seni leksika

Anda juga perlu mempelajari seni membuat petunjuk teks yang lebih baik dan lebih efektif menggunakan berbagai gaya artistik dan berbagai kombinasi. Tempat awal yang baik adalah SubReddit Difusi Stabil.

Reddit memiliki komunitas besar yang didedikasikan untuk Difusi Stabil. Ada juga sejumlah grup Facebook dan komunitas Discord yang aktif berdiskusi, berbagi, dan menjelajahi jalan baru Difusi Stabil.

Di bawah ini saya juga membagikan tautan ke beberapa video tutorial DreamBooth yang dapat Anda tonton di Youtube –

Saya harap Anda menemukan panduan ini bermanfaat. Jika Anda memiliki pertanyaan, jangan ragu untuk berkomentar di bawah, dan kami akan mencoba membantu Anda.

Pengarang:
Tarunabh Dutta adalah pembuat film pemenang penghargaan yang telah menyelesaikan lebih dari 45 proyek dalam 16 tahun terakhir, termasuk film layar lebar, film pendek, video musik, dokumenter, dan iklan komersial, di bawah spanduk independennya 'TD Film Studio'.