Cum să antrenezi AI cu difuzie stabilă cu chipul tău pentru a crea artă folosind DreamBooth
Publicat: 2022-10-10Postare pentru oaspeți de Tarunabh Dutta.
Dacă 2021 a fost anul modelelor de limbaj AI bazate pe cuvinte, 2022 a făcut un salt în modelele AI Text-to-Image. Există multe modele AI text-to-image disponibile astăzi care pot produce imagini de înaltă calitate. Stable Diffusion este una dintre cele mai populare și cunoscute opțiuni. Este un model rapid și stabil care produce rezultate consistente.
Procesul de generare a imaginii este încă oarecum misterios, dar este clar că Stable Diffusion produce rezultate excelente. Poate fi folosit pentru a genera imagini din text sau pentru a modifica imaginile existente. Opțiunile și parametrii disponibili permit multă personalizare și control asupra imaginii finale.
Deși este relativ mai ușor să lucrezi la imagini cu celebrități și figuri populare, doar datorită setului de imagini deja disponibil, nu este atât de ușor să faci AI să lucreze pe propria ta față. Logica spune să hrănești modelul AI cu imaginile tale și apoi să-l lași să-și facă magia, dar cum anume se poate face asta?
În acest articol, vom încerca să demonstrăm cum să antrenăm un model de difuzie stabilă utilizând inversarea textului DreamBooth pe o referință de imagine pentru a construi reprezentări AI ale propriei fețe sau ale oricărui alt obiect și pentru a genera fotografii cu rezultate incredibile, precizie și consistență. Dacă sună prea tehnic, stai pe acolo și vom încerca să-l facem cât mai prietenos posibil pentru începători.
Cuprins
Ce este difuzia stabilă?
Să scăpăm de elementele de bază. Modelul Stable Diffusion este un model de învățare automată text-to-image de ultimă generație, antrenat pe un set de imagini mare. Este scump de antrenat, costând în jur de 660.000 de dolari. Cu toate acestea, modelul Stable Diffusion poate fi folosit pentru a genera artă folosind limbajul natural.
Modelele AI de învățare profundă text-to-image devin din ce în ce mai populare datorită capacității lor de a traduce textul cu acuratețe în imagini. Acest model este gratuit și poate fi găsit pe Hugging Face Spaces și DreamStudio. Greutățile modelului pot fi, de asemenea, descărcate și utilizate local.
Stable Diffusion folosește un proces numit „difuzie” pentru a genera imagini care arată similar cu promptul text.
Pe scurt, algoritmul Stable Diffusion preia o descriere textuală și generează o imagine pe baza acelei descrieri. Imaginea generată va arăta similar cu textul, dar nu va fi o replică exactă. Alternativele la Stable Diffusion includ modelele OpenAI Dall-E și Google Imagen.
Ghid pentru a antrena AI cu difuzie stabilă cu chipul tău pentru a crea imagini folosind DreamBooth
Astăzi, voi demonstra cum să antrenez un model Stable Diffusion folosind fața mea ca referință inițială pentru a genera imagini cu un stil extrem de consistent și precis, care este atât original, cât și proaspăt.
Deci, în acest scop, vom folosi un Google Colab numit DreamBooth pentru a antrena Stable Diffusion.
Înainte de a lansa acest Google Colab, trebuie să pregătim anumite active de conținut.
Etapa 1: Google Drive cu suficient spațiu liber
Pentru aceasta, aveți nevoie de un cont Google Drive cu cel puțin 9 GB spațiu liber.
Un cont Google Drive gratuit vine cu 15 GB spațiu de stocare gratuit, care este suficient pentru această sarcină. Deci, puteți crea un cont Gmail nou-nouț (de unică folosință) doar în acest scop.
Etapa 2: Imagini de referință pentru a antrena AI
În al doilea rând, trebuie să aveți cel puțin o duzină de portrete ale feței dvs. sau ale oricărui obiect țintă gata de utilizare ca referințe.
- Vă rugăm să vă asigurați că trăsăturile faciale sunt vizibile și iluminate corespunzător în imaginile capturate. Evitați utilizarea umbrelor dure, în special pe față.
- În plus, subiectul ar trebui să fie orientat către cameră sau să aibă un profil lateral în care ambii ochi și toate trăsăturile feței să fie clar vizibile.
- Camera ar trebui să fie capabilă să surprindă trăsături faciale de înaltă calitate. Cea mai bună opțiune este un DSLR de nivel profesional sau o cameră fără oglindă. O cameră pentru smartphone de calitate excelentă poate fi de asemenea suficientă.
- Compoziția ar trebui să fie poziționată în centrul cadrului cu puțin spațiu pe cap.
- Ca imagini de intrare, ar trebui să fie adecvate cel puțin douăsprezece fotografii în prim-plan ale feței, cinci fotografii la mijloc, care acoperă de la cap până deasupra taliei și aproximativ trei fotografii cu figuri complete.
- Un minim de douăzeci de fotografii de referință ar trebui să fie suficiente în acest scop.
În cazul meu, am fotografiat și adunat o colecție de aproximativ 50 de autoportrete, pe care le-am decupat la 512 x 512 pixeli folosind instrumentul online – Birme. De asemenea, puteți utiliza orice editor de imagini alternativ în acest scop.
Vă rugăm să rețineți că imaginea finală de ieșire trebuie să fie optimizată pentru web și redusă în dimensiunea fișierului cu pierderi minime de calitate.
Etapa 3: Google Colab
Runtime-ul Google Colab poate fi acum executat.
Există atât versiuni gratuite, cât și versiuni plătite ale platformei Google Colab. Dreambooth poate rula pe versiunea gratuită, dar performanța este semnificativ mai rapidă și mai consistentă pe versiunea Colab Pro (plătită), care prioritizează utilizarea unui GPU de mare viteză și atribuie cel puțin 15 GB de VRAM sarcinii în cauză.
Dacă nu vă deranjează să cheltuiți câțiva dolari, un abonament Colab Pro de 10 USD care include 100 de unități de calcul în fiecare lună este mai mult decât adecvat pentru această sesiune.
Veți avea, de asemenea, acces la memorie RAM suplimentară și GPU-uri care sunt relativ mai puternice și mai rapide.
Permiteți-mi să repet acest lucru: NU TREBUIE să fiți un specialist tehnic pentru a rula acest Colab. De asemenea, nu aveți nevoie de experiență anterioară de codare.
După ce v-ați înscris cu Google Colab (versiunea gratuită sau cu plată), conectați-vă cu acreditările și accesați acest link pentru a deschide DreamBooth Stable Diffusion .
Un Google Colab are secțiuni sau celule „de rulare” cu butoane de redare pe care se poate face clic în partea stângă, care sunt aranjate secvenţial. Pentru a reda timpul de rulare începând din partea de sus, pur și simplu faceți clic pe butoanele de redare unul câte unul. Fiecare segment constă dintr-un timp de execuție care trebuie executat. Când faceți clic pe un buton de redare, secțiunea corespunzătoare este executată ca un timp de execuție. După ceva timp, o bifă verde va apărea în stânga butonului de redare pentru a indica faptul că timpul de rulare a fost executat cu succes.
Vă rugăm să vă asigurați că executați manual doar un timp de execuție la un moment dat și că mergeți la următoarea secțiune „de execuție” numai când s-a terminat timpul de execuție curent.
În porțiunea de rulare a barei de meniu de sus, aveți opțiunea de a rula toate timpii de rulare simultan. Cu toate acestea, acest lucru nu este recomandat.
Mai jos este o opțiune etichetată „Schimbați tipul de rulare”. Dacă sunteți abonat la un abonament pro, puteți alege și salva un GPU „premium” și RAM mare pentru execuția dvs.
Acum sunteți gata să porniți DreamBooth Colab.
10 pași pentru a finaliza cu succes un model AI antrenat pe DreamBooth
PASUL 1: Decideți despre GPU și VRAM
Pasul inițial este de a determina tipul de GPU și VRAM disponibil. Utilizatorii profesioniști vor avea acces la un GPU rapid și un VRAM îmbunătățit, care este mai stabil.
Odată ce faceți clic pe butonul de redare, acesta va afișa un avertisment deoarece GitHub, site-ul sursă al dezvoltatorului, este accesat. Trebuie doar să faceți clic pe „ Rulați oricum ” pentru a continua.
PASUL 2: Rulați DreamBooth
În pasul următor, trebuie să instalați anumite cerințe și dependențe. Trebuie doar să faceți clic pe butonul de redare și să-l lăsați să ruleze.
PASUL 3: Conectați-vă la Hugging Face
După ce faceți clic pe butonul de redare, următorul pas va solicita să vă conectați la contul dvs. Hugging Face. Vă puteți crea un cont gratuit dacă nu aveți deja unul. Odată autentificat, navigați la pagina Setări din colțul din dreapta sus.
Apoi, faceți clic pe secțiunea „ Jetonuri de acces ” și pe butonul „ Creare nou ” pentru a genera un nou „jeton de acces” și redenumiți-l după cum doriți.
Copiați jetonul de acces, apoi reveniți la fila Colab și introduceți-l în câmpul furnizat, apoi faceți clic pe „ Autentificare ”.
PASUL 4: Instalați xformers
În acest pas, puteți face clic pe runtime pentru a instala xformers apăsând pur și simplu butonul de redare.
PASUL 5: Conectați Google Drive
După ce faceți clic pe butonul de redare , vi se va cere într-o nouă fereastră pop-up permisiunea de a vă accesa contul Google Drive. Faceți clic pe „Permite” când vi se solicită permisiunile.
După acordarea permisiunilor, trebuie să confirmați că „ salvare pe Google Drive ” este selectat. De asemenea, trebuie să setați un nume nou pentru variabila „ NUME CLASĂ ”. Dacă doriți să trimiteți imagini de referință ale unei persoane, puneți pur și simplu „persoană”, „bărbat” sau „femeie”. Dacă imaginile de referință sunt ale unui câine, tastați „câine” și așa mai departe. Puteți păstra câmpurile rămase neschimbate. Alternativ, puteți redenumi directorul de intrare—'DIR INSTANTĂ' sau directorul de ieșire—'DIR IEȘIRE'.
PASUL 6: Încărcați fotografii de referință
După ce faceți clic pe butonul de redare la pasul anterior, veți vedea opțiunea de a încărca și adăuga toate fotografiile de referință.
Aș recomanda minim 6 și maxim 20 de fotografii. Consultați „ETAPA 2” de mai sus pentru o explicație concisă despre cum să selectați cea mai bună imagine de referință în funcție de modul în care este capturat subiectul.
Odată ce toate imaginile dvs. au fost încărcate, le puteți vizualiza în coloana din stânga. Există o pictogramă de folder. Odată ce faceți clic pe el, veți putea vizualiza folderele și subfolderele în care datele dvs. sunt stocate în prezent.
Sub directorul de date, puteți vizualiza directorul de intrare, unde sunt stocate toate fotografiile încărcate. În cazul meu, este cunoscut ca „sks” (nume implicit).
În plus, rețineți că acest conținut este stocat doar temporar în spațiul dvs. de stocare Google Colab și nu pe Google Drive.
PASUL 7: Antrenează modelul AI cu DreamBooth
Acesta este cel mai important pas, deoarece veți antrena un nou model AI bazat pe toate fotografiile de referință încărcate folosind DreamBooth.
Trebuie să vă concentrați doar pe două câmpuri de intrare. Primul parametru este „—instance prompt”. Aici, trebuie să introduceți un nume foarte unic. În cazul meu, voi folosi prenumele meu urmat de inițialele mele. Întreaga idee este de a păstra numele complet unic și precis.
Al doilea câmp de intrare crucial este parametrul „—class prompt”. Trebuie să-l redenumiți pentru a se potrivi cu cel pe care l-ați folosit în „PASUL 4”. În cazul meu, am folosit termenul „om”. Așa că îl voi reintroduce în acest câmp și voi suprascrie orice intrare anterioară.
Restul câmpurilor pot fi lăsate neatinse. Am observat utilizatorii experimentând prin modificarea câmpurilor precum „—num class images” la 12 și „—max train steps” la 1000, 2000 sau chiar mai mult. Cu toate acestea, vă rugăm să rețineți că modificarea acestor câmpuri poate duce la epuizarea memoriei și la blocarea Colab, necesitând să reporniți de la început. Prin urmare, este indicat să nu le editați la încercarea inițială. Puteți experimenta cu ele în viitor, după ce ați dobândit suficientă experiență.
Odată ce executați acest timp de rulare făcând clic pe butonul de redare, Colab va începe să descarce fișierele executabile necesare și apoi se va putea antrena folosind imaginile de referință.
Antrenarea modelului va dura de la 15 minute la peste o oră. Trebuie să aveți răbdare și să urmăriți progresul până când timpul de execuție este finalizat. Dacă Google Colab este inactiv prea mult timp, se poate reseta. Așa că continuați să verificați progresul și să faceți clic ocazional pe filă.
PASUL 8: Convertiți modelul AI în format ckpt
După finalizarea antrenamentului, veți avea opțiunea de a converti modelul antrenat într-un fișier în format ckpt, care este direct compatibil cu Stable Diffusion.
Conversia poate fi efectuată în două faze de rulare. Primul este „ Descărcare script ”, iar al doilea este „ Run conversie ”, unde aveți opțiunea de a reduce dimensiunea de descărcare a modelului antrenat. Cu toate acestea, acest lucru va degrada semnificativ calitatea imaginii rezultate.
Prin urmare, pentru a menține dimensiunea originală, opțiunea „ fp16 ” trebuie să rămână nebifată.
La sfârșitul acestui timp de execuție, un fișier numit „ model.ckpt ” va fi salvat pe Google Drive conectat.
Putem salva acest fișier pentru utilizare ulterioară, deoarece timpii de execuție sunt șterse imediat când închideți fila browser DreamBooth Colab. Când redeschideți versiunea Colab a DreamBooth mai târziu, va trebui să începeți de la zero.
Să presupunem că salvați fișierul model antrenat pe Google Drive. În acest caz, îl puteți prelua ulterior pentru a fi utilizat cu GUI Stable Diffusion instalat local, DreamBooth sau orice notebook-uri Stable Diffusion Colab care necesită încărcarea fișierului „model.ckpt” pentru ca runtime să funcționeze eficient. De asemenea, îl puteți salva pe hard disk-urile locale pentru o utilizare ulterioară.
PASUL 9: Pregătiți-vă pentru solicitarea textului
Următoarele două procese de rulare din categoria „Inferență” pregătesc modelul nou antrenat pentru promptul textual utilizat pentru generarea imaginii. Pur și simplu apăsați butonul de redare pentru fiecare durată de rulare și se va termina în câteva minute.
PASUL 10: Generați imagini AI
Acesta este pasul final, în care puteți tasta instrucțiunile textuale și vor fi generate imaginile AI.
Trebuie să utilizați numele exact de „instance_prompt” și „–class_prompt” împreună de la PASUL 6 la începutul promptului text. De exemplu, în cazul meu, am folosit „un portret de bărbat tarunabhtd, pictură digitală” pentru a genera noi imagini AI asemănătoare cu mine.
Mai jos puteți vedea câteva rezultate de imagine generate cu modelul antrenat de DreamBooth.
Joacă-te cu solicitări pentru a obține cele mai bune rezultate
Dacă urmați cu atenție pașii descriși mai sus, veți putea genera imagini AI care seamănă foarte mult cu trăsăturile faciale din imaginile de referință. Această metodă necesită doar platforma online Google Colab să execute o versiune actualizată a tehnologiei AI pentru inversarea textului.
Pentru idei mai bune pentru solicitări text, puteți consulta site-uri precum -
- OpenArt AI
- Krea AI
- Arta lexica
De asemenea, trebuie să înveți arta de a crea mesaje de text mai bune și mai eficiente folosind o varietate de stiluri artistice și diverse combinații. Un bun loc de plecare ar fi Stable Diffusion SubReddit.
Reddit are o comunitate imensă dedicată Stable Diffusion. Există, de asemenea, o serie de grupuri Facebook și comunități Discord care discută, distribuie și explorează în mod activ noi căi de difuzare stabilă.
Mai jos, partajez și link-uri către câteva videoclipuri tutoriale DreamBooth pe care le puteți viziona pe Youtube -
Sper că veți găsi acest ghid util. Dacă aveți întrebări, nu ezitați să comentați mai jos și vom încerca să vă ajutăm.