Google เปิดตัวเครื่องมือสร้างภาพ AI อันทรงพลังที่คุณสามารถใช้ได้ฟรี
เผยแพร่แล้ว: 2024-08-23ในยุคที่เนื้อหาภาพครอบงำภูมิทัศน์ดิจิทัล ความต้องการเครื่องมือที่มีประสิทธิภาพและเข้าถึงได้เพื่อสร้างภาพได้เพิ่มสูงขึ้น ตั้งแต่โพสต์บนโซเชียลมีเดียไปจนถึงการนำเสนอแบบมืออาชีพ ความสามารถในการสร้างสรรค์ภาพที่มีเอกลักษณ์และดึงดูดสายตาไม่ใช่เรื่องหรูหราอีกต่อไป แต่เป็นสิ่งจำเป็น
เมื่อตระหนักถึงแนวโน้มนี้ Google จึงได้พัฒนาเกมด้วยการเปิดตัว Imagen 3 ซึ่งเป็นโปรแกรมสร้างภาพ AI ที่ล้ำสมัยซึ่งขณะนี้มีให้บริการฟรีในสหรัฐอเมริกา การพัฒนานี้ไม่ได้เป็นเพียงชัยชนะสำหรับครีเอทีฟโฆษณาเท่านั้น แต่ยังเป็นการก้าวกระโดดครั้งสำคัญในการทำให้เทคโนโลยี AI เป็นประชาธิปไตยอีกด้วย
Imagen 3 เปิดตัวสู่สายตาชาวโลกเป็นครั้งแรกในระหว่างการกล่าวสุนทรพจน์ I/O ของ Google ในเดือนพฤษภาคม อย่างไรก็ตาม จนกระทั่ง Google ได้เผยแพร่รายงานการวิจัยที่ครอบคลุมเกี่ยวกับเครื่องมือนี้ จึงทำให้เข้าถึงได้อย่างกว้างขวางผ่านบริการ AI Test Kitchen ของบริษัท การเคลื่อนไหวครั้งนี้ได้เปิดขอบเขตความเป็นไปได้ใหม่สำหรับผู้สร้างเนื้อหาทั้งมือสมัครเล่นและมืออาชีพ โดยมอบเครื่องมือที่ซับซ้อนซึ่งเทียบได้กับเครื่องมือที่ดีที่สุดในอุตสาหกรรม
โดยพื้นฐานแล้ว Imagen 3 ทำหน้าที่เหมือนกับโปรแกรมสร้างภาพ AI อื่นๆ ในตลาด ผู้ใช้เพียงป้อนข้อความแจ้ง และภายในเวลาประมาณ 30 วินาที ชุดรูปภาพจะปรากฏขึ้นตามคำอธิบายที่ให้ไว้ Google ระบุอย่างภาคภูมิใจว่า Imagen 3 “เป็นที่ต้องการมากกว่าโมเดลที่ล้ำสมัยอื่นๆ ในขณะที่ทำการประเมิน” และการตรวจสอบเบื้องต้นดูเหมือนจะสนับสนุนคำกล่าวอ้างนี้
ผู้เปลี่ยนเกมในโลกแห่งการสร้างภาพ AI
อะไรที่ทำให้ Imagen 3 แตกต่างจากคู่แข่ง ในการทดสอบที่ดำเนินการโดย PetaPixel เครื่องมือนี้แสดงให้เห็นถึงความสามารถที่โดดเด่นในการสร้างภาพคุณภาพสูงที่ทัดเทียมกับที่สร้างโดยแพลตฟอร์มยอดนิยม เช่น Midjourney และ DALL-E ของ OpenAI ความจริงที่ว่า Imagen 3 ใช้งานได้ฟรีในปัจจุบันทำให้มีความได้เปรียบเหนือทางเลือกเหล่านี้อย่างมาก ทำให้เทคโนโลยีการสร้างภาพขั้นสูงเข้าถึงได้ง่ายสำหรับคนทั่วไป
Google ได้ยกย่อง Imagen 3 ว่าเป็น "โมเดลการแปลงข้อความเป็นรูปภาพคุณภาพสูงสุด" โดยเน้นการปรับปรุงที่สำคัญหลายประการจากรุ่นก่อน จากข้อมูลของบริษัท เวอร์ชันล่าสุดสามารถสร้างภาพที่มีรายละเอียดมากขึ้น แสงที่สมบูรณ์ยิ่งขึ้น และสิ่งรบกวนสมาธิน้อยลงกว่ารุ่นก่อนๆ
การปรับปรุงเหล่านี้เห็นได้ชัดเจนโดยเฉพาะอย่างยิ่งในความสามารถของโมเดลในการตีความและแสดงผลข้อความแจ้งที่ซับซ้อนได้อย่างแม่นยำ ซึ่งเป็นคุณลักษณะที่จำเป็นสำหรับผู้ใช้ที่ต้องการสร้างภาพที่มีสไตล์ภาพเฉพาะหรือรายละเอียดที่ซับซ้อน
ตัวอย่างเช่น หนึ่งในภาพทดสอบที่สร้างโดย Imagen 3 มีลักษณะเป็นภาพใบหน้าของเสือดาวหิมะในระยะใกล้ ภาพนี้จับภาพรอยสีดำอันสลับซับซ้อนของสัตว์กับขนสีอ่อน โดยมีดวงตาสีเขียวอ่อนจ้องมองไปที่ผู้ชมอย่างตั้งใจ ระดับของรายละเอียดและวิธีการเบลอพื้นหลังอย่างมีศิลปะเพื่อเน้นใบหน้าของเสือดาวหิมะ แสดงให้เห็นถึงความสามารถขั้นสูงของเครื่องมือ
ภาพทดสอบอีกภาพเป็นชายผมหยิกสั้นยิ้มให้กล้อง สวมเสื้อเชิ้ตสีขาวใต้เสื้อสูทสีน้ำเงิน พื้นหลังเบลอซึ่งสื่อถึงสภาพแวดล้อมในเมืองกลางแจ้ง เน้นย้ำถึงความสามารถของนางแบบในการสร้างสรรค์ภาพบุคคลที่เหมือนจริงซึ่งอาจเข้าใจผิดได้ง่ายว่าเป็นภาพถ่ายจริง
ก้าวไปข้างหน้าในด้านความเข้าใจและความแม่นยำ
การปรับปรุงที่โดดเด่นที่สุดอย่างหนึ่งใน Imagen 3 คือความสามารถที่เพิ่มขึ้นในการทำความเข้าใจและประมวลผลพร้อมท์ Google ได้อัปเกรดความสามารถของโมเดลอย่างมากในการตีความคำอธิบายโดยละเอียด ทำให้สามารถสร้างรูปแบบภาพได้หลากหลาย และบันทึกรายละเอียดเล็กๆ น้อยๆ ได้อย่างแม่นยำจากข้อความแจ้งที่ยาวและซับซ้อนมากขึ้น
ความก้าวหน้านี้มีความสำคัญอย่างยิ่งสำหรับผู้ใช้ที่ต้องการความแม่นยำสูงในภาพ ไม่ว่าจะเป็นโครงการสร้างสรรค์ สื่อการตลาด หรือเพื่อการศึกษา
ตัวอย่างเช่น ภาพถ่ายทิวทัศน์ขาวดำอันเงียบสงบที่สร้างโดย Imagen 3 มีแม่น้ำคดเคี้ยวไหลผ่านพื้นที่ป่า โดยมีเทือกเขาที่ปกคลุมด้วยหิมะตั้งตระหง่านเป็นฉากหลังตัดกับท้องฟ้าที่มีเมฆบางส่วน การจัดองค์ประกอบภาพและการใส่ใจในรายละเอียดของภาพบ่งบอกถึงความเข้าใจอันซับซ้อนของโมเดลเกี่ยวกับฉากธรรมชาติ และความสามารถในการสร้างภาพที่สะดุดตาซึ่งโดนใจผู้ชม
อย่างไรก็ตาม แม้จะมีจุดแข็งมากมาย แต่การพัฒนาของ Imagen 3 บางแง่มุมยังคงถูกปกคลุมไปด้วยความลึกลับ Google ค่อนข้างเข้มงวดเกี่ยวกับข้อมูลเฉพาะที่ใช้ในการฝึกโมเดล บทความวิจัยที่มาพร้อมกับการเปิดตัวเครื่องมือระบุว่า Imagen 3 ได้รับการฝึกอบรมเกี่ยวกับ “ชุดข้อมูลขนาดใหญ่ที่ประกอบด้วยรูปภาพ ข้อความ และคำอธิบายประกอบที่เกี่ยวข้อง” แต่ให้รายละเอียดเพียงเล็กน้อยนอกเหนือจากนั้น
การขาดความโปร่งใสนี้นำไปสู่การคาดเดาว่าชุดข้อมูลอาจมีภาพที่มีลิขสิทธิ์จำนวนมาก ซึ่งเป็นข้อกังวลทั่วไปในชุมชน AI
นอกเหนือจากการสร้างภาพ: พลังแห่งการวาดภาพ
นอกเหนือจากการสร้างภาพตั้งแต่ต้น Imagen 3 ยังให้ผู้ใช้สามารถแก้ไขภาพที่มีอยู่โดยใช้เทคนิคที่เรียกว่า inpainting วิธีการนี้ซึ่งได้รับความนิยมมากขึ้นเรื่อยๆ ในขอบเขตของการแก้ไขภาพ AI ทำให้ผู้ใช้สามารถเลือกส่วนของภาพและแก้ไขตามข้อความแจ้งใหม่ได้
ตัวอย่างเช่น หากผู้ใช้ต้องการเปลี่ยนสีเสื้อผ้าของเป้าหมายหรือเพิ่มองค์ประกอบใหม่ให้กับทิวทัศน์ ก็สามารถทำได้ด้วยการกดแป้นพิมพ์เพียงไม่กี่ครั้ง
คุณสมบัติการลงสีช่วยเพิ่มความสามารถรอบด้านของ Imagen 3 ได้อย่างมาก ทำให้เป็นเครื่องมือที่มีคุณค่าไม่เพียงแค่สำหรับการสร้างภาพใหม่เท่านั้น แต่ยังสำหรับการปรับแต่งและปรับปรุงภาพที่มีอยู่ด้วย ความสามารถนี้เปิดโอกาสใหม่ๆ สำหรับนักออกแบบ นักการตลาด และผู้สร้างเนื้อหาที่ต้องการปรับแต่งภาพอย่างรวดเร็วโดยไม่ต้องเริ่มต้นใหม่ทั้งหมด
อย่างไรก็ตาม สิ่งสำคัญที่ควรทราบก็คือ Imagen 3 ก็เหมือนกับเครื่องมือ AI อื่นๆ ที่มาพร้อมกับข้อจำกัดบางประการ Google ได้ใช้มาตรการป้องกันเพื่อป้องกันการสร้างภาพที่ก่อให้เกิดข้อขัดแย้งหรืออาจเป็นอันตราย ตัวอย่างเช่น เมื่อ PetaPixel พยายามสร้างรูปภาพของ "Kamala Harris และ Donald Trump จับมือกัน" คำขอนั้นถูกปฏิเสธ ในทำนองเดียวกัน ความพยายามที่จะสร้างภาพในรูปแบบของศิลปินชื่อดังหรือผลงานที่มีลิขสิทธิ์ก็พบกับการต่อต้าน
เช่นเดียวกับเทคโนโลยีส่วนใหญ่ ผู้ใช้พบวิธีแก้ไขข้อจำกัดเหล่านี้ การปรับเปลี่ยนคำแนะนำมักจะสามารถบรรลุผลลัพธ์ที่ใกล้เคียงกับผลลัพธ์ที่ต้องการโดยไม่ทำให้เกิดข้อจำกัดของโมเดล ตัวอย่างเช่น ด้วยการขอให้ Imagen 3 “สร้างภาพขาวดำที่น่าทึ่งซึ่งถ่ายในปี 1942 ของอุทยานแห่งชาติ Grand Teton ในไวโอมิง” ผู้ใช้สามารถสร้างภาพที่ชวนให้นึกถึงภาพถ่ายอันเป็นเอกลักษณ์ของ Ansel Adams
The Verge สาธิตวิธีแก้ปัญหาที่คล้ายกันโดยขอ "รูปภาพของเม่นสีน้ำเงินการ์ตูนที่กำลังวิ่งอยู่ในทุ่ง" ภาพที่ออกมามีความคล้ายคลึงกับ Sonic the Hedgehog อย่างเห็นได้ชัด ซึ่งแสดงให้เห็นว่าผู้ใช้สามารถข้ามข้อจำกัดทางลิขสิทธิ์อย่างสร้างสรรค์ได้อย่างไรโดยไม่ละเมิดข้อจำกัดโดยตรง
ความท้าทายและการโต้เถียง
แม้ว่า Imagen 3 ได้รับการตอบรับอย่างดีเป็นส่วนใหญ่ แต่ก็ไม่ได้ปราศจากข้อโต้แย้งแต่อย่างใด เมื่อต้นปีที่ผ่านมา Google ต้องเผชิญกับฟันเฟืองหลังจากโปรแกรมสร้างภาพ AI บนราศีเมถุนถูกกล่าวหาว่าแก้ไขอคติมากเกินไป ซึ่งนำไปสู่การลบคนผิวขาวออกจากภาพที่สร้างขึ้นบางภาพ เหตุการณ์นี้จุดประกายให้เกิดการสนทนาในวงกว้างเกี่ยวกับผลกระทบทางจริยธรรมของ AI ในการสร้างภาพ โดยเฉพาะอย่างยิ่งเกี่ยวกับการเป็นตัวแทนและความลำเอียง
เพื่อตอบสนองต่อเสียงโวยวาย Google ได้ลบโปรแกรมสร้างภาพออกจาก Gemini ซึ่งแสดงให้เห็นถึงความเต็มใจของบริษัทที่จะรับผิดชอบต่อเทคโนโลยีที่พัฒนาขึ้น ข้อโต้แย้งเกี่ยวกับราศีเมถุนเน้นย้ำถึงความสำคัญของการเฝ้าระวังอย่างต่อเนื่องและการพิจารณาด้านจริยธรรมในการพัฒนาเครื่องมือ AI เช่น Imagen 3
เมื่อเทคโนโลยีเหล่านี้มีความก้าวหน้าและใช้กันอย่างแพร่หลายมากขึ้น โอกาสที่จะเกิดผลที่ตามมาโดยไม่ตั้งใจก็เพิ่มมากขึ้น ทำให้บริษัทต่างๆ จำเป็นต้องให้ความสำคัญกับความโปร่งใส ความยุติธรรม และความรับผิดชอบ
วิธีการเข้าถึง Imagen 3
สำหรับผู้ที่สนใจสำรวจความสามารถของ Imagen 3 การเข้าถึงเครื่องมือนี้ค่อนข้างตรงไปตรงมา ผู้ใช้ในสหรัฐอเมริกาสามารถลองใช้โปรแกรมสร้างภาพได้โดยไปที่เว็บไซต์ DeepMind และไปที่บริการ AI Test Kitchen ที่นี่ พวกเขาสามารถทดลองใช้คำแนะนำต่างๆ ทดสอบฟีเจอร์การวาดภาพ และสัมผัสประสบการณ์โดยตรงถึงพลังของนวัตกรรม AI ล่าสุดของ Google
ความคิดสุดท้าย
โดยสรุป การเปิดตัว Imagen 3 ของ Google ถือเป็นก้าวสำคัญในวิวัฒนาการของการสร้างภาพที่ขับเคลื่อนด้วย AI ด้วยการนำเสนอเครื่องมือฟรีคุณภาพสูงที่เทียบเคียงกับโมเดลที่ดีที่สุดในตลาด Google ไม่เพียงแต่พัฒนาด้าน AI เท่านั้น แต่ยังทำให้ผู้ชมในวงกว้างเข้าถึงได้มากขึ้นอีกด้วย
ในขณะที่เทคโนโลยียังคงพัฒนาอย่างต่อเนื่อง เราคาดหวังว่าจะได้เห็นความสามารถที่น่าประทับใจยิ่งขึ้นจาก Imagen 3 และเครื่องมือที่คล้ายกัน ซึ่งจะทำให้เส้นแบ่งระหว่างความคิดสร้างสรรค์ของมนุษย์และการเรียนรู้ของเครื่องเบลอยิ่งขึ้น
ไม่ว่าคุณจะเป็นนักออกแบบมืออาชีพ ผู้สร้างเนื้อหาทั่วไป หรือเพียงแค่อยากรู้เกี่ยวกับความก้าวหน้าล่าสุดใน AI Imagen 3 เป็นเครื่องมือที่คุ้มค่าแก่การสำรวจ การผสมผสานระหว่างพลัง ความแม่นยำ และความสามารถในการเข้าถึงทำให้กลายเป็นส่วนเสริมที่มีคุณค่าสำหรับคลังเครื่องมือดิจิทัลที่กำลังเติบโตสำหรับครีเอทีฟในปัจจุบัน แล้วจะรอทำไม? ดำดิ่งสู่โลกแห่งรูปภาพที่สร้างโดย AI และดูว่าคุณสามารถสร้างอะไรได้บ้างด้วย Imagen 3 ของ Google