AI สร้างภาพซ้ำ? พบ 12 สไตล์ยอดนิยม
โมเดล AI สร้างภาพมีข้อมูลภาพจำนวนมหาศาลเพื่อดึงมาสร้างผลลัพธ์ที่ไม่เหมือนใคร แต่จากการศึกษาพบว่า เมื่อสั่งให้โมเดลสร้างภาพตามชุดคำสั่งที่ค่อยๆ เปลี่ยนไป มันมักจะเลือกใช้แค่รูปแบบภาพที่เป็นที่นิยมไม่กี่แบบ ทำให้ได้ภาพที่มีสไตล์ซ้ำซากในที่สุด
งานวิจัยที่ตีพิมพ์ในวารสาร Patterns ได้ทดสอบ AI สร้างภาพสองตัว คือ Stable Diffusion XL และ LLaVA โดยการเล่นเกมส่งภาพต่อ โดยเริ่มจาก Stable Diffusion XL ได้รับคำสั่งสั้นๆ และสร้างภาพ เช่น “ขณะที่ฉันนั่งอยู่คนเดียวท่ามกลางธรรมชาติ ฉันพบหนังสือเก่าที่มีแปดหน้าเล่าเรื่องราวในภาษาที่ถูกลืมเลือนซึ่งรอการอ่านและความเข้าใจ” จากนั้นภาพนี้จะถูกส่งไปยัง LLaVA เพื่ออธิบายภาพ คำอธิบายนั้นจะถูกส่งกลับไปยัง Stable Diffusion ซึ่งจะสร้างภาพใหม่จากคำสั่งนั้น กระบวนการนี้ดำเนินไป 100 รอบ
เช่นเดียวกับเกมส่งโทรศัพท์ในชีวิตจริง ภาพต้นฉบับหายไปอย่างรวดเร็ว ไม่น่าแปลกใจเลย โดยเฉพาะอย่างยิ่งถ้าคุณเคยเห็นวิดีโอเหล่านั้นที่ผู้คนขอให้โมเดล AI สร้างภาพ ขึ้นมาใหม่โดยไม่เปลี่ยนแปลงอะไรเลย แต่ภาพกลับกลายเป็นสิ่งที่ไม่คล้ายกับต้นฉบับเลย สิ่งที่นักวิจัยประหลาดใจคือข้อเท็จจริงที่ว่าโมเดลนั้นเลือกใช้เพียงรูปแบบทั่วไปไม่กี่แบบ จากการทำซ้ำเกมส่งภาพต่อ 1,000 ครั้ง นักวิจัยพบว่าลำดับภาพส่วนใหญ่มักจะตกไปอยู่ใน 1 ใน 12 รูปแบบที่โดดเด่น
ในกรณีส่วนใหญ่ การเปลี่ยนแปลงนั้นค่อยเป็นค่อยไป บางครั้งก็เกิดขึ้นอย่างกะทันหัน แต่มันเกิดขึ้นเกือบตลอดเวลา และนักวิจัยก็ไม่ประทับใจ ในการศึกษา พวกเขาเรียกสไตล์ภาพทั่วไปว่า “ดนตรีประกอบลิฟต์ภาพ” ซึ่งเป็นประเภทของภาพที่คุณจะเห็นแขวนอยู่ในห้องพักโรงแรม ฉากที่พบบ่อยที่สุด ได้แก่ ประภาคารริมทะเล การตกแต่งภายในที่เป็นทางการ ฉากกลางคืนในเมือง และสถาปัตยกรรมแบบชนบท
แม้ว่านักวิจัยจะเปลี่ยนไปใช้โมเดลที่แตกต่างกันสำหรับการสร้างและอธิบายภาพ แนวโน้มเดียวกันก็เกิดขึ้น นักวิจัยกล่าวว่าเมื่อขยายเกมไปถึง 1,000 เทิร์น การรวมตัวกันรอบสไตล์หนึ่งยังคงเกิดขึ้นประมาณเทิร์นที่ 100 แต่รูปแบบต่างๆ จะหมุนวนออกมาในเทิร์นพิเศษเหล่านั้น อย่างไรก็ตาม ที่น่าสนใจคือรูปแบบเหล่านั้นยังคงดึงมาจากรูปแบบภาพที่เป็นที่นิยม
แล้วทั้งหมดนั้นหมายความว่าอย่างไร ส่วนใหญ่ก็คือ AI ไม่มีความคิดสร้างสรรค์เป็นพิเศษ ในเกมส่งโทรศัพท์ของมนุษย์ คุณจะได้ความแตกต่างอย่างมาก เพราะแต่ละข้อความจะถูกส่งและได้ยินแตกต่างกัน และแต่ละคนก็มีอคติและความชอบส่วนตัวที่อาจส่งผลต่อข้อความที่พวกเขาได้รับ AI มีปัญหาตรงกันข้าม ไม่ว่าคำสั่งเดิมจะแปลกประหลาดแค่ไหน มันก็จะเลือกใช้รูปแบบที่จำกัดเสมอ
แน่นอนว่าโมเดล AI ดึงมาจากคำสั่งที่มนุษย์สร้างขึ้น ดังนั้นจึงมีบางสิ่งที่ต้องพูดถึงเกี่ยวกับชุดข้อมูลและสิ่งที่มนุษย์ดึงดูดใจในการถ่ายภาพ หากมีบทเรียนใดๆ ที่นี่ บางทีก็คือการคัดลอกสไตล์นั้นง่ายกว่าการสอนรสนิยม
ทำไม AI สร้างภาพ ถึงวนกลับมาที่เดิม?
จากการศึกษาพบว่า AI สร้างภาพ มักจะวนกลับมาที่รูปแบบเดิมๆ แม้ว่าจะได้รับคำสั่งที่หลากหลาย
ทำความเข้าใจเหตุผลที่ AI สร้างภาพ วนกลับมาที่สไตล์เดิม
เหตุผลหลักที่ AI สร้างภาพ วนกลับมาที่สไตล์เดิมนั้นเกี่ยวข้องกับข้อมูลที่ใช้ในการฝึกโมเดล ถึงแม้ว่าข้อมูลจะมีจำนวนมหาศาล แต่มันก็ยังสะท้อนถึงสิ่งที่มนุษย์เลือกที่จะถ่ายภาพและแบ่งปัน นอกจากนี้ อัลกอริทึมของ AI อาจจะเน้นไปที่รูปแบบที่พบบ่อยและง่ายต่อการสร้างใหม่ ทำให้เกิดการวนซ้ำของสไตล์เดิมๆ
- ข้อมูลการฝึกอบรม: ข้อมูลที่ใช้ฝึก AI ส่วนใหญ่มาจากภาพที่มนุษย์สร้างขึ้น ซึ่งอาจมีอคติทางสไตล์อยู่แล้ว
- อัลกอริทึม: AI อาจจะเน้นไปที่รูปแบบที่พบบ่อยและง่ายต่อการสร้าง ทำให้เกิดการวนซ้ำ
- ขาดความคิดสร้างสรรค์: AI ยังขาดความสามารถในการคิดนอกกรอบเหมือนมนุษย์
การทำความเข้าใจข้อจำกัดเหล่านี้จะช่วยให้เราสามารถพัฒนา AI สร้างภาพ ที่มีความคิดสร้างสรรค์และหลากหลายมากขึ้นได้
AI สร้างภาพ ยังมีข้อจำกัดอยู่ แต่ก็สามารถพัฒนาต่อไปได้อีกมาก
ที่มา – AI Image Generators Default to the Same 12 Photo Styles, Study Finds