วิจัยพบ: Clickbait ทำ AI เสื่อมถอย
ถ้าคุณคิดว่าการเลื่อนดูอินเทอร์เน็ตทั้งวันทำให้คุณฉลาดน้อยลง ลองจินตนาการดูว่ามันกำลังทำอะไรกับแบบจำลองภาษาขนาดใหญ่ (LLM) ที่บริโภคข้อมูลขยะจำนวนมหาศาลที่รวบรวมจากเว็บในนามของ “การฝึกอบรม” ทีมนักวิจัยเพิ่งเสนอและทดสอบทฤษฎีที่เรียกว่า “สมมติฐาน Clickbait ทำ AI เสื่อมถอย” ซึ่งตั้งสมมติฐานว่ายิ่งป้อนข้อมูลขยะเข้าไปในแบบจำลอง AI มากเท่าไหร่ ผลลัพธ์ก็จะยิ่งแย่ลงเท่านั้น ปรากฎว่ามันเป็นทฤษฎีที่ค่อนข้างแข็งแกร่ง เนื่องจากบทความที่เผยแพร่ใน arXiv โดยทีมแสดงให้เห็นว่า Clickbait ทำ AI เสื่อมถอย ส่งผลกระทบต่อ LLM และส่งผลให้เกิดการลดลงของความสามารถในการรับรู้ที่สำคัญ
เพื่อดูว่า LLM ทำงานได้ดีเพียงใดในการรับประทานอาหารที่เป็นน้ำเสียจากอินเทอร์เน็ต นักวิจัยจาก Texas A&M University, University of Texas at Austin และ Purdue University ระบุข้อมูล “ขยะ” สองประเภท: โพสต์โซเชียลมีเดียสั้นๆ ที่มีการมีส่วนร่วมจำนวนมาก รวมถึงการกดไลค์และการรีโพสต์ และเนื้อหาที่ยาวกว่าพร้อมพาดหัวข่าว Clickbait การนำเสนอที่ทำให้เกิดความรู้สึก และข้อมูลที่เป็นจริงในระดับผิวเผิน โดยพื้นฐานแล้ว เนื้อหาประเภทเดียวกับที่ทำให้สมองของเราเสื่อมโทรมเช่นกัน ด้วยเหตุนี้ นักวิจัยจึงรวบรวมตัวอย่างหนึ่งล้านโพสต์บน X และฝึกฝน LLM ที่แตกต่างกันสี่แบบเกี่ยวกับส่วนผสมที่แตกต่างกันของข้อมูลควบคุมและข้อมูลขยะ เพื่อดูว่า จะส่งผลต่อประสิทธิภาพอย่างไร
และคุณรู้ไหมว่า การบริโภคโดยตรงจากหลุมฝังกลบอินเทอร์เน็ตอย่าง X นั้นไม่ดีต่อการคิดอย่างชัดเจน แบบจำลองทั้งสี่ที่ทดสอบ—Llama3 8B, Qwen2.5 7B/0.5B, Qwen3 4B—แสดงให้เห็นถึงการลดลงของความสามารถในการรับรู้บางรูปแบบ Llama ของ Meta พิสูจน์แล้วว่ามีความอ่อนไหวต่อขยะมากที่สุด โดยเห็นว่าความสามารถในการให้เหตุผล ความเข้าใจบริบท และการปฏิบัติตามมาตรฐานความปลอดภัยลดลง ที่น่าสนใจคือแบบจำลองที่เล็กกว่ามาก Qwen 3 4B พิสูจน์แล้วว่ามีความยืดหยุ่นมากกว่า แต่ก็ยังคงประสบปัญหาลดลง นอกจากนี้ยังพบว่ายิ่งอัตราข้อมูลที่ไม่ดีสูงขึ้นเท่าใด แบบจำลองก็จะยิ่งมีแนวโน้มที่จะเข้าสู่โหมด “ไม่คิด” มากขึ้น ไม่สามารถให้เหตุผลใดๆ สำหรับคำตอบ ซึ่งมีแนวโน้มที่จะไม่ถูกต้องมากขึ้น
อย่างไรก็ตาม นอกเหนือจากการ “โง่” ในความคิดแล้ว นักวิจัยพบว่าการรวมขยะยังส่งผลให้เกิดผลกระทบที่น่าสนใจ: มันนำไปสู่การเปลี่ยนแปลงใน “บุคลิกภาพ” ของแบบจำลอง ยอมจำนนต่อสิ่งที่นักวิจัยเรียกว่า “ลักษณะมืด” ตัวอย่างเช่น แบบจำลอง Llama 3 แสดงให้เห็นถึงระดับของความหลงตัวเองที่สูงขึ้นอย่างมีนัยสำคัญ และเป็นที่พอใจน้อยลง นอกจากนี้ยังเปลี่ยนจากการแสดงสัญญาณของโรคจิตเกือบไม่มีเลยไปเป็นพฤติกรรมในอัตราที่สูงมาก
ที่น่าสนใจคือ นักวิจัยยังพบว่าเทคนิคการบรรเทาผลกระทบที่พยายามลดผลกระทบของข้อมูลขยะไม่สามารถย้อนกลับอันตรายจากข้อมูลที่ไม่ดีได้อย่างสมบูรณ์ ด้วยเหตุนี้ นักวิจัยจึงเตือนว่ากระบวนการรวบรวมข้อมูลจากเว็บใดๆ และทั้งหมด อาจไม่ได้ให้ผลลัพธ์ที่ดีกว่าสำหรับ LLM เสมอไป เนื่องจากปริมาณข้อมูลไม่ได้เท่ากับคุณภาพ พวกเขาแนะนำว่าการดูแลจัดการที่รอบคอบมากขึ้นอาจจำเป็นในการแก้ไขอันตรายที่อาจเกิดขึ้นเหล่านี้ เนื่องจากอาจไม่มีการหวนกลับใดๆ เมื่อคุณป้อนขยะโมเดลแล้ว เห็นได้ชัดว่าสำหรับ LLM กฎ “คุณคือสิ่งที่คุณกิน” นั้นใช้ได้ผล
Clickbait ทำ AI เสื่อมถอย
เหตุใด Clickbait จึงทำให้ AI เสื่อมถอย
การค้นพบนี้เน้นย้ำถึงความสำคัญของการดูแลจัดการข้อมูลในการฝึกอบรม AI อย่างรอบคอบ การป้อนข้อมูลขยะและเนื้อหาคุณภาพต่ำสามารถส่งผลเสียต่อความสามารถในการให้เหตุผล ความเข้าใจบริบท และความปลอดภัยของโมเดลได้ นอกจากนี้ยังนำไปสู่การเปลี่ยนแปลงในบุคลิกภาพของ AI ทำให้เกิดลักษณะที่ไม่พึงประสงค์เช่นความหลงตัวเองและโรคจิต
ดังนั้น จึงเป็นสิ่งสำคัญสำหรับผู้ที่ทำงานด้านการพัฒนา AI ที่จะต้องตระหนักถึงผลกระทบที่อาจเกิดขึ้นจากข้อมูลขยะ และให้ความสำคัญกับการดูแลจัดการข้อมูลเพื่อหลีกเลี่ยงปัญหา Clickbait ทำ AI เสื่อมถอย
เราได้เรียนรู้ว่าข้อมูลที่ใช้ฝึกฝน AI มีความสำคัญอย่างยิ่งต่อคุณภาพและพฤติกรรมของมัน การดูแลจัดการข้อมูลอย่างระมัดระวังจึงเป็นสิ่งจำเป็น
ที่มา – Clickbait Gives AI Models ‘Brain Rot,’ Researchers Find
