รู้แล้ว! ค่าเทรนโมเดล DeepSeek จีน

จำได้ไหมตอนที่ DeepSeek สร้างความฮือฮาในวงการปัญญาประดิษฐ์ ด้วยการเปิดตัว Large Language Model (LLM) ชื่อ R1 ซึ่งได้รับการฝึกฝนด้วยเงินทุนเพียงเล็กน้อย เมื่อเทียบกับเงินที่ OpenAI และผู้เล่นรายใหญ่อื่นๆ ทุ่มลงไปในโมเดลของตนเอง? ต้องขอบคุณ งานวิจัยฉบับใหม่ที่ตีพิมพ์โดยทีมงาน DeepSeek AI ในวารสาร Nature ในที่สุดเราก็รู้แล้วว่าอะไรคือเบื้องหลังความสำเร็จในการฝึกฝน DeepSeek 1: เงิน 294,000 ดอลลาร์สหรัฐฯ และชิป Nvidia H800 จำนวน 512 ตัว เหตุผลที่พวกเขาสามารถใช้จ่ายน้อยกว่านั้นดูเหมือนว่าจะเป็นเพราะทีมงานใช้เทคนิคการเรียนรู้แบบเสริมกำลัง (reinforcement learning) ที่อาศัยการลองผิดลองถูก

โดยทั่วไปแล้ว โมเดล AI ส่วนใหญ่ที่ได้รับมอบหมายให้ทำงานที่ต้องใช้การให้เหตุผล จำเป็นต้องได้รับการฝึกฝนจากข้อมูลและการสาธิตที่มนุษย์เป็นผู้ใส่คำอธิบายประกอบ เพื่อให้ “เรียนรู้” วิธีการแก้ไขปัญหาบางอย่าง ซึ่งทั้ง มีราคาแพงและใช้เวลานานในการขยายขนาด เมื่อโมเดลได้รับมอบหมายงานที่ท้าทายมากยิ่งขึ้น DeepSeek พบว่าสามารถปรับปรุงการให้เหตุผลและผลลัพธ์ของโมเดลได้ เพียงแค่กระตุ้นให้โมเดลดำเนินการตามกระบวนการลองผิดลองถูกจนกว่าจะได้รับคำตอบที่ถูกต้อง

ใน บทความที่มาพร้อมกับงานวิจัย Daphne Ippolito ผู้ช่วยศาสตราจารย์จาก Carnegie Mellon University และ Yiming Zhang นักศึกษาปริญญาเอก อธิบายวิธีการเสริมกำลังโดยเปรียบเทียบกับการที่เด็กเล่นวิดีโอเกม: “ขณะที่เด็กนำทางตัวละครของตนเองผ่านโลกของเกม พวกเขาเรียนรู้ผ่านการลองผิดลองถูกว่าการกระทำบางอย่าง (เช่น การเก็บเหรียญทอง) จะได้รับคะแนน ในขณะที่การกระทำอื่นๆ (เช่น การวิ่งชนศัตรู) จะทำให้คะแนนของพวกเขากลับไปเป็นศูนย์ ในทำนองเดียวกัน DeepSeek-R1 จะได้รับคะแนนสูงเมื่อตอบคำถามถูกต้องและคะแนนต่ำเมื่อให้คำตอบผิด”

งานวิจัยก่อนหน้านี้แสดงให้เห็นว่าการใช้วิธีการแจ้งเตือน (prompting approach) ซึ่งเป็นการขอให้ LLM ให้คำอธิบายทีละขั้นตอนเกี่ยวกับวิธีการที่มันได้มาซึ่งผลลัพธ์ จะให้คำตอบที่แม่นยำกว่า แต่ทีมงาน DeepSeek ได้คิดค้นวิธีการเพื่อให้ได้คำตอบที่ดีขึ้นผ่านการเสริมกำลัง โดยการกำหนดระบบการให้คะแนนให้กับผลลัพธ์ที่ R1 สร้างขึ้น นั่นได้ผลดีอย่างยิ่งกับคำถามทางคณิตศาสตร์และการเขียนโปรแกรม ซึ่งมักจะมีคำตอบที่ถูกต้องที่สามารถตรวจสอบได้ โดยการใช้วิธีนี้แทนการให้เหตุผลที่มนุษย์ชี้นำ LLM สามารถมาถึงข้อสรุปที่ถูกต้องได้ด้วยตัวเองในขณะที่แสวงหาคะแนนที่สูงขึ้น

ในขณะที่ผลลัพธ์ของวิธีนี้ดูเหมือนจะแม่นยำกว่า แต่ก็ทำให้กระบวนการ “ความคิด” ของเครื่องจักรคลุมเครือมากขึ้นเล็กน้อยสำหรับมนุษย์ที่พยายามติดตาม เมื่อถูกขอให้สร้างเส้นทางการให้เหตุผลสำหรับคำตอบ โมเดลบางครั้งจะสลับไปมาระหว่างภาษาอังกฤษและภาษาจีน นอกจากนี้ยังให้คำอธิบายที่มีความยาว 10,000 คำขึ้นไป วิธีนี้ยังใช้งานได้ดีเป็นพิเศษสำหรับคำตอบที่มีคำตอบที่ถูกหรือผิดอย่างชัดเจน แทนที่จะเป็นคำถามที่ละเอียดอ่อนหรือเป็นอัตวิสัยมากกว่า

อย่างไรก็ตาม นี่เป็นหน้าต่างที่น่าสนใจว่า DeepSeek สามารถแข่งขันได้ด้วยงบประมาณที่น้อยกว่าได้อย่างไร ถึงกระนั้น บริษัทเองก็มีความสงสัยมากมายเกี่ยวกับเรื่องนี้เนื่องจากความใกล้ชิดกับรัฐบาลจีน เมื่อเร็ว ๆ นี้ นักวิจัยได้แสดงให้ The Washington Post เห็น ว่าโมเดลของบริษัทจะปฏิเสธที่จะสร้างโค้ดที่มีข้อบกพร่องด้านความปลอดภัยที่สำคัญ เมื่อผู้แจ้งระบุว่าพวกเขากำลังทำงานกับกลุ่มที่รัฐบาลจีนถือว่ามีความอ่อนไหว นักวิจัยยังพบว่าโมเดลจะพ่นโค้ดที่ไม่ปลอดภัยน้อยกว่าเมื่อถูกขอให้สร้างงานสำหรับทิเบต ไต้หวัน ขบวนการทางศาสนาฝ่าหลุนกง หรือรัฐอิสลาม

ทำความเข้าใจ ค่าเทรนโมเดล DeepSeek จีน

การที่ DeepSeek สามารถพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่มีประสิทธิภาพได้ด้วยต้นทุนที่ต่ำกว่าคู่แข่งรายใหญ่อย่าง OpenAI เป็นสิ่งที่น่าสนใจและชวนให้ติดตามอย่างใกล้ชิด การใช้เทคนิค Reinforcement Learning ที่เน้นการลองผิดลองถูก แสดงให้เห็นถึงแนวทางที่แตกต่างและอาจเป็นทางออกสำหรับบริษัทอื่นๆ ที่ต้องการพัฒนา AI โดยไม่ต้องใช้งบประมาณมหาศาล

ความสำคัญของค่าใช้จ่ายในการฝึกโมเดล DeepSeek จีน

การลดต้นทุนในการฝึกฝนโมเดล AI เป็นสิ่งสำคัญอย่างยิ่งต่อการ democratize เทคโนโลยีนี้ ทำให้บริษัทขนาดเล็กและนักวิจัยสามารถเข้าถึงและพัฒนา AI ได้มากขึ้น ซึ่งจะนำไปสู่การแข่งขันและความก้าวหน้าในวงการนี้อย่างรวดเร็ว

การที่ DeepSeek ประสบความสำเร็จในการเทรนโมเดล DeepSeek จีน ด้วยงบประมาณที่จำกัด แสดงให้เห็นว่าความคิดสร้างสรรค์และนวัตกรรมในการออกแบบวิธีการฝึกฝน สามารถทดแทนเงินทุนจำนวนมหาศาลได้

แม้ว่า DeepSeek จะเผชิญกับความกังวลเกี่ยวกับความสัมพันธ์กับรัฐบาลจีน แต่การพัฒนาเทคโนโลยี AI ที่คุ้มค่าก็เป็นสิ่งที่ควรค่าแก่การพิจารณาและเรียนรู้ เพราะอาจเป็นกุญแจสำคัญในการขับเคลื่อนวงการ AI ไปข้างหน้า

สิ่งที่น่าสนใจคือ DeepSeek สามารถพัฒนาโมเดล DeepSeek จีน ที่มีประสิทธิภาพได้ด้วยค่าใช้จ่ายที่ต่ำกว่ามาก ทำให้เกิดคำถามว่าบริษัทอื่นๆ จะสามารถนำแนวทางนี้ไปปรับใช้ได้อย่างไรบ้าง การลงทุนในเทคนิคการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) อาจเป็นทางเลือกที่คุ้มค่ากว่าการทุ่มเงินจำนวนมหาศาลไปกับการ annotate ข้อมูล

ในอนาคต เราอาจได้เห็นบริษัทอื่นๆ หันมาให้ความสำคัญกับการพัฒนาวิธีการฝึกฝน AI ที่มีประสิทธิภาพมากขึ้น เพื่อลดต้นทุนและเพิ่มขีดความสามารถในการแข่งขัน ซึ่งจะส่งผลดีต่อการพัฒนาเทคโนโลยี AI ในภาพรวม ความสำเร็จของ ค่าเทรนโมเดล DeepSeek จีน ถือเป็นกรณีศึกษาที่น่าสนใจและอาจเป็นจุดเริ่มต้นของการเปลี่ยนแปลงครั้งใหญ่ในวงการ AI

ที่มา – We Finally Know How Much It Cost to Train China’s Astonishing DeepSeek ModelIt’s a little bit more than pocket change, but just a little.

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *