ผู้ช่วยเสียงขอเริ่มใหม่: ควรให้จริงไหม?
หากคุณเชื่อคำโฆษณาของ Google และ Amazon ยุคของ ผู้ช่วยเสียง ก็กลับมาอีกครั้งในแบบที่ล้ำหน้ากว่าเดิม สัปดาห์นี้ทั้งสองบริษัทได้เปิดเผยรายละเอียดเพิ่มเติมเกี่ยวกับระบบนิเวศสมาร์ทโฮมของพวกเขา โดยเน้นไปที่ลำโพงอัจฉริยะรุ่นใหม่ เช่น Google Home Speaker และผลิตภัณฑ์ Echo รุ่นใหม่ที่มีเสียงดีขึ้นและชิปประมวลผลเร็วขึ้น แต่ที่สำคัญกว่านั้นคือ ผู้ช่วยเสียงรุ่นอัปเกรดที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่ (LLMs) อย่าง ChatGPT สำหรับ Google คือ Gemini for Home และสำหรับ Amazon คือ Alexa+ ซึ่งทั้งคู่ถูกมองว่าเป็นการขยายตัวครั้งแรกที่แท้จริงนับตั้งแต่ผู้ช่วยเสียงเกิดขึ้นเมื่อ 10 ปีก่อน
ผู้ช่วยเสียงขอเริ่มใหม่ ควรให้โอกาสจริงไหม?
ทั้งสองบริษัทมองว่า Alexa+ และ Gemini for Home ไม่ใช่แค่รุ่นใหม่ แต่เป็นการปฏิวัติที่แท้จริง พวกเขาสัญญาว่าครั้งนี้คุณจะทำทุกอย่างได้ ลองนึกภาพสั่ง Uber ผ่าน Alexa+ ตรวจกล้องบ้านเพื่อดูว่าวแมวของคุณทำอะไรทั้งวันด้วย Gemini หรือปิดไฟทุกดวงในบ้านยกเว้นดวงเดียว ซึ่งก่อนหน้านี้ต้องสั่งหลายคำสั่งและหวังว่ามันจะเวิร์ค มันฟังดูยอดเยี่ยม เหมือนกับคอมพิวติ้งแบบแวดล้อมที่เราปรารถนามาตั้งแต่ผู้ช่วยเสียงเข้ามาในบ้าน แต่ถ้าพูดตรงๆ มันอาจเป็นแค่คำโฆษณาเกินจริง
ผมไม่สงสัยเลยว่าบอทแชทสามารถเปลี่ยนแปลงได้ในบางด้าน เรเห็นแล้วว่ามันถูกนำไปใช้ใน การค้นหา เพื่อตอบคำถามซับซ้อน การเปรียบเทียบ และคำแนะนำ รวมถึงความสามารถสร้างสรรค์เมื่อรวมกับโมเดลอย่าง Veo หรือ Sora มันยังเขียนโค้ดแอปพื้นฐานได้แค่พิมพ์ไอเดีย แม้จะไม่สมบูรณ์แบบ แต่เรามีตัวอย่างที่พิสูจน์แล้ว แต่สำหรับผู้ช่วยเสียง? หลักฐานยังน้อยมาก
ความท้าทายในการอัปเกรดผู้ช่วยเสียง
ท่ามกลางกระแสจาก Amazon สัปดาห์นี้ มีจุดที่ขาดหายไปชัดเจน แม้ Alexa+ จะเข้าถึงได้ใน early access แล้ว แต่ยังไม่ประกาศวันวางจำหน่ายกว้างขวางหลังจากโฆษณามาหนึ่งปี มันยังอยู่ใน early access สำหรับลูกค้าในสหรัฐฯ ซึ่งอาจหมายถึง Amazon กำลังปรับแต่งให้ดี หรือในมุมมองที่ pesimistic ว่ามันยังไม่พร้อมสำหรับตลาดใหญ่
ยืนยันทฤษฎีนี้คือ Siri จำได้ไหมที่ Apple สัญญา Siri รุ่นใหม่ที่ขับเคลื่อนด้วย LLM ใน Apple Intelligence เมื่อมิถุนายน 2024? มันยังมาไม่ถึง และไม่มีสัญญาณว่าจะมาเมื่อไหร่ เหตุผลน่าจะคือมันยังไม่พร้อม แม้ Apple จะเป็นบริษัทเทคที่ร่ำรวยที่สุด การสร้างผู้ช่วยเสียงด้วย LLM จึงยากกว่าที่คิด
บางที Amazon หรือ Google อาจสำเร็จมากกว่า โดยเฉพาะ Google ที่ลงทุนมหาศาลใน Gemini แต่ก็ยังมีเรื่องให้สงสัย ผมเพิ่งได้ briefing เกี่ยวกับผลิตภัณฑ์สมาร์ทโฮมใหม่ของ Google รวมถึง Gemini for Home และตามที่ Google บอก การใส่ LLM เข้าไปในผู้ช่วยเสียงไม่ใช่เรื่องง่าย
Gemini อาจเก่งเรื่องภาษาธรรมชาติ แต่ไม่เหมาะกับงานง่ายๆ อย่างเปิด-ปิดไฟ เพราะบอทชอบ overthink ทำให้ดีสำหรับงานซับซ้อนแต่ไม่ใช่งานพื้นฐาน Anish Kattukaran หัวหน้าผลิตภัณฑ์ Google Home and Nest บอก Gizmodo ว่าคำสั่งง่ายๆ ต้องเวิร์ค 10 จาก 10 ครั้ง
ด้วยเหตุนี้ Google แยกโมเดลใน Gemini for Home LLM ขั้นสูงจะไม่ใช้สำหรับเปิดไฟหรือตั้งนาฬิกา เมื่อคุณพูด “Hey Google” มันจะใช้ Gemini แบบเรียบง่ายสำหรับงานทั่วไปอย่างตั้งเวลา เล่นเพลง ค้นหาเว็บ เมื่อพูด “Hey Google, let’s chat” จะเปิด Gemini Live mode ที่ใช้ LLM เต็มรูปแบบสำหรับการสนทนา สร้างสูตรอาหารหรือวางแผนเที่ยว ทำให้พูดได้ธรรมชาติโดยไม่รู้สึกว่ากำลังสั่งงาน
คำถามคือ Gemini แบบเรียบง่ายมี Gemini เท่าไหร่กันแน่? และมันขั้นสูงจริงแค่ไหน? นอกจากนี้ Gemini for Home ยังอยู่ใน early access เหมือน Alexa+ ปัญหาการ retrofit LLM เข้ากับผู้ช่วยเสียงเป็นเรื่องทั่วไป
ผมไม่อยากผิดพลาด แต่ผมหวังว่าผมจะผิด ผมมีสมาร์ทโฮมแบบง่ายๆ และเคยหงุดหงิดกับการใช้งานแม้งานง่ายๆ ผมพร้อมสำหรับผู้ช่วยเสียงรุ่นใหม่ แม้ต้องจ่ายรายเดือน แต่หลังจากสิบปีของความคาดหวังที่พังทลาย สำหรับ Gemini, Alexa และ Siri ผมอยากเห็นผลลัพธ์ก่อนจะเชื่อใน ผู้ช่วยเสียงขอเริ่มใหม่ ควรให้โอกาสจริงไหม? มันอาจเป็นจุดเปลี่ยนที่แท้จริง หากบริษัทเหล่านี้พิสูจน์ได้ ลองอัปเกรดระบบของคุณดู แล้วบอกเราว่ามันเวิร์คจริงไหม
ที่มา – Voice Assistants Are Begging for a Do-Over. Should You Really Give Them One?