Google DeepMind เปิดตัว DiffusionGemma ซึ่งเป็นสมาชิกใหม่ของตระกูลโมเดลโอเพน Gemma 4 ที่สร้างข้อความด้วยการประมวลผลแบบขนาน แทนการสร้างทีละโทเค็นแบบต่อเนื่องทีละลำดับ โมเดลนี้ทำผลงานได้เร็วขึ้นและมีประสิทธิภาพมากขึ้นบนฮาร์ดแวร์ภายในเครื่อง รวมถึงระบบ Nvidia DGX และ GPU เกมมิ่งสำหรับผู้บริโภค ไม่เหมือนโมเดลแบบออโตเรเกรสซีฟ (autoregressive) ที่สร้างข้อความจากซ้ายไปขวาทีละโทเค็น DiffusionGemma ใช้วิธีการแบบอาศัยการแพร่กระจาย (diffusion) คล้ายกับโมเดลสร้างภาพ โดยเริ่มจากโทเค็นตัวแทน (placeholder tokens) แล้วค่อย ๆ ปรับแก้ในหลายรอบเพื่อสร้างบล็อกข้อความทั้งก้อนพร้อมกัน การเปลี่ยนโครงสร้างนี้ทำให้ความเร็วเอาต์พุตสูงขึ้นประมาณ 4 เท่า เมื่อเทียบกับโมเดลออโตเรเกรสซีฟ Gemma ขนาดใกล้เคียง และยังพอดีกับข้อจำกัดหน่วยความจำของ GPU ผู้บริโภคระดับท็อป
โมเดล AI ส่วนใหญ่ถูกออกแบบมาให้เป็นแบบออโตเรเกรสซีฟ โดยสร้างข้อความจากซ้ายไปขวาทีละโทเค็น DiffusionGemma มีความใกล้เคียงกับโมเดลสร้างภาพมากกว่า คือเริ่มจากภาพนิ่ง แล้วค่อยทำให้ภาพ “เดนอยส์” (denoise) เพื่อสร้างคอนเทนต์ที่ต้องการ โมเดลนี้จะให้ฟิลด์ของโทเค็นตัวแทนวิ่งทับ “ผืนผ้าใบ” (canvas) หลายครั้งเพื่อสร้างโทเค็นที่มีแนวโน้มเป็นไปได้ แล้วใช้ผลนั้นเพื่อปรับการประมาณของโทเค็นอื่น ๆ ในตอนท้ายของกระบวนการ โมเดลจะสรุปผลลัพธ์ของโทเค็นทั้งหมดลงใน “บล็อก” ขนาดใหญ่เพียงครั้งเดียว—เป็นข้อความที่ผ่านการเดนอยส์บนผืนผ้าใบ
DiffusionGemma เป็นโมเดล Mixture of Experts (MoE) ที่มีพารามิเตอร์รวม 26 พันล้านพารามิเตอร์ แต่ในระหว่างการอินเฟอเรนซ์จะมีการ “เปิดใช้งาน” เพียง 3.8 พันล้าน นั่นหมายความว่ามันควรจะพอดีกับหน่วยความจำ RAM 18GB ของ GPU ระดับท็อป วิธีการสร้างข้อความนี้ย้ายคอขวดจากแบนด์วิดท์หน่วยความจำไปสู่การคำนวณ ทำให้สร้างได้สูงสุด 256 โทเค็นแบบขนาน
ในการทดสอบกับ RTX 5090 DiffusionGemma ทำออกมาราว 700 โทเค็นต่อวินาที เมื่อใช้ตัวเร่ง AI Nvidia H100 เพียงตัวเดียว DiffusionGemma สามารถสร้างได้ 1,000+ โทเค็นต่อวินาที นี่เทียบเท่ากับความเร็วเอาต์พุตประมาณ 4 เท่าของโมเดลออโตเรเกรสซีฟ Gemma ที่มีขนาดใกล้เคียงกัน
Google ระบุว่าสิ่งนี้ช่วยเพิ่มประสิทธิภาพแบบวัดได้ในงานที่ไม่เชิงเส้น เช่น การแก้ไขในบรรทัด (in-line editing) การเรียงลำดับโมเลกุล (molecular sequencing) และการวาดกราฟคณิตศาสตร์ DiffusionGemma ถูกปรับจูนมาเพื่อแก้ปัญหา Sudoku ซึ่งเป็นงานที่ท้าทายอย่างยิ่งสำหรับโมเดล AI แบบออโตเรเกรสซีฟมาตรฐาน เพราะโทเค็นแต่ละตัวขึ้นอยู่กับโทเค็นในอนาคต ความสามารถของ DiffusionGemma ในการแก้ไขตัวเองอย่างต่อเนื่องสำหรับชุดโทเค็นจำนวนมากจึงทำให้ง่ายขึ้น
DiffusionGemma คืออะไร และแตกต่างจากโมเดล AI อื่นอย่างไร?
DiffusionGemma คือโมเดล AI แบบโอเพนใหม่จาก Google DeepMind ที่ใช้สถาปัตยกรรมแบบแพร่กระจายเพื่อสร้างข้อความแบบขนานแทนการทำทีละขั้นตามลำดับ ไม่เหมือนโมเดลออโตเรเกรสซีฟที่สร้างข้อความทีละโทเค็นจากซ้ายไปขวา DiffusionGemma จะเริ่มจากโทเค็นตัวแทนและค่อย ๆ ปรับแก้ในหลายรอบ ก่อนจะสรุปบล็อกข้อความทั้งหมดพร้อมกัน คล้ายกับวิธีที่โมเดลสร้างภาพทำการเดนอยส์ภาพนิ่งให้กลายเป็นภาพที่สอดคล้องกัน
DiffusionGemma เร็วแค่ไหนเมื่อเทียบกับโมเดลตระกูล Gemma อื่น?
DiffusionGemma สร้างได้ราว 700 โทเค็นต่อวินาทีบน GPU RTX 5090 และมากกว่า 1,000 โทเค็นต่อวินาทีบนตัวเร่ง AI Nvidia H100 เพียงตัวเดียว นี่คิดเป็นความเร็วเอาต์พุตประมาณ 4 เท่าของโมเดลออโตเรเกรสซีฟ Gemma ขนาดใกล้เคียงกัน ขณะเดียวกันก็ยังพอดีกับการจัดสรรหน่วยความจำ RAM 18GB ของ GPU ผู้บริโภคระดับท็อป ด้วยสถาปัตยกรรม Mixture of Experts ที่มีพารามิเตอร์รวม 26 พันล้าน และมีการเปิดใช้งานเพียง 3.8 พันล้านระหว่างการอินเฟอเรนซ์
DiffusionGemma ทำงานประเภทไหนได้ดีกว่า?
Google ระบุว่า DiffusionGemma ให้ประสิทธิภาพที่ดีขึ้นแบบวัดได้ในงานที่ไม่เชิงเส้น รวมถึงการแก้ไขในบรรทัด การเรียงลำดับโมเลกุล การวาดกราฟคณิตศาสตร์ และการแก้ปัญหา Sudoku ความสามารถในการแก้ไขตัวเองอย่างต่อเนื่องของโมเดลสำหรับชุดโทเค็นจำนวนมากทำให้เหมาะเป็นพิเศษสำหรับงานที่โทเค็นแต่ละตัวขึ้นอยู่กับโทเค็นในอนาคต ซึ่งโดยทั่วไปเป็นงานที่ท้าทายอย่างมากสำหรับโมเดล AI แบบออโตเรเกรสซีฟมาตรฐาน
news.related.news
MNX ระดมทุนพรีซีด 6.4 ล้านดอลลาร์ ที่ $40M มูลค่า ในการแลกเปลี่ยนอนาคตของ AI
การอัปเกรดการแปลของ Google Gemini 3.5: ยุติการสะดุดของการล่ามแบบเรียลไทม์ 70 ภาษา
หนอนที่ขับเคลื่อนด้วย AI ปรับกลยุทธ์การโจมตีแบบเรียลไทม์ นักวิจัยสาธิตให้เห็น
Google ประกาศ Gemini 3.5 รองรับการแปลสดแบบถ่ายทอดด้วยเสียงสำหรับกว่า 70 ภาษา
Apple ยืนยันว่า AI ของ Siri ทำงานบนเซิร์ฟเวอร์ของ Google ขณะยังคงยืนยันเรื่องความเป็นส่วนตัว