Google DeepMind เปิดตัว DiffusionGemma พร้อมเพิ่มความเร็ว 4 เท่า สำหรับ AI ในเครื่อง

Google DeepMind เปิดตัว DiffusionGemma ซึ่งเป็นสมาชิกใหม่ของตระกูลโมเดลโอเพน Gemma 4 ที่สร้างข้อความด้วยการประมวลผลแบบขนาน แทนการสร้างทีละโทเค็นแบบต่อเนื่องทีละลำดับ โมเดลนี้ทำผลงานได้เร็วขึ้นและมีประสิทธิภาพมากขึ้นบนฮาร์ดแวร์ภายในเครื่อง รวมถึงระบบ Nvidia DGX และ GPU เกมมิ่งสำหรับผู้บริโภค ไม่เหมือนโมเดลแบบออโตเรเกรสซีฟ (autoregressive) ที่สร้างข้อความจากซ้ายไปขวาทีละโทเค็น DiffusionGemma ใช้วิธีการแบบอาศัยการแพร่กระจาย (diffusion) คล้ายกับโมเดลสร้างภาพ โดยเริ่มจากโทเค็นตัวแทน (placeholder tokens) แล้วค่อย ๆ ปรับแก้ในหลายรอบเพื่อสร้างบล็อกข้อความทั้งก้อนพร้อมกัน การเปลี่ยนโครงสร้างนี้ทำให้ความเร็วเอาต์พุตสูงขึ้นประมาณ 4 เท่า เมื่อเทียบกับโมเดลออโตเรเกรสซีฟ Gemma ขนาดใกล้เคียง และยังพอดีกับข้อจำกัดหน่วยความจำของ GPU ผู้บริโภคระดับท็อป

DiffusionGemma ใช้สถาปัตยกรรมแบบแพร่กระจายเพื่อสร้างข้อความแบบขนาน

โมเดล AI ส่วนใหญ่ถูกออกแบบมาให้เป็นแบบออโตเรเกรสซีฟ โดยสร้างข้อความจากซ้ายไปขวาทีละโทเค็น DiffusionGemma มีความใกล้เคียงกับโมเดลสร้างภาพมากกว่า คือเริ่มจากภาพนิ่ง แล้วค่อยทำให้ภาพ “เดนอยส์” (denoise) เพื่อสร้างคอนเทนต์ที่ต้องการ โมเดลนี้จะให้ฟิลด์ของโทเค็นตัวแทนวิ่งทับ “ผืนผ้าใบ” (canvas) หลายครั้งเพื่อสร้างโทเค็นที่มีแนวโน้มเป็นไปได้ แล้วใช้ผลนั้นเพื่อปรับการประมาณของโทเค็นอื่น ๆ ในตอนท้ายของกระบวนการ โมเดลจะสรุปผลลัพธ์ของโทเค็นทั้งหมดลงใน “บล็อก” ขนาดใหญ่เพียงครั้งเดียว—เป็นข้อความที่ผ่านการเดนอยส์บนผืนผ้าใบ

DiffusionGemma เป็นโมเดล Mixture of Experts (MoE) ที่มีพารามิเตอร์รวม 26 พันล้านพารามิเตอร์ แต่ในระหว่างการอินเฟอเรนซ์จะมีการ “เปิดใช้งาน” เพียง 3.8 พันล้าน นั่นหมายความว่ามันควรจะพอดีกับหน่วยความจำ RAM 18GB ของ GPU ระดับท็อป วิธีการสร้างข้อความนี้ย้ายคอขวดจากแบนด์วิดท์หน่วยความจำไปสู่การคำนวณ ทำให้สร้างได้สูงสุด 256 โทเค็นแบบขนาน

โมเดลทำได้ 700-1000+ โทเค็นต่อวินาทีในทุกชุดฮาร์ดแวร์ที่ทดสอบ

ในการทดสอบกับ RTX 5090 DiffusionGemma ทำออกมาราว 700 โทเค็นต่อวินาที เมื่อใช้ตัวเร่ง AI Nvidia H100 เพียงตัวเดียว DiffusionGemma สามารถสร้างได้ 1,000+ โทเค็นต่อวินาที นี่เทียบเท่ากับความเร็วเอาต์พุตประมาณ 4 เท่าของโมเดลออโตเรเกรสซีฟ Gemma ที่มีขนาดใกล้เคียงกัน

DiffusionGemma แสดงข้อได้เปรียบในการแก้งานแบบไม่เชิงเส้น

Google ระบุว่าสิ่งนี้ช่วยเพิ่มประสิทธิภาพแบบวัดได้ในงานที่ไม่เชิงเส้น เช่น การแก้ไขในบรรทัด (in-line editing) การเรียงลำดับโมเลกุล (molecular sequencing) และการวาดกราฟคณิตศาสตร์ DiffusionGemma ถูกปรับจูนมาเพื่อแก้ปัญหา Sudoku ซึ่งเป็นงานที่ท้าทายอย่างยิ่งสำหรับโมเดล AI แบบออโตเรเกรสซีฟมาตรฐาน เพราะโทเค็นแต่ละตัวขึ้นอยู่กับโทเค็นในอนาคต ความสามารถของ DiffusionGemma ในการแก้ไขตัวเองอย่างต่อเนื่องสำหรับชุดโทเค็นจำนวนมากจึงทำให้ง่ายขึ้น

FAQ

DiffusionGemma คืออะไร และแตกต่างจากโมเดล AI อื่นอย่างไร?

DiffusionGemma คือโมเดล AI แบบโอเพนใหม่จาก Google DeepMind ที่ใช้สถาปัตยกรรมแบบแพร่กระจายเพื่อสร้างข้อความแบบขนานแทนการทำทีละขั้นตามลำดับ ไม่เหมือนโมเดลออโตเรเกรสซีฟที่สร้างข้อความทีละโทเค็นจากซ้ายไปขวา DiffusionGemma จะเริ่มจากโทเค็นตัวแทนและค่อย ๆ ปรับแก้ในหลายรอบ ก่อนจะสรุปบล็อกข้อความทั้งหมดพร้อมกัน คล้ายกับวิธีที่โมเดลสร้างภาพทำการเดนอยส์ภาพนิ่งให้กลายเป็นภาพที่สอดคล้องกัน

DiffusionGemma เร็วแค่ไหนเมื่อเทียบกับโมเดลตระกูล Gemma อื่น?

DiffusionGemma สร้างได้ราว 700 โทเค็นต่อวินาทีบน GPU RTX 5090 และมากกว่า 1,000 โทเค็นต่อวินาทีบนตัวเร่ง AI Nvidia H100 เพียงตัวเดียว นี่คิดเป็นความเร็วเอาต์พุตประมาณ 4 เท่าของโมเดลออโตเรเกรสซีฟ Gemma ขนาดใกล้เคียงกัน ขณะเดียวกันก็ยังพอดีกับการจัดสรรหน่วยความจำ RAM 18GB ของ GPU ผู้บริโภคระดับท็อป ด้วยสถาปัตยกรรม Mixture of Experts ที่มีพารามิเตอร์รวม 26 พันล้าน และมีการเปิดใช้งานเพียง 3.8 พันล้านระหว่างการอินเฟอเรนซ์

DiffusionGemma ทำงานประเภทไหนได้ดีกว่า?

Google ระบุว่า DiffusionGemma ให้ประสิทธิภาพที่ดีขึ้นแบบวัดได้ในงานที่ไม่เชิงเส้น รวมถึงการแก้ไขในบรรทัด การเรียงลำดับโมเลกุล การวาดกราฟคณิตศาสตร์ และการแก้ปัญหา Sudoku ความสามารถในการแก้ไขตัวเองอย่างต่อเนื่องของโมเดลสำหรับชุดโทเค็นจำนวนมากทำให้เหมาะเป็นพิเศษสำหรับงานที่โทเค็นแต่ละตัวขึ้นอยู่กับโทเค็นในอนาคต ซึ่งโดยทั่วไปเป็นงานที่ท้าทายอย่างมากสำหรับโมเดล AI แบบออโตเรเกรสซีฟมาตรฐาน

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น