
Google DeepMind ได้เปิดตัวและทำให้ DiffusionGemma พร้อมใช้งานแบบโอเพนซอร์สอย่างเป็นทางการในวันที่ 10 มิถุนายน โดยถือเป็นสมาชิกใหม่ของตระกูลโมเดลโอเพนซอร์ส Gemma 4 DiffusionGemma ใช้สถาปัตยกรรมการสร้างข้อความแบบการแพร่ (diffusion) ผสานการออกแบบแบบผสมผู้เชี่ยวชาญ (MoE) ในบรรดาแบบทดสอบมาตรฐานที่ได้มีการเปิดเผยออกมาแล้ว คะแนนของ DiffusionGemma ล้วนต่ำกว่ามาตรฐาน Gemma 4
ตามตัวเลขที่ Google ประกาศยืนยัน:
Nvidia RTX 5090 (ระดับผู้บริโภค):ประมาณ 700 token/วินาที
Nvidia H100 (ระดับศูนย์ข้อมูล):ทะลุ 1,000 token/วินาที
อัตราทวีคูณที่ประเมินเอง:ประมาณ 4 เท่าเมื่อเทียบกับโมเดล Gemma แบบออโตเรเกรสซีฟในขนาดเดียวกัน
จำนวนพารามิเตอร์ทั้งหมด:260 ล้านล้าน? ไม่; 260 億(26B) → 260 ล้าน (26B)
จำนวนพารามิเตอร์ที่ใช้งานในการอนุมาน:38 億(3.8B) → 3.8 พันล้าน (3.8B)
ความต้องการ VRAM:สามารถรันได้บนการ์ดจอระดับสูงที่มี VRAM 18GB (โดยเฉพาะเวอร์ชันที่ทำการควอนไทซ์)
จำนวนงานแบบขนานสูงสุด:รองรับการประมวลผลพร้อมกันได้สูงสุดทีละ 256 token
ใบอนุญาต:Apache 2.0
โมเดลออโตเรเกรสซีฟมาตรฐานสร้างแบบทีละโทเคนตามลำดับ โดย token แต่ละตัวต้องอาศัยผลคำนวณจาก token ก่อนหน้า คอขวดอยู่ที่แบนด์วิดท์หน่วยความจำ—ทุกครั้งที่สร้าง token จะต้องอ่านน้ำหนักโมเดลจากหน่วยความจำหนึ่งครั้ง
กระบวนการของ DiffusionGemma แตกต่างออกไป โดยจะปู token สำหรับการทดแทนลงในพื้นที่เอาต์พุตทั้งหมดก่อน แล้วค่อยทำการดีนอยส์หลายรอบ โดยแต่ละรอบทำให้ token ในทุกตำแหน่งอัปเดตพร้อมกันและปรับแก้ซึ่งกันและกัน จนเนื้อหาทั้งก้อนค่อย ๆ บรรจบเป็นเอาต์พุตสุดท้าย วิธีคำนวณที่เน้นความเข้มของพลังประมวลผลและการทำงานแบบขนานเช่นนี้ ทำให้คอขวดเปลี่ยนจากแบนด์วิดท์หน่วยความจำไปสู่พลังประมวลผลของ GPU ทำให้ใช้ความสามารถด้านขนานของ GPU สมัยใหม่ได้เต็มที่มากขึ้น
Google ยกตัวอย่างในเอกสารอย่างเป็นทางการว่า DiffusionGemma มีข้อได้เปรียบเชิงโครงสร้างในงานตรรกะเชิงไม่เชิงเส้นประเภทปริศนา Sudoku เพราะคำตอบที่ถูกต้องของงานลักษณะนี้มักเกี่ยวข้องกับความสัมพันธ์พึ่งพาระหว่างตำแหน่งที่ซับซ้อน ขณะที่วิธีการสร้างแบบเชิงเส้นของออโตเรเกรสซีฟถูกจำกัดโดยธรรมชาติ
ในการเผยแพร่ข้อมูล Google ยืนยันว่า ในบรรดาแบบทดสอบมาตรฐานสาธารณะที่ได้เปิดเผยออกมาแล้วทั้งหมด คะแนนของ DiffusionGemma ล้วนต่ำกว่า Gemma 4 มาตรฐาน นั่นหมายความว่า การเร่งความเร็ว 4 เท่าแลกมากับการลดลงอย่างเป็นระบบของคุณภาพการสร้าง BlockTempo ระบุว่า ข้อแลกเปลี่ยนนี้มีความหมายไม่เหมือนกันอย่างสิ้นเชิงสำหรับสถานการณ์การใช้งานต่าง ๆ: สำหรับงานที่ไวต่อความหน่วงหรือจำเป็นต้องสร้างเอาต์พุตจำนวนมาก ความได้เปรียบด้านความเร็วเป็นสิ่งที่ใช้งานได้จริง แต่สำหรับงานที่ต้องการคุณภาพสูง Gemma 4 มาตรฐานยังเชื่อถือได้มากกว่าในปัจจุบัน
Google ระบุสถานการณ์ที่เหมาะกับการใช้งานของ DiffusionGemma ไว้ เช่น การแก้ไขในบรรทัด (in-line editing), การสร้างลำดับโมเลกุล, การวาดภาพเชิงคณิตศาสตร์ และงานเชิงไม่เชิงเส้นที่เกี่ยวข้องกับความสัมพันธ์พึ่งพาด้านตรรกะที่ซับซ้อน
โมเดลออโตเรเกรสซีฟมาตรฐานสร้างแบบเชิงเส้นทีละโทเคน โดย token แต่ละตัวอาศัยผลจาก token ก่อนหน้า DiffusionGemma จะปู token สำหรับการทดแทนลงในพื้นที่เอาต์พุตทั้งหมดก่อน แล้วทำการดีนอยส์หลายรอบ โดยแต่ละรอบให้ทุกตำแหน่งอัปเดตพร้อมกัน จากนั้นจึงค่อยส่งออกทั้งช่วงที่ร่างเสร็จในครั้งเดียว ทำให้ตรรกะการสร้างมีความใกล้เคียงกับวิธีการสร้างภาพของ Stable Diffusion มากขึ้น
ตามคำอธิบายของ Google DiffusionGemma สามารถรันได้บนการ์ดจอระดับไฮเอนด์ที่มี VRAM 18GB โดยเวอร์ชันที่ทำการควอนไทซ์ยิ่งเป็นเช่นนั้น จากการทดสอบของ Google แสดงว่า Nvidia RTX 5090 ระดับผู้บริโภคทำได้ราว 700 token ต่อวินาที แต่ตัวเลขดังกล่าวเป็นการประเมินเองของ Google ไม่ใช่การยืนยันอิสระโดยบุคคลที่สาม
ยังไม่ผ่าน BlockTempo ระบุชัดเจนว่า ตัวเลขการทดสอบความเร็วทั้งหมดมาจากการทดสอบของ Google เอง ไม่ใช่การยืนยันอิสระโดยบุคคลที่สาม และในสถานการณ์ที่แตกต่างกัน รวมถึงความยาวของการสร้างที่ต่างกัน อัตราทวีคูณที่เกิดขึ้นจริงอาจต่างจากตัวเลขทางการ
news.related.news
Google DeepMind เปิดตัว DiffusionGemma พร้อมเพิ่มความเร็ว 4 เท่า สำหรับ AI ในเครื่อง
Claude Fable 5 เพิ่มกลไกตรวจจับการกลั่น โดยอัตราการทริกเกอร์ต่ำกว่า 5%
การอัปเกรดการแปลของ Google Gemini 3.5: ยุติการสะดุดของการล่ามแบบเรียลไทม์ 70 ภาษา
Anthropic เปิดตัว Claude Fable 5 พร้อมตัวจำแนกประเภท AI รุ่นแรกที่มีความสามารถ “ลดระดับ” กำแพงการป้องกันโดยอัตโนมัติ
Google ประกาศ Gemini 3.5 รองรับการแปลสดแบบถ่ายทอดด้วยเสียงสำหรับกว่า 70 ภาษา