Microsoft Research เปิดตัว Fara1.5 สัปดาห์นี้ ซึ่งเป็นโมเดล AI แบบน้ำหนักเปิด (open-weight) สำหรับงานท่องเว็บ โดยทำผลงานได้เหนือ OpenAI's Operator และ Gemini 2.5 Computer Use ในเกณฑ์มาตรฐานของอุตสาหกรรม Fara1.5-27B ทำคะแนนได้ 72% บน Online-Mind2Web ขณะที่ Operator ทำได้ 58.3% และ Gemini 2.5 Computer Use ได้ 57.3% การเปิดตัวครั้งนี้สะท้อนการเปลี่ยนแปลงภูมิทัศน์การแข่งขันของเอเจนต์การใช้งานคอมพิวเตอร์—ระบบ AI ที่ออกแบบมาให้อ่านหน้าจอบราวเซอร์และทำการต่างๆ เช่น คลิก เลื่อน และพิมพ์ โดยไม่จำเป็นต้องใช้ปลั๊กอินพิเศษ ไม่เหมือนกับ Operator แบบกรรมสิทธิ์ของ OpenAI ที่เป็นบริการบนคลาวด์ (เปิดตัวในเดือนมกราคม 2025 ในราคา 200 ดอลลาร์ต่อเดือน ก่อนจะถูกปิดในเดือนสิงหาคม) และข้อเสนอของ Google ที่ใช้ Gemini นั้น Fara1.5 เป็นโอเพนซอร์สพร้อมน้ำหนักที่เผยแพร่ต่อสาธารณะ Microsoft ทำผลงานนี้ได้ด้วยการปรับมุมคิดใหม่ตั้งแต่กระบวนการพัฒนาแบบเต็ม ตั้งแต่การสร้างข้อมูลและวัตถุประสงค์การฝึก ไปจนถึงการออกแบบโมเดลและการประสานงาน
Fara1.5 มี 3 ขนาด: 4 พันล้าน, 9 พันล้าน และ 27 พันล้านพารามิเตอร์ โดยทั้งหมดสร้างบน Qwen 3.5 ซึ่งเป็นโมเดลฐานจาก Alibaba และ Microsoft ปรับจูนเพิ่มเติมโดยเฉพาะสำหรับงานบราวเซอร์ Fara1.5-9B ซึ่งเป็นรุ่นกลาง ทำคะแนนได้ 63.4% บน Online-Mind2Web นำหน้าอีกทั้งข้อเสนอของ OpenAI และของ Google โมเดลพารามิเตอร์ 9 พันล้านพร้อมใช้งานแล้วบน Azure AI Foundry ขณะที่รุ่น 4 พันล้านและ 27 พันล้านจะเข้ามาในไม่ช้า
Online-Mind2Web ซึ่งเป็นเกณฑ์หลัก ใช้ทดสอบว่าเอเจนต์ AI ทำงานในโลกจริงที่หลากหลายจำนวน 300 งานได้สำเร็จบ่อยแค่ไหน บนเว็บไซต์ที่เป็นที่นิยมแบบไลฟ์ 136 แห่ง รวมถึงงานเปรียบเทียบสินค้า กรอกแบบฟอร์ม และบริการจอง คะแนนสะท้อนถึงงานที่ทำเสร็จอย่างถูกต้องบนอินเทอร์เน็ตจริงที่มีการเปลี่ยนแปลง
ใน WebVoyager ซึ่งเป็นเกณฑ์ที่สองที่วัดความสำเร็จของงานบนเว็บแบบไลฟ์ Fara1.5-27B ทำได้ 88.6% ขยับนำ Operator ของ OpenAI ที่ 87.0% และแซง Holo2 ของ H Company (พารามิเตอร์ 30 พันล้าน) ที่ 83.0%
คู่แข่งแบบโอเพนซอร์สทำคะแนนได้น้อยกว่า: GUI-Owl-1.5 ของ Alibaba (พารามิเตอร์ 8 พันล้าน) ทำได้ 48.6% ขณะที่ MolmoWeb ของ AI2 ทำได้ 35.3% โมเดลเดิมของ Microsoft อย่าง Fara-7B ทำได้ 34.1% นั่นหมายความว่า Fara1.5-27B ทำผลงานได้เกือบเท่าตัวเมื่อเทียบกับรุ่นก่อนหน้าในขนาดใกล้เคียง คู่แข่งแบบกรรมสิทธิ์ที่ดีที่สุดอย่าง Navigator n1 ของ Yutori ทำได้ 64.7%
Microsoft ใช้ FaraGen1.5 เพื่อสร้างข้อมูลสำหรับการฝึก โดยใช้ GPT-5.4—โมเดลของ OpenAI—เป็น “เอเจนต์ครู” เพื่อสาธิตวิธีทำงานบนบราวเซอร์ การสาธิตเหล่านี้กลายเป็นข้อมูลสำหรับการฝึกของ Fara1.5
ทีมงานยังสร้างแบบจำลองเว็บไซต์จริงที่ใช้งานได้อย่างครบถ้วนจำนวน 6 ชุด รวมถึงไคลเอนต์อีเมล ปฏิทิน และตลาดซื้อขาย การฝึกโดเมนสังเคราะห์ทำให้โมเดลฝึกทำงานที่ต้องมีการเข้าสู่ระบบหรือเป็นการกระทำที่ย้อนกลับไม่ได้ โดยไม่ต้องเข้าถึงบัญชีจริง ส่งผลให้ประสิทธิภาพดีขึ้นในงานแบบ “ต้องผ่านด่าน” (gated tasks)
ทุกโมเดลถูกออกแบบให้หยุดและถามก่อนทำการกระทำที่ย้อนกลับไม่ได้ Fara1.5 รันผ่าน MagenticLite ซึ่งเป็นสภาพแวดล้อมบราวเซอร์แบบแซนด์บ็อกซ์ที่บันทึกทุกการกระทำ และให้ผู้ใช้หยุดเอเจนต์ได้ทุกจุด ตามคำกล่าวของ Yash Lara หัวหน้า Senior PM Lead ที่ Microsoft Research “การสร้างสมดุลระหว่างมาตรการป้องกันที่แข็งแรงอย่าง Critical Points กับเส้นทางผู้ใช้ที่ลื่นไหลเป็นสิ่งสำคัญ การมี UI อย่าง Magentic-UI ของ Microsoft Research เป็นเรื่องจำเป็นเพื่อให้ผู้ใช้มีโอกาสเข้ามาแทรกแซงเมื่อจำเป็น ขณะเดียวกันก็ช่วยหลีกเลี่ยงความล้าในการขอการอนุมัติ”
Microsoft ระบุแผนจะขยาย Fara1.5 จากการทำงานในบราวเซอร์ไปสู่แอปพลิเคชันซอฟต์แวร์เดสก์ท็อปและระดับองค์กร
news.related.news
การคาดการณ์ยอดนิยมของ Polymarket: OpenAI จะเข้าจดทะเบียน IPO ในปีนี้หรือไม่?
Google เปิดตัว Gemini Omni Flash: การตัดต่อวิดีโอแบบโต้ตอบ ผสานรวม YouTube Shorts และ Google Flow
Microsoft, EY ทุ่ม $1B เพื่อขยายโครงการ AI เชิงองค์กร
Microsoft พูดถึงการจัดหาชิป Maia 200 ให้กับ Anthropic ผ่าน Azure
Blackstone-Anthropic Ventures เข้าซื้อกิจการ AI แบบแบ่งสัดส่วน