stock.page.title | Gate.com

฿0

+฿0(0.00%)

No data

data.updated

v2.stock.overview v2.daily.trading v2.range.52w

key.stats

pe.ratio0.00

div.yield0.00%

shares.out0.00

trending

MUMicron Technology

฿454.75-1.38%

INTC

NVDA

฿195.55-0.35%

TSLA

฿366.77+0.21%

MSFT

฿396.68+0.59%

STZ

฿164.63+0.10%

stock.faq

stock.price

x

current.stats

52w.range.q

x

pe.ratio.q

x

market.cap.q

x

eps.recent.q

x

buy.sell.q

x

price.factors

x

buy.how

x

risk.warn

risk.notice

disclaimer2

risk.disclosure

other.markets

กระทู้ร้อนแรงเกี่ยวกับ DEEPEXI TECH 01384.HK (DEEPTECH)

SadMoneyMeow

04-08 04:36

![](https://img-cdn.gateio.im/social/moments-c195308574-89cf3f53e2-8b7abd-badf29) บริษัท Dip Technology (01384) เพิ่มขึ้นมากกว่า 17% ระหว่างวัน และ ณ เวลาเผยแพร่ข่าว หุ้นขึ้น 11.08% โดยอยู่ที่ 32.48 ดอลลาร์ฮ่องกง มูลค่าการซื้อขาย 8Bดอลลาร์ฮ่องกง ผลการดำเนินงานประจำปี 2025 ของ Dip Technology แสดงให้เห็นว่า รายได้ทั้งปีเพิ่มขึ้นอย่างมาก 70.8% เมื่อเทียบกับปีก่อน ขณะที่ผลขาดทุนสุทธิแบบปรับปรุงลดลงอย่างมีนัยสำคัญ 71.4% และคุณภาพการดำเนินงานดีขึ้นอย่างชัดเจน สิ่งที่น่าจับตาคือ รายได้จากโซลูชันปัญญาประดิษฐ์ระดับองค์กรของ FastAGI พุ่งขึ้นสู่ 254 ล้านหยวน เพิ่มขึ้น 181.5% เมื่อเทียบกับปีก่อน กลายเป็นแหล่งรายได้อันดับหนึ่ง ซึ่งเป็นสัญญาณว่ากลไกธุรกิจได้เปลี่ยนไปสู่โซลูชันด้าน AI ได้สำเร็จแล้ว นอกจากนี้ Dip Technology ยังได้เปิดตัวกลยุทธ์ผลิตภัณฑ์ใหม่ โดยนำส่วนประกอบทั้งสามอย่างของแพลตฟอร์มการหลอมรวมข้อมูลระดับองค์กร FastData แพลตฟอร์มเอเจนต์อัจฉริยะระดับองค์กร FastAGI และโมเดลภาษาระดับองค์กร Deepexi มาบูรณาการอย่างลึกซึ้ง และอัปเกรดเป็น “DeepexiOS” ระบบปฏิบัติการระดับองค์กรสำหรับยุค AI ตำแหน่งหลักของผลิตภัณฑ์ของบริษัทก็เปลี่ยนจากการให้ “โซลูชัน Data+AI” เป็น “แพลตฟอร์มพื้นฐานสำหรับพนักงานดิจิทัลขององค์กรในยุค AI” (ผู้เรียบเรียง: หลิวฉาง) 【คำชี้แจงสิทธิ์】บทความนี้แสดงถึงมุมมองของผู้เขียนแต่เพียงผู้เดียว และไม่มีส่วนเกี่ยวข้องกับ Hexun เว็บไซต์ Hexun ยังคงความเป็นกลางต่อข้อความ คำเห็น และการตัดสินใจต่างๆ ที่ปรากฏในบทความ และไม่ให้คำรับประกันใดๆ ทั้งโดยชัดแจ้งหรือโดยนัยเกี่ยวกับความถูกต้อง ความน่าเชื่อถือ หรือความครบถ้วนของเนื้อหาที่รวมอยู่ในบทความนี้ โปรดผู้อ่านใช้เพื่อเป็นข้อมูลอ้างอิงเท่านั้น และรับผิดชอบแต่เพียงผู้เดียวสำหรับความเสี่ยงทั้งหมด อีเมล: news_center@staff.hexun.com

0

0

0

0

LightningPacketLoss

LightningPacketLoss

04-07 17:06

รายงานจากเว็บไซต์ China Securities News ของ Shanghai Securities News (โดยผู้สื่อข่าว ซุน เสี่ยวเฉิง) เมื่อเร็วๆ นี้ FaceWall AI ได้เสร็จสิ้นการระดมทุนรอบใหม่ มูลค่าหลายร้อยล้านหยวน โดย Shenzhen Innovation Investment Group (ShenZhen Capital) และ บริษัท Huichuan Industrial Investment ได้เป็นผู้นำในการลงทุนร่วมกัน ส่วน Daohe Long-term Investment, Guotai Junan Innovation Investment และ WuYueFeng Kechuang เป็นต้น เข้าร่วมลงทุนตาม ตั้งแต่ต้นปีนี้ FaceWall AI ได้เสร็จสิ้นการระดมทุนรอบหนึ่งที่มี China Telecom เป็นผู้นำ คาดว่าในไตรมาสแรก มูลค่าการระดมทุนรวมจะเกิน 1Bหยวน ในช่วงหนึ่งปีที่ผ่านมา FaceWall AI ได้ทยอยเสร็จสิ้นการระดมทุน 3 ครั้งติดต่อกัน โดยดึงดูดสถาบันการลงทุนชื่อดังจำนวนมาก รวมถึง Jinguo Rui, กองทุน Moutai, Longxin Venture Capital, China Merchants Porsche และอื่นๆ ให้เข้ามาลงเดิมพัน

0

0

0

0

MaticHoleFiller

MaticHoleFiller

04-05 22:45

> 　　เล่นหุ้นดูที่รายงานวิเคราะห์ของนักวิเคราะห์ Jin Qilin เถอะ น่าเชื่อถือ มีความเป็นมืออาชีพ ทันเวลา ครอบคลุม ช่วยคุณค้นหาโอกาสของธีมที่มีศักยภาพ! （แหล่งที่มา：DeepTech 深科技） เขียนฟังก์ชันขึ้นมาได้—AI แทบจะเอาชนะได้อยู่แล้ว; แต่ทำไมการดูแลระบบหนึ่งทั้งระบบถึงเริ่มพัง? ปัจจุบัน ปัญญาประดิษฐ์ได้เข้าสู่ “ครึ่งหลัง” แล้ว ด้วยความสามารถในการเขียนโค้ดของ AI ที่พัฒนาขึ้นอย่างต่อเนื่อง ผลิตภัณฑ์อย่าง OpenClaw ค่อย ๆ เริ่มมีขึ้น “CLI everything” กำลังกลายเป็นจริง คือ AI ไม่จำเป็นต้องใช้งานคอมพิวเตอร์ แต่จะเปลี่ยนอินเทอร์เฟซทั้งหมดให้เป็นรูปแบบอินเทอร์เฟซบรรทัดคำสั่ง (CLI) ทักษะทีละอย่างก็กำลังแปลงเป็นฟังก์ชันของซอฟต์แวร์ ตอนนี้ Agent ไม่ใช่แค่เครื่องมือสนทนาเพื่อทำงานครั้งเดียวอีกต่อไป แต่กำลังพัฒนาไปสู่ระบบที่ดำเนินงานระยะยาว มีปฏิสัมพันธ์กับโลกจริง และทำงานที่ซับซ้อน อย่างไรก็ตาม ปัญหาใหม่ก็เกิดขึ้น: ในการพัฒนาอย่างต่อเนื่อง AI จะสามารถปรับตัวให้เข้ากับสภาพแวดล้อมใหม่ ๆ และรักษาความสามารถในการพัฒนาให้คงเสถียรได้หรือไม่? Yao Shunyu นักวิทยาศาสตร์ AI หัวหน้าของ “สำนักงาน CEO/ประธานเจ้าหน้าที่บริหาร” ของ Tencent เคยกล่าวไว้ในบล็อกที่มีชื่อว่า “The Second Half” ว่างานเขียนโค้ดในโลกจริงเป็นงานที่ขึ้นอยู่ต่อเนื่องกัน ไม่ใช่แบบขนานโดยอิสระ แต่ในเวลานี้ แวดวงวิชาการยังไม่มีเกณฑ์มาตรฐานแบบนั้นเพื่อประเมินความสามารถที่ AI ต้องมีในสถานการณ์ดังกล่าว และแม้กระทั่งขาดความกล้าพอที่จะทำลายสมมติฐานว่า “งานต่างกันเป็นอิสระต่อกัน”—ซึ่งเป็นที่ยอมรับกันอย่างกว้างขวางมายาวนาน ใช้เพื่อทำให้ง่ายต่อการจัดการปัญหา ไม่นานมานี้ ทีมร่วมจาก University of Southern California สหรัฐฯ, University of California Riverside, Stanford University, Princeton University, OpenHands และอื่น ๆ ได้เผยแพร่ชุดเกณฑ์ประเมินใหม่ EvoClaw เพื่อเสนอทางออกใหม่ต่อปัญหาข้างต้น ทีมวิจัยสกัดประวัติวิวัฒนาการของโค้ดที่มีคุณภาพสูงจากโปรเจกต์โอเพนซอร์ส เพื่อให้ Agent สามารถทำซ้ำหลายสิบรอบของการวนปรับปรุงฟังก์ชันที่ “ขึ้นต่อกัน” ภายในคลังโค้ดเดียวกันอย่างต่อเนื่อง ผลลัพธ์แสดงให้เห็นว่า AI ระดับท็อปทำคะแนนได้ดีมากในงานประเมินแบบแยกเดี่ยว (คะแนน 80%+); แต่พอเข้าสู่สถานการณ์โลกจริงที่มีระยะยาว แม้แต่ Claude Opus 4.6 ที่ได้คะแนนรวมสูงสุด ก็ได้เพียง 38.03% เท่านั้น นี่หมายความว่า AI มักจะหลุดออกจากเส้นทางเมื่อทำงานที่มีอิสระในการกระทำมาก ทำให้ยังห่างไกลอย่างชัดเจนจากความสามารถในการรับมือกับงานวิวัฒนาการซอฟต์แวร์ระยะยาวที่ต่อเนื่องได้จริง （แหล่งที่มา：arXiv） การศึกษานี้เปิดเผยว่า ในการวิวัฒนาการระยะยาว AI มีแนวโน้มสูงที่จะติดกับ “หนี้เทคนิคที่พอกพูนเป็นลูกโซ่” แม้จะสามารถเพิ่มฟังก์ชันใหม่ได้อย่างต่อเนื่อง แต่กลับควบคุมการสะสมของข้อผิดพลาดที่ย้อนกลับมาได้ไม่ได้ สุดท้ายทำให้ระบบหลุดการควบคุม นี่ก็หมายความว่า การเขียนโปรแกรมของ AI กำลังเปลี่ยนจาก “การเขียนโค้ด” ไปสู่ “การกำกับดูแลระบบ” บทความที่เกี่ยวข้องมีชื่อว่า 《EvoClaw：Evaluating AI Agents on Continuous Software Evolution》（EvoClaw：Evaluating AI Agents on Continuous Software Evolution）เผยแพร่ในช่วงนี้บนเว็บไซต์พรีปรินต์ arXiv[1]。 รูป丨บทความที่เกี่ยวข้อง（แหล่งที่มา：arXiv） การประเมินการเขียนโค้ดของ AI ในปัจจุบันกับประสบการณ์จริงไม่สอดคล้องกัน—ปัญหาอยู่ตรงไหน? เหตุใดโมเดลชั้นนำที่ได้คะแนนสูงในแบบประเมินแยกเดี่ยวถึงกลับล้มระเนระนาดพร้อมกันในแบบทดสอบ EvoClaw? รากของปัญหาอยู่ที่ “กระบวนทัศน์การประเมินได้เปลี่ยนไป” ในการวิจัยก่อนหน้านี้ เกณฑ์ประเมินมาตรฐานสำหรับการเขียนโปรแกรม (benchmark) หลัก ๆ มักโฟกัสงานที่แยกจากกัน: ให้หัวข้อหนึ่ง (issue) หรือคำขอเปลี่ยนแปลง (PR, Pull Request) แล้วโมเดลจะแก้ไขบนสแนปช็อตโค้ดแบบสถิต ตรวจผ่านก็ถือว่าจบการประเมิน แต่ระหว่างผลคะแนนของ benchmark ในอดีตกับความสามารถในการพัฒนาในโลกจริง ยังมีช่องว่างที่มองข้ามไม่ได้: สภาพแวดล้อมแบบสถิตเป็นภาวะที่ค่อนข้าง “เหมาะสมในอุดมคติ” ส่วนสภาพแวดล้อมจริงกลับซับซ้อนและเปลี่ยนแปลงได้มากกว่า เมื่อเวลาผ่านไป แม้เพียงบั๊กเล็ก ๆ เมื่อไม่กี่เดือนก่อน หากผ่านการอัปเดตเวอร์ชันไปเรื่อย ๆ ก็อาจจะพอกพูนเหมือนลูกบอลหิมะ จนทำให้ระบบพังได้ในที่สุด （แหล่งที่มา：arXiv） ผู้เขียนคนแรกของบทความนี้ 邓港大 นักศึกษาปริญญาเอกจาก University of Southern California กล่าวกับ DeepTech ว่า: “ขนาดความละเอียดของ commit และ release ในปัจจุบัน ไม่ว่าจะเล็กเกินไปหรือใหญ่เกินไป ดังนั้นประวัติการพัฒนาเหล่านี้จึงไม่สามารถสะท้อนกระบวนการวิวัฒนาการของซอฟต์แวร์ได้” รูป丨邓港大（แหล่งที่มา：ผู้ให้สัมภาษณ์） ทีมวิจัยเป็นกลุ่มแรกที่นำมิติของ “เวลา” เข้าไปในระบบประเมินความสามารถการเขียนโปรแกรมของ AI โดยใช้ระดับชั้นใหม่—Milestone—เพื่อสร้างโครงสร้างประวัติวิวัฒนาการของซอฟต์แวร์ขึ้นใหม่ ทำให้เป็นหน่วยฟังก์ชันที่คงความสมบูรณ์เชิงความหมายไว้ได้ และยังคงความสามารถในการรักษาความสัมพันธ์การพึ่งพาระหว่างการวิวัฒนาการได้อีกด้วย สิ่งนี้กำหนดให้ AI ต้องทำหลายหน่วยฟังก์ชันในลำดับเดียวกันให้เสร็จบนคลังโค้ดเดียวกัน ซึ่งไม่เพียงแค่คงผลผลิตของแต่ละขั้นไว้ แต่ยังกลายเป็น “จุดเริ่มต้น” ของขั้นถัดไปด้วย （แหล่งที่มา：arXiv） เพื่อสนับสนุนการสกัดประวัติวิวัฒนาการของซอฟต์แวร์ที่มีคุณภาพสูงจากคลังโค้ดโอเพนซอร์สจำนวนมาก นักวิจัยจึงอาศัยความสามารถอันแข็งแกร่งของ AI ชั้นนำ เสนอชุดไปป์ไลน์อัตโนมัติที่ขับเคลื่อนด้วย Agent ชื่อ DeepCommit ซึ่งเป็นครั้งแรกที่ทำให้การบันทึกการพัฒนาด้วย Git ที่ยุ่งเหยิงถูก “จัดโครงสร้างใหม่” ให้เป็นกราฟพึ่งพา Milestone ที่ตรวจสอบได้และมีความเป็นหนึ่งเดียวด้านฟังก์ชัน (Milestone DAG) และยังสร้างสภาพแวดล้อมการประเมินสำหรับ Milestone แต่ละตัวด้วย โดยรวมมี 3 ขั้นตอน ได้แก่ การประมวลผลประวัติ Git ล่วงหน้า การสร้างกราฟ DAG แบบขับเคลื่อนด้วย Agent และการตั้งค่า/ตรวจสอบสภาพแวดล้อมของ Milestone ในความเป็นจริง การใช้ Milestone มาจัดโครงสร้างใหม่ให้กับวิวัฒนาการประวัติของ Agent นั้นไม่ใช่เรื่องง่าย เพราะมันไม่ได้เป็นแค่การสร้าง DAG แบบสถิติที่ “สังเกตได้ล้วน ๆ” เท่านั้น แต่ต้องสร้างสภาพแวดล้อมการประเมินที่ “สามารถรันและดำเนินการได้” ต่อเนื่องหลายชุด และในขณะเดียวกันก็ต้องรับประกันความถูกต้องเมื่อมีการเปลี่ยนแปลงความสัมพันธ์การพึ่งพาระหว่างการวิวัฒนาการ นั่นหมายความว่า เมื่อทำสับเปลี่ยนลำดับ commit ทั้งหมด แล้วจัดกลุ่มใหม่แล้วเชื่อมต่อกัน อาจเผชิญกับสถานการณ์ที่ commit ใช้ไม่ได้ ข้อมูลอินเทอร์เฟซไม่ตรงกัน และเกิดข้อผิดพลาดในการคอมไพล์เป็นวงกว้าง สำหรับปัญหานี้ นักวิจัยจึงออกแบบวงจรการแก้ไขแบบวนซ้ำ: Agent วิเคราะห์บันทึกข้อผิดพลาดอย่างเชิงรุก ปรับเปลี่ยน Dockerfile แบบไดนามิก เพื่อให้รันได้ สิ่งที่สำคัญยิ่งกว่านั้น คือมันจะเติมเต็ม implicit dependencies ที่ถูกละเลยจาก DAG เดิม ผ่านการปรับความสัมพันธ์ข้อกำหนดของลำดับก่อน-หลังของ Milestone เพื่อให้ปัญหาความขัดแย้งของอินเทอร์เฟซได้รับการแก้ไขอย่างเหมาะสม หลังจากวนซ้ำหลายครั้ง ในที่สุดก็สามารถเก็บรวบรวมเคสทดสอบเดิมได้อย่างถูกต้องถึง 87.1% “เมื่อเทียบกับสถานการณ์การเขียนโปรแกรมสำหรับงานเดี่ยว ความสนใจด้านงานวิจัยที่ล้ำหน้ากว่าอยู่ที่การเขียนโปรแกรมแบบอิสระระยะยาวที่มีความเสถียร เชื่อถือได้ และได้ผล เช่น Anthropic, OpenAI ได้แสดงไว้อย่างชัดเจนว่าพวกเขาย้ายจุดเน้นไปที่ความสามารถการเขียนโปรแกรมระยะยาวของโมเดลที่กำลังฝึก” 邓港大 กล่าว รูป丨แผนภาพสถาปัตยกรรมไปป์ไลน์ของ DeepCommit（แหล่งที่มา：arXiv） นักวิจัยนำแผนภาพวิวัฒนาการที่ DeepCommit สร้างอัตโนมัติขึ้นมา ไปเปรียบเทียบกับการทำ annotation ด้วยมือของผู้เชี่ยวชาญมนุษย์ สิ่งที่ทำให้พวกเขาประหลาดใจคือ ทั้งสองฝ่ายใช้ตรรกะการจัดระเบียบที่แตกต่างกัน และต่างฝ่ายต่างเสริมกันได้ โดยเฉพาะอย่างยิ่ง ผู้เชี่ยวชาญมนุษย์ Milestone ของมักอยู่ในช่วงหน้าต่างเวลาเฉพาะที่ กำหนดประเด็นก่อนแล้วค่อยจัดรวม commit เป็นลักษณะของการแบ่งเชิงความหมายแบบบนลงล่าง; ส่วน DeepCommit เพื่อรับประกันความถูกต้องอย่างแท้จริง จึงเริ่มจากความสัมพันธ์การพึ่งพาระหว่างการส่ง (commit) สร้างใหม่สายธารวิวัฒนาการของซอฟต์แวร์แบบล่างขึ้นบน โดยเน้นโครงสร้างเชิงโทโปโลยีและข้อจำกัดในการรันมากกว่า สำหรับการประเมิน ข้อนี้ยิ่งแสดงให้เห็นว่า จุดสำคัญของ DeepCommit อยู่ที่การสกัดโครงสร้าง Milestone ที่ “รันได้และตรวจสอบได้” ออกจากประวัติการพัฒนาโค้ด จากผลลัพธ์ DeepCommit สามารถคัดเลือก Milestone งานที่มีคุณภาพสูงและเหมาะสำหรับการประเมิน และทำให้สามารถรันและตรวจสอบได้ในสภาพแวดล้อมจริง ซึ่งมอบการรับประกันต่อความน่าเชื่อถือของการประเมิน พอเข้าสู่การพัฒนาในโลกจริง ทำไมคะแนนของโมเดลถึง “ครึ่งหนึ่ง” พร้อมกัน? EvoClaw ครอบคลุม 5 ภาษาแนวหลัก ได้แก่ Python, Java, Go, Rust และ TypeScript โดยโปรเจกต์ที่เลือกครอบคลุมวงจรการพัฒนาระยะยาวที่สุดในโลกจริงถึง 750 วัน ในด้านตัวชี้วัดการประเมิน ทีมวิจัยไม่ได้ใช้แค่ “อัตราผ่าน” แบบง่าย ๆ แต่ได้นำสองมิติที่แกนหลักกว่า—Recall และ Precision—พร้อมการถ่วงน้ำหนักด้วย F1 มาเป็นคะแนนสำหรับ Milestone แต่ละตัว โดย Recall ใช้เพื่อวัดความครบถ้วนของการทำให้ฟังก์ชันสำเร็จ ส่วน Precision ใช้เพื่อจับระดับที่โมเดลทำลายโค้ดเดิมเมื่อเพิ่มฟังก์ชันใหม่ ทีมวิจัยทดสอบชุดเฟรมเวิร์กและโมเดลหลายแบบ เช่น Claude Code, OpenHands และอื่น ๆ ผลลัพธ์แสดงว่า ในการประเมินแบบแยกเดี่ยว คะแนนของโมเดลชั้นนำมักอยู่ที่ 80%-90% แต่พอทำการทดสอบเกณฑ์มาตรฐาน EvoClaw แล้ว คะแนนลดลงแบบฮวบพร้อมกัน โดย Claude Opus 4.6 ที่ได้คะแนนสูงสุดได้เพียง 38.03% เท่านั้น รูป丨ผลการทดลองหลักของ EvoClaw（แหล่งที่มา：arXiv） GPT 5.3 Codex ได้คะแนนรวม 28.88% ตามหลัง Opus4.6 และอยู่ในอันดับสอง เมื่อดูแยกตามคลังเก็บ (repository) พบว่า GPT 5.3 Codex ทำผลงานได้ค่อนข้างอ่อนในโปรเจกต์ Rust สองตัว (Nushell, ripgrep) แต่ในคลังเก็บอื่น ๆ จะทำได้ใกล้เคียงหรือแม้กระทั่งสูงกว่า Opus4.6 ในด้านการแก้ไขให้ครบตามเป้าหมาย คะแนนสูงสุดคือ Gemini 3 Pro ยังได้เพียง 13.37% และส่วนใหญ่ที่ทำได้ถูกต้องคือ “งานที่ไม่มีการพึ่งพาล่วงหน้า” ตามที่ทราบกัน นักวิจัยควบคุมค่าใช้จ่ายรวมให้อยู่ในกรอบที่เหมาะสม ตัวอย่างเช่น สำหรับ Claude Opus 4.5 การทำการประเมินแบบครบชุดหนึ่งครั้งมีค่าใช้จ่ายประมาณ 500 ดอลลาร์ ส่วน Kimi K2.5 และ Gemini 3 Flash อยู่ภายใน 50 ดอลลาร์ และค่าใช้จ่ายของโมเดลขนาดเล็กจะยิ่งต่ำลง （แหล่งที่มา：arXiv） ดังนั้น หากให้โมเดลมีหน้าต่างสำหรับการพัฒนาที่ยาวขึ้น มันจะสามารถทำโปรเจกต์ให้เสร็จได้ 100% ในที่สุดหรือไม่? งานวิจัยตอบกลับแบบปฏิเสธ: ไม่ว่ายิ่งขยายหน้าต่างการพัฒนาไปนานแค่ไหน ผลลัพธ์ของโมเดลทุกตัวสุดท้ายก็จะชน “เพดาน” ในเชิงปฏิบัติ ยิ่งลำดับการทำงานอยู่หลังมากเท่าไร และยิ่งอยู่ในระดับชั้นของ DAG ลึกมากเท่าไร คะแนนและอัตราแก้สำเร็จก็ยิ่งต่ำลง การคาดการณ์แบบนอกเหนือจากฟังก์ชันที่อิ่มตัว (saturated function extrapolation) ยืนยันว่า แม้แต่ Opus 4.6 ที่ดีที่สุด คะแนนสะสมก็ถูกจำกัดให้ค้างอยู่แถว ๆ เส้นเชิงโค้งลู่เข้าใกล้ 45% “แม้ว่าในหน้าเว็บทางการของ Anthropic จะระบุว่า Opus 4.6 ทำได้ดีกว่า 4.5 ในงานระยะยาว แต่ก็ไม่ได้ให้ตัวชี้วัดการประเมินอย่างละเอียด EvoClaw จึงเป็นการยืนยันคำกล่าวนั้นจากอีกมุมหนึ่ง” 邓港大 กล่าว นอกจากนี้ ในการทดลองยังเห็นความแตกต่างอย่างชัดเจนระหว่างตระกูลโมเดลต่าง ๆ โดยเฉพาะ คือ ผลงานของ Claude และ GPT ในฉากการวิวัฒนาการอย่างต่อเนื่อง จะดีขึ้นอย่างสม่ำเสมอตามการอัปเดตเวอร์ชัน Opus 4.6 ในการเขียนโปรแกรมระยะยาวได้พิสูจน์ว่ามีประสิทธิภาพด้านการดูแลรักษาระบบที่ดีที่สุด; ส่วน GPT 5.3 ลดคะแนนลงเพราะทำได้ไม่ดีในชุดข้อมูล Rust จึงอยู่ในอันดับสอง （แหล่งที่มา：arXiv） สิ่งที่น่าประหลาดยิ่งกว่าคือ ตระกูล Gemini มีแนวโน้มที่แตกต่างโดยสิ้นเชิง: จาก 3 Flash ไปเป็น 3 Pro ไปเป็น 3.1 Pro แต่ละรุ่นเริ่มทำงานได้เร็วขึ้นในช่วงต้น และช่วงก่อนหน้ากลับทำผลงานได้ดีกว่า แต่ผลงานระยะไกลแทบไม่มีการปรับปรุงอย่างมีนัยสำคัญ 邓港大 อธิบายว่า: “การถดถอยที่เห็นได้ชัดของการรันระยะยาวของ Gemini แปลว่า มันไม่ได้แค่ทำตามคำสั่งได้แย่ลงและเริ่มละเลยความต้องการของ Software Requirements Specification (SRS) มากขึ้นเรื่อย ๆ แต่ยังขาดการดูแลรักษาระบบซอฟต์แวร์ที่ถูกสร้างขึ้นอีกด้วย” เมื่อทีมวิจัยแยกคะแนนรวมออกเป็น Recall และ Precision อีกครั้ง ก็เกิดปรากฏการณ์ที่น่าสนใจยิ่งขึ้น: Recall เกือบจะมีแนวโน้มเพิ่มขึ้นอย่างต่อเนื่องและเข้าใกล้การเติบโตแบบเส้นตรง นี่หมายความว่า แม้คลังโค้ดจะยิ่งวุ่นวาย ยิ่งเปราะบางกว่าเดิม แต่ Agent ก็ยังเก่งในการทำให้ฟังก์ชันเป้าหมายใหม่ที่ได้รับมอบหมายในขณะนั้นสำเร็จ คอขวดที่แท้จริงอยู่ที่ Precision: Agent ยากต่อการดูแลรักษาระบบที่มีอยู่ ความเร็วในการย้อนกลับมาสะสมข้อผิดพลาดมากกว่าความสามารถในการแก้ไขปัญหาเหล่านั้น และนี่คือสาเหตุพื้นฐานที่ทำให้การพัฒนาในระยะยาวท้ายที่สุดหยุดชะงัก รูป丨ซ้าย：ภาพประกอบห่วงโซ่ข้อผิดพลาด；ขวา：การกระจายของห่วงโซ่ข้อผิดพลาด（แหล่งที่มา：arXiv） เพื่อทำความเข้าใจเหตุผลพื้นฐานที่ทำให้โมเดลหลุดการควบคุมระหว่างการทำซ้ำ ทีมวิจัยจึงเสนอกรอบการวิเคราะห์ของ Error Chains พวกเขาติดตามทุกการทดสอบตั้งแต่ครั้งแรกที่เกิดข้อผิดพลาด และสังเกตว่า ข้อผิดพลาดถูกสืบทอดใน Milestone ถัดไป กระจายต่อ ข้ามไป หรือถูกแก้ไขหรือไม่ ผลพบว่า ความเร็วในการเกิดปัญหาใหม่ไม่ได้เพิ่มขึ้น โมเดลแม้กระทั่งจะซ่อมแซมข้อผิดพลาดบางส่วนจากประวัติได้อย่างเป็นรูปธรรมในเชิงรับ แต่ความเร็วในการสะสมข้อผิดพลาดตั้งแต่ขั้นก่อนหน้าสูงกว่าความเร็วในการซ่อมแซม จนสุดท้ายตกอยู่ในภาวะ “ล้มละลายเพราะหนี้เทคนิค” สำหรับการดีบักของ AI Harness ให้มีกรอบประเมินทั่วไป เมื่อไม่นานมานี้ แนวคิดที่กำลังฮิตมาก “Harness Engineering” มุ่งหวังที่จะจัดคอนฟิกซ์กระบวนการทั้งหมดของการพัฒนาซอฟต์แวร์ให้เป็นสภาพแวดล้อมที่เหมาะสำหรับ Agent EvoClaw benchmark จึงให้ playground แบบทั่วไปและเหมาะต่อการดีบัก/ประเมินการวิวัฒนาการโค้ดระยะยาว ตัวอย่างเช่น เคสความล้มเหลวที่กล่าวถึงในการศึกษาครั้งนี้ หาก Agent แสดงการวนแก้ไขอย่างกระตือรือร้นทันที หรือแก้ไขไม่หยุดแล้วตรวจสอบไม่หยุดอยู่ตลอด นั่นมีโอกาสสูงว่า Agent กำลังเจอปัญหา ในกรณีเช่นนี้ สามารถสร้าง guardrails ณ ตำแหน่งที่เกี่ยวข้องเพื่อค้นหาปัญหาได้เร็วและให้มนุษย์เข้ามาแทรกแซงอย่างทันท่วงที ซึ่งจะช่วยเพิ่มประสิทธิภาพ เนื่องจากโครงสร้างของโมเดลทำให้ Agent มีคุณสมบัติแบบทั่วไปที่ “ทำฟีเจอร์ใหม่ได้ดีกว่าการดูแลฟีเจอร์เก่าระยะยาว” แล้ว ในอนาคตจะเกิดรูปแบบซอฟต์แวร์และรูปแบบการพัฒนารูปแบบใหม่หรือไม่? ตัวอย่างเช่น ซอฟต์แวร์จะให้ความสำคัญกับความยืดหยุ่น ความเข้ากันได้มากขึ้น การปรับโครงสร้างขนาดใหญ่ที่เชื่อถือได้มากขึ้น หรืออาจจะเป็นแบบ “ครั้งเดียวจบ” มากขึ้น: ตรรกะทางธุรกิจเฉพาะถูกสร้างแบบเรียลไทม์ ไม่จำเป็นต้องดูแลรักษา โดยโฟกัสไปที่การเสริมความแข็งแกร่งให้กับคอมโพเนนต์ที่ใช้ซ้ำได้และโครงสร้างพื้นฐาน (infrastructure) ทีมวิจัยเชื่อว่า ในรูปแบบการพัฒนา การผ่อนคลายข้อจำกัดด้านคุณภาพซอฟต์แวร์ในระดับหนึ่งสามารถลดจำนวนครั้งที่ต้องมีการแทรกแซงของมนุษย์ เพื่อแลกกับปริมาณงานต่อหน่วยเวลาที่มากขึ้น และสุดท้ายเร่งการทำซ้ำของซอฟต์แวร์ 邓港大 ชี้ว่า “งานวิจัยนี้พิสูจน์ว่าเรากำลังเดินบนเส้นทางที่ถูกต้อง ความสามารถในการเขียนโปรแกรมระยะยาวของ AI ยังไม่เจอคอขวด สามารถพัฒนาขึ้นอย่างสม่ำเสมอตามเวลา มีศักยภาพที่วันหนึ่งอาจเกิดจากการเปลี่ยนแปลงในเชิงปริมาณของคะแนนในกระดานจัดอันดับ กลายเป็นการเปลี่ยนแปลงเชิงคุณภาพที่เปลี่ยนโลก” เมื่อเทคโนโลยีก้าวหน้า ในอนาคต AI อาจพัฒนาจากการที่มนุษย์มีส่วนร่วมในการพัฒนาซอฟต์แวร์ลดลงเรื่อย ๆ ไปสู่ AI ที่เสนอความต้องการใหม่เองเพื่อพัฒนาคลังโค้ด แล้วต่อไปจนกระทั่ง AI เหนือกว่ามนุษย์อย่างสิ้นเชิง ทิ้งมนุษย์ และสุดท้ายสามารถวิวัฒนาการตัวเองได้อย่างต่อเนื่อง เอกสารอ้างอิง： 1. บทความที่เกี่ยวข้อง： 2. โฮมเพจของโปรเจกต์： 3. การจัดรูปแบบ：Liu Ya Kun ข้อมูลข่าวปริมาณมหาศาล การตีความอย่างแม่นยำ—มีให้ในแอป Sina Finance APP

1

0

0

0