Anthropic ระบุการเปลี่ยนแปลงระดับผลิตภัณฑ์ 3 รายการที่อยู่เบื้องหลังการลดลงของคุณภาพ Claude Code ไม่ใช่ปัญหาโมเดล

ข้อความข่าวประตู วันที่ 23 เมษายน — ทีมวิศวกรรมของ Anthropic ยืนยันว่า การเสื่อมคุณภาพของ Claude Code ที่ผู้ใช้รายงานในช่วงเดือนที่ผ่านมาเกิดจากการเปลี่ยนแปลงระดับผลิตภัณฑ์จำนวน 3 รายการที่เป็นอิสระกัน ไม่ใช่ปัญหาจาก API หรือโมเดลพื้นฐาน ปัญหา 3 รายการนี้ได้รับการแก้ไขในวันที่ 7 เมษายน 10 เมษายน และ 20 เมษายน ตามลำดับ โดยเวอร์ชันสุดท้ายตอนนี้อยู่ที่ v2.1.116.

การเปลี่ยนแปลงครั้งแรกเกิดขึ้นเมื่อวันที่ 4 มีนาคม เมื่อทีมลดระดับความพยายามในการให้เหตุผลเริ่มต้นของ Claude Code จาก “high” เป็น “medium” เพื่อแก้ไขเหตุการณ์ที่มีความหน่วงอย่างรุนแรงเป็นบางครั้งใน Opus 4.6 ภายใต้ความเข้มของการให้เหตุผลสูง หลังจากได้รับคำร้องเรียนอย่างแพร่หลายเกี่ยวกับประสิทธิภาพที่ลดลง ทีมจึงย้อนกลับการเปลี่ยนแปลงดังกล่าวในวันที่ 7 เมษายน ปัจจุบันค่าเริ่มต้นคือ “xhigh” สำหรับ Opus 4.7 และ “high” สำหรับโมเดลอื่น ๆ

ปัญหาที่สองเป็นบั๊กที่ถูกแนะนำเมื่อวันที่ 26 มีนาคม ระบบได้รับการออกแบบให้ล้างบันทึกการให้เหตุผลเก่าหลังจากที่กิจกรรมการสนทนาไม่มีเกินหนึ่งชั่วโมง เพื่อลดต้นทุนการกู้คืนเซสชัน อย่างไรก็ตาม ข้อบกพร่องในการนำไปใช้งานทำให้การล้างถูกเรียกซ้ำในทุกเทิร์นถัดไปแทนที่จะเกิดเพียงครั้งเดียว ส่งผลให้โมเดลค่อย ๆ สูญเสียบริบทการให้เหตุผลก่อนหน้า ปรากฏออกมาในรูปแบบของความหลงลืมที่เพิ่มขึ้น การดำเนินการซ้ำ และการเรียกใช้เครื่องมือผิดปกติ บั๊กดังกล่าวยังทำให้เกิดการพลาดแคชในทุกคำขอ ซึ่งเร่งการใช้โควตาผู้ใช้ สองการทดลองภายในที่ไม่เกี่ยวข้องกันทำให้เงื่อนไขการทำซ้ำถูกปกปิด ทำให้กระบวนการดีบักยืดเยื้อไปเกินกว่าหนึ่งสัปดาห์ หลังจากแก้ไขในวันที่ 10 เมษายน ทีมได้ตรวจสอบโค้ดที่มีปัญหาโดยใช้ Opus 4.7 และพบว่า Opus 4.7 สามารถระบุบั๊กได้ ขณะที่ Opus 4.6 ทำไม่ได้

การเปลี่ยนแปลงครั้งที่สามเปิดตัวเมื่อวันที่ 16 เมษายน ควบคู่กับ Opus 4.7 ทีมได้เพิ่มคำแนะนำในพรอมต์ของระบบเพื่อลดเอาต์พุตที่ซ้ำซ้อน การทดสอบภายในในช่วงหลายสัปดาห์ไม่พบการถดถอย แต่หลังการเปิดตัวเมื่อมีปฏิสัมพันธ์กับพรอมต์อื่น ๆ คุณภาพการเขียนโค้ดกลับลดลง การประเมินแบบขยายพบว่าประสิทธิภาพลดลง 3% ทั้งใน Opus 4.6 และ 4.7 ส่งผลให้มีการยกเลิกการเปลี่ยนแปลง (rollback) ในวันที่ 20 เมษายน

การเปลี่ยนแปลงทั้งสามครั้งส่งผลกระทบต่อกลุ่มผู้ใช้ที่แตกต่างกันในช่วงเวลาที่ต่างกัน และผลรวมของมันทำให้เกิดการลดลงของคุณภาพที่แพร่หลายและไม่สม่ำเสมอ ซึ่งทำให้การวินิจฉัยซับซ้อนขึ้น Anthropic ระบุว่าจะต้องให้พนักงานภายในมากขึ้นใช้เวอร์ชันบิลด์สาธารณะเดียวกับผู้ใช้ เรียกใช้ชุดการประเมินโมเดลแบบเต็มสำหรับการปรับเปลี่ยนพรอมต์ของระบบทุกครั้ง และนำช่วงการทยอยเปิดตัวแบบเป็นขั้นตอนไปใช้ ในฐานะค่าชดเชย Anthropic ได้รีเซ็ตโควตาการใช้งานสำหรับผู้ใช้สมาชิกทั้งหมดแล้ว

news.article.disclaimer

btc.bar.articles

Meta Platforms วางแผนลดกำลังคน 10% ในวันที่ 20 พฤษภาคม กระทบตำแหน่งงานประมาณ 8,000 ตำแหน่ง

ข่าวประจำเกต เมสเสจ วันที่ 24 เมษายน — Meta Platforms วางแผนลดกำลังคนลงประมาณ 10% โดยกระทบตำแหน่งงานราว 8,000 ตำแหน่ง ในวันที่ 20 พฤษภาคม การเลิกจ้างมีเจตนาที่จะยกระดับประสิทธิภาพการดำเนินงาน ขณะเดียวกันเพิ่มการลงทุนด้านปัญญาประดิษฐ์ การปรับโครงสร้างที่วางแผนไว้สะท้อนให้เห็นถึง

GateNews39 นาที ที่แล้ว

รัฐบาลทรัมป์เปิดเผยแผนปราบปรามการนำ AI ไปใช้กลั่นผลประโยชน์ โดยกล่าวหาว่าเครือข่ายวิสาหกิจจีนลักลอบขโมยความสามารถของโมเดลอย่างเป็นระบบ

สำนักงานนโยบายเทคโนโลยีของทำเนียบขาว (OSTP) ผู้ช่วยประธานาธิบดีไมเคิล เจ. คราทเซียส (Michael J. Kratsios) ได้ออกแถลงการณ์อย่างเป็นทางการเมื่อวันที่ 23 เมษายน โดยระบุว่า รัฐบาลของทรัมป์มีข้อมูลที่แสดงว่านิติบุคคลต่างชาติ (โดยหลักแล้วอยู่ในจีน) กำลังจงใจโจมตีบริษัทปัญญาประดิษฐ์ขนาดใหญ่ของสหรัฐฯ ผ่านการสกัดความสามารถของโมเดล AI ของสหรัฐฯ อย่างเป็นระบบด้วย “บัญชีตัวแทนจำนวนหลายหมื่น” และระบบเทคนิคการหลุดจากการจำกัด (jailbreak) พร้อมทั้งประกาศมาตรการรับมือ 4 ประการไปพร้อมกัน

MarketWhisper1 ชั่วโมง ที่แล้ว

DeepSeek เปิดตัว V4 เวอร์ชันตัวอย่างแบบโอเพนซอร์ส โดยได้คะแนนด้านเทคนิค 3206 ซึ่งเหนือกว่า GPT-5.4

DeepSeek 于 4 月 24 日正式推出 V4 预览版系列,以 MIT 许可协议开源,模型权重已同步上线 Hugging Face 及 ModelScope。根据 DeepSeek V4 技术报告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基准取得 3206 分,超越 GPT-5.4。

MarketWhisper1 ชั่วโมง ที่แล้ว

Cambricon เสร็จสิ้นการปรับใช้ Day 0 ของ DeepSeek-V4 สร้างความสำเร็จสำคัญสำหรับระบบนิเวศชิป AI ของจีน

ข้อความจาก Gate News วันที่ 24 เมษายน — Cambricon ประกาศในวันนี้ว่าได้เสร็จสิ้นการปรับใช้ Day 0 ของ DeepSeek-V4 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ล่าสุดจาก DeepSeek โดยใช้ระบบนิเวศซอฟต์แวร์ NeuWare ที่เป็นกรรมสิทธิ์ของบริษัทและเฟรมเวิร์ก vLLM โค้ดการปรับใช้นั้นถูกเผยแพร่โค้ดเป็นโอเพนซอร์สพร้อมกันด้วย ซึ่งถือเป็น

GateNews1 ชั่วโมง ที่แล้ว

Tencent เปิดซอร์ส Hy3 เวอร์ชันพรีวิว โดยการทดสอบเกณฑ์มาตรฐานของโค้ดทำได้ดีขึ้น 40% เมื่อเทียบกับรุ่นก่อนหน้า

Tencent เปิดแหล่งข้อมูลขนาดใหญ่สำหรับโมเดลภาษาขนาดใหญ่ Hy3 เวอร์ชันพรีวิวอย่างเป็นทางการบนแพลตฟอร์ม GitHub, Hugging Face และ ModelScope เมื่อวันที่ 23 เมษายน และยังให้บริการ API แบบชำระเงินพร้อมกันบนคลาวด์ของ Tencent (Tencent Cloud) อีกด้วย ตามรายงานของ Decrypt เมื่อวันที่ 24 เมษายน Hy3 เวอร์ชันพรีวิวเริ่มต้นการฝึกตั้งแต่ช่วงปลายเดือนมกราคม และจนถึงวันที่ประกาศยังใช้เวลาไม่ถึงสามเดือน

MarketWhisper1 ชั่วโมง ที่แล้ว

การลงทุนในพอร์ตโฟลิโอของ FTX มีมูลค่า 158 ล้านล้านวอน หากไม่ล้มละลาย

FTX ซึ่งเป็นแพลตฟอร์มแลกเปลี่ยนสกุลเงินดิจิทัลแบบรวมศูนย์ และยื่นขอความคุ้มครองการล้มละลายตามบทที่ 11 (Chapter 11) ในเดือนพฤศจิกายน 2022 เนื่องจากขาดสภาพคล่องและเงินทุนไหลออก จะต้องมีการถือครองการลงทุนมูลค่าประมาณ 158.796 ล้านล้านวอน หากไม่ล่มสลาย ตามการวิเคราะห์ที่อ้างโดย Park

CryptoFrontier1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น