MuiRouter
กลับไปบล็อก
อ่าน 8 นาที

Claude Sonnet 5 มาแล้ว: Sonnet ที่มีความสามารถเชิง agentic มากที่สุดของ Anthropic ที่ไล่ตามช่องว่างกับ Opus 4.8 ทัน

Anthropic เปิดตัว Claude Sonnet 5 เมื่อวันที่ 30 มิถุนายน 2026 ด้วยประสิทธิภาพด้าน agentic coding และการใช้เครื่องมือที่ใกล้เคียง Opus 4.8 ในราคาที่ต่ำกว่ามาก บทความนี้สรุปสิ่งที่เปิดตัว ผลเบนช์มาร์กและรีวิวอิสระ ข้อควรระวังด้านราคาที่ควรรู้ และความหมายสำหรับคนที่สร้างแอปด้วย AI

Claude Sonnet 5Anthropicโมเดล AI

เมื่อวันที่ 30 มิถุนายน 2026 Anthropic เปิดตัว Claude Sonnet 5 ซึ่งบริษัทเรียกว่าเป็นโมเดล Sonnet ที่มีความสามารถเชิง agentic มากที่สุดเท่าที่เคยมีมา แนวคิดหลักตรงไปตรงมา: ประสิทธิภาพด้าน agentic coding และการใช้เครื่องมือที่ปิดช่องว่างส่วนใหญ่กับ Claude Opus 4.8 ได้ ด้วยราคาเปิดตัวที่ต่ำกว่าแม้แต่ Sonnet 4.6 รุ่นก่อนที่กำลังจะถูกแทนที่ ตอนนี้มันเป็นโมเดลเริ่มต้นในแผน Free และ Pro ของ Claude แล้ว

การผสมผสานนี้ต่างหากที่เป็นประเด็นสำคัญจริง ๆ มากกว่าตัวเลข benchmark เดี่ยว ๆ ใด ๆ หลายปีที่ผ่านมา trade-off นี้ตรงไปตรงมา: จ่ายราคาระดับ Opus เพื่อความสามารถระดับ frontier หรือยอมรับช่องว่างความสามารถที่แท้จริงเพื่อประหยัดเงิน Sonnet 5 คือความพยายามของ Anthropic ที่จะทำให้ trade-off นั้นเล็กลงมาก จะสำเร็จหรือไม่ขึ้นอยู่กับว่าคุณกำลัง optimize เพื่ออะไร และอย่างที่ผู้รีวิวมากกว่าหนึ่งคนชี้ให้เห็น ก็ขึ้นอยู่กับการอ่านรายละเอียดด้านราคาให้ลึกกว่าตัวเลขพาดหัวด้วย

Anthropic เปิดตัวอะไรจริง ๆ

ตามประกาศเปิดตัว Claude Sonnet 5 และsystem cardของ Anthropic การเปิดตัวครั้งนี้เน้นไปที่ความสามารถเชิง agentic: การวางแผนงานหลายขั้นตอน การใช้เครื่องมือ เช่น browser และ terminal และการทำงานโดยต้องการการประคับประคองน้อยกว่าที่โมเดล Sonnet รุ่นก่อนหน้าต้องการ

  • Model ID: claude-sonnet-5 ใช้งานได้ผ่าน API, Claude Code และ Claude Platform
  • ตอนนี้เป็นโมเดลเริ่มต้นสำหรับแผน Free และ Pro ของ Claude
  • พร้อมใช้งานแล้วบน Amazon Bedrock ควบคู่ไปกับ API โดยตรง
  • วางตำแหน่งอย่างชัดเจนว่าเป็นทางเลือกที่ถูกกว่าสำหรับรัน agentic workload ที่ก่อนหน้านี้ต้องใช้โมเดลขนาดใหญ่กว่า

วิธีการวางกรอบนี้สำคัญ: Anthropic ไม่ได้นำเสนอ Sonnet 5 ว่าเป็นเพดานความสามารถระดับ frontier ใหม่ แต่นำเสนอมันในฐานะโมเดลที่ควรใช้เป็นค่าเริ่มต้นสำหรับงาน agent โดยสงวน Opus 4.8 ไว้สำหรับงานที่ยังต้องการมากกว่านั้น

ผลการเปรียบเทียบ benchmark กับ Sonnet 4.6 และ Opus 4.8

ตัวเลขพาดหัวเคลื่อนไปในทิศทางเดียวกันทั้งด้าน reasoning, coding, การใช้เครื่องมือ และ computer use:

BenchmarkSonnet 4.6Sonnet 5Opus 4.8
Agentic coding (SWE-bench Pro)58.1%63.2%69.2%
Terminal-Bench 2.167.0%80.4%
Computer use (OSWorld-Verified)78.5%81.2%
Humanity's Last Exam (พร้อมเครื่องมือ)46.8%57.4%57.9%
งานความรู้ (GDPval-AA v2)1,6181,615

มีสองประเด็นที่โดดเด่น ประเด็นแรก การกระโดดของ Terminal-Bench — 13 คะแนน — เป็นการเปลี่ยนแปลงครั้งเดียวที่มากที่สุด ซึ่งสอดคล้องกับการวางกรอบของ Anthropic ที่มอง Sonnet 5 เป็นการเปิดตัวที่เน้น agent เป็นหลัก มากกว่าการอัปเกรดความรู้ทั่วไป ประเด็นที่สอง ใน GDPval-AA v2 Sonnet 5 แซงหน้า Opus 4.8 ไปเล็กน้อย ที่ 1,618 ต่อ 1,615 นี่เป็นส่วนต่างที่แคบมากในหนึ่ง benchmark แต่ก็เป็นกรณีที่พบได้ยากที่โมเดลราคาถูกกว่าจะทำคะแนนแซงหน้า flagship ในเรื่องใดเรื่องหนึ่งได้ และควรรู้ไว้หากงานของคุณมีลักษณะใกล้เคียงกับงานความรู้เชิงโครงสร้างมากกว่า agentic coding ล้วน ๆ

โดยเฉพาะใน SWE-bench Pro Sonnet 5 ยังตามหลัง Opus 4.8 อยู่หกคะแนน ช่องว่างนี้เป็นสิ่งที่ควรจำไว้ ก่อนที่คุณจะ route งาน coding ทุกอย่างไปยังโมเดลราคาถูกกว่าเป็นค่าเริ่มต้น

สิ่งที่รีวิวอิสระพูดถึง

ตัวเลขของ Anthropic เองเป็นเพียงจุดข้อมูลหนึ่งจุด นี่คือสิ่งที่ผู้รีวิวพบเมื่อนำ Sonnet 5 ไปใช้งานจริง:

CodeRabbit ซึ่งทดสอบโดยเฉพาะสำหรับการเขียนโค้ดและการรีวิวโค้ด เรียกมันว่าโมเดลที่มีความสามารถสูงสุดในระดับเดียวกันสำหรับการเขียนโค้ด — มันมักจะเขียนเทสต์ก่อน สร้าง implementation ให้ผ่านเทสต์เหล่านั้น แล้วจึงรันทุกอย่างก่อนจะถือว่างานเสร็จ แต่ตัวเลขด้านการรีวิวกลับก้ำกึ่ง: ความแม่นยำของคอมเมนต์ดีขึ้นอย่างเห็นได้ชัด (จากประมาณ 29% เป็น 38–40%) ในขณะที่อัตราการจับ bug ในการรีวิวโค้ดกลับลดลงเหลือประมาณ 50–51% จากเดิมที่ Sonnet 4.6 เคยทำได้ในช่วงปลาย 50% ถึงต้น 60% ข้อเสนอแนะของพวกเขาคือให้รันที่ reasoning effort ระดับกลาง — การดันไปที่ระดับ effort สูงสุดจะทำให้ต้นทุนเพิ่มขึ้นประมาณสองเท่าโดยไม่พบ bug เพิ่มขึ้น

Simon Willison ชี้ให้เห็นรายละเอียดที่มีแนวโน้มสูงสุดที่จะสร้างปัญหาให้กับคนที่ migrate โดยไม่ตรวจสอบก่อน: Sonnet 5 มาพร้อม tokenizer ใหม่ และข้อความภาษาอังกฤษแบบเดียวกันตอนนี้สร้าง token มากขึ้นประมาณ 30% เมื่อเทียบกับบน Sonnet 4.6 ข้อความภาษาจีนแทบไม่ได้รับผลกระทบ แต่สำหรับ prompt ที่เป็นภาษาอังกฤษเป็นหลัก นี่คือต้นทุนที่เพิ่มขึ้นจริงซึ่งซ่อนอยู่หลังราคาพาดหัวที่ไม่เปลี่ยนแปลง เขายังตั้งข้อสังเกตด้วยว่า Sonnet 5 ไม่รองรับพารามิเตอร์การสุ่ม temperature, top_p หรือ top_k อีกต่อไป — ควรตรวจสอบว่า integration ของคุณพึ่งพาพารามิเตอร์เหล่านี้อยู่หรือไม่

สื่อข่าว (TechCrunch และสำนักอื่น ๆ) เน้นไปที่ประเด็นเรื่องราคา — "ทางเลือกที่ถูกกว่าในการรัน agent" — และวางกรอบการเปิดตัวนี้ว่าเป็นส่วนหนึ่งของการที่ Anthropic ลดช่องว่างกับ Opus ในขณะที่บริษัทกำลังขยายตัวก่อนการผลักดัน IPO ที่มีการรายงานกันอย่างกว้างขวาง ผู้ใช้งานยุคแรกที่ถูกอ้างอิงในรายงานเหล่านั้นให้ความเห็นเชิงบวกต่อการทำงานให้เสร็จสมบูรณ์: วิศวกรที่ Zapier บรรยายว่ามันทำงานที่ซับซ้อนให้เสร็จได้แบบ end-to-end และผู้ร่วมก่อตั้งที่ Lovable ชี้ให้เห็นว่ามันปฏิเสธคำขอที่ไม่ปลอดภัยได้อย่างชัดเจนสม่ำเสมอ

การเปรียบเทียบ benchmark ของ MarkTechPost ลงเอยด้วยคำแนะนำเรื่องการ routing มากกว่าจะเป็นคำตัดสินแบบเหมารวม: ส่งงานส่วนใหญ่ไปที่ Sonnet 5 ด้วย effort ระดับต่ำถึงกลาง และเก็บ Opus 4.8 ไว้สำหรับงานที่ความแม่นยำเป็นเรื่องสำคัญที่สุด ที่การตั้งค่า effort สูงสุด พวกเขาพบว่าต้นทุนของ Sonnet 5 อาจสูงเกิน Opus 4.8 โดยไม่ได้ความแม่นยำเพิ่มขึ้นตามไปด้วย — ตัวเลือกราคาถูกจะเลิกถูกทันทีถ้าคุณบิดทุกปุ่มไปที่ระดับสูงสุด

ธีมที่สอดคล้องกันในรีวิวอิสระทั้งหมดคือ: แข็งแกร่งในการสร้างและลงมือทำ ถอยลงเล็กน้อย (ไม่ใช่พังทลาย) ในการจับ bug ที่ซับซ้อน และจะถูกลงจริงก็ต่อเมื่อคุณวัดปริมาณการใช้ token ของตัวเองจริง ๆ แทนที่จะเชื่อราคาป้ายเพียงอย่างเดียว

ราคา — และเงื่อนไขที่ซ่อนอยู่ในรายละเอียดเล็ก ๆ

Anthropic ตั้งราคา Sonnet 5 ไว้อย่างดุดัน แต่มีกำหนดเวลาที่ต้องระวัง:

โมเดลInputOutput
claude-sonnet-5 (ราคาเปิดตัว ถึง 2026-08-31)$2 / 1M tokens$10 / 1M tokens
claude-sonnet-5 (ราคามาตรฐาน ตั้งแต่ 2026-09-01)$3 / 1M tokens$15 / 1M tokens
claude-sonnet-4-6$3 / 1M tokens$15 / 1M tokens
claude-opus-4-8$5 / 1M tokens$25 / 1M tokens

แม้แต่ในราคามาตรฐาน Sonnet 5 ก็ยังมีอัตราพาดหัวเท่ากับ Sonnet 4.6 ในขณะที่ทำคะแนนได้สูงกว่าอย่างมีนัยสำคัญในทุกด้าน — ส่วนนี้ของจุดขายยังคงเป็นจริง แต่การค้นพบเรื่อง tokenizer ของ Willison หมายความว่าการเปรียบเทียบที่แท้จริงไม่ใช่ราคาต่อ token แต่คือราคาต่องานที่เสร็จสมบูรณ์ และ workload ที่เป็นภาษาอังกฤษเป็นหลักควรคาดการณ์ว่าจำนวน token จะเพิ่มขึ้นจริงเมื่อย้ายออกจาก Sonnet 4.6 ไม่ว่าจะเป็นราคาเปิดตัวหรือไม่ก็ตาม prompt caching มาตรฐานของ Anthropic ยังคงใช้ได้เพิ่มเติมจากนี้ — การอ่านจาก cache จะถูกคิดในอัตราลดราคาที่สูงมาก ส่วนการเขียนลง cache จะมีค่าใช้จ่ายเพิ่มเติมแบบครั้งเดียว — ดังนั้นเหมือนเดิม ควรยืนยันตัวเลขจริงใน billing dashboard ของคุณเอง แทนที่จะคำนวณจากราคาพาดหัวเพียงอย่างเดียว

ความปลอดภัย

Anthropic รายงานว่า Sonnet 5 แสดงพฤติกรรมที่ไม่พึงประสงค์ในอัตราที่ต่ำกว่า Sonnet 4.6 — ให้ความร่วมมือกับการใช้งานในทางที่ผิดน้อยลง หลอกลวงน้อยลง — และมีความสม่ำเสมอมากขึ้นในการปฏิเสธคำขอที่เป็นอันตราย และต้านทานความพยายาม hijack ผ่าน prompt injection ได้ดีขึ้น มาตรการป้องกันด้านความปลอดภัยเปิดใช้งานเป็นค่าเริ่มต้น

ความสามารถด้าน cybersecurity ของมันถูกทำให้ตามหลัง Opus 4.8 โดยตั้งใจ: ในการทดสอบของ Anthropic เอง Sonnet 5 ไม่เคยพัฒนา exploit ที่ใช้งานได้จริงแบบครบวงจรได้สำเร็จเลย นี่เป็นการตัดสินใจเชิงออกแบบ ไม่ใช่จุดบกพร่อง สำหรับกรณีการใช้งานส่วนใหญ่ — เป็นตรรกะเดียวกับแนวทาง classifier-plus-fallback ของ Claude Fable 5: ความสามารถระดับ frontier ถูกจำกัดการเข้าถึง ในขณะที่โมเดลที่เปิดให้ใช้งานทั่วไปมาพร้อมมาตรการป้องกันที่ติดตั้งไว้ในตัวอยู่แล้ว

สิ่งนี้หมายถึงอะไรสำหรับนักพัฒนา

  • วัดต้นทุนต่องานที่เสร็จสมบูรณ์ ไม่ใช่ต้นทุนต่อ token — การเปลี่ยน tokenizer หมายความว่าราคาป้ายเพียงอย่างเดียวจะทำให้คุณเข้าใจผิดได้ โดยเฉพาะกับ workload ที่เป็นภาษาอังกฤษเป็นหลัก
  • คำนวณจำนวน token ใหม่จาก prompt จริงของคุณ ก่อนที่จะสรุปว่า Sonnet 5 เป็นตัวเลือกที่ประหยัดกว่า Sonnet 4.6 อย่างชัดเจน
  • ตรวจสอบว่า integration ของคุณพึ่งพา temperature, top_p หรือ top_k หรือไม่ — Sonnet 5 ไม่รองรับพารามิเตอร์เหล่านี้แล้ว
  • เริ่มต้นที่ reasoning effort ระดับกลาง ทั้ง CodeRabbit และ MarkTechPost พบว่าระดับ effort สูงสุดเพิ่มต้นทุนโดยไม่ได้ความแม่นยำเพิ่มขึ้นตามไปด้วย
  • คง Opus 4.8 ไว้ใน routing ของคุณสำหรับงานที่ความแม่นยำสำคัญที่สุด — Sonnet 5 ลดช่องว่างลง แต่ยังไม่ปิดช่องว่างนั้นได้สนิท โดยเฉพาะงานอย่างการรีวิวโค้ดอย่างละเอียด ที่การจับ bug ที่ซับซ้อนสำคัญที่สุด

สิ่งนี้หมายถึงอะไรสำหรับผู้ใช้ MuiRouter

MuiRouter สร้างขึ้นจากแนวคิดง่าย ๆ: API key เดียว รูปแบบ integration เดียว และวิธีที่ชัดเจนกว่าในการ route การเข้าถึงโมเดล AI หลัก ๆ การเปิดตัวอย่าง Sonnet 5 — ถูกลง แข็งแกร่งขึ้น แต่มีข้อควรระวังด้านราคาและ tokenizer ที่ควรติดตาม — เป็นการเปลี่ยนแปลงแบบที่ unified gateway ถูกออกแบบมาเพื่อรองรับให้คุณโดยเฉพาะ

เราได้เพิ่ม claude-sonnet-5 เข้าไปในแคตตาล็อกของ MuiRouter แล้ว ในอัตราราคาเปิดตัวที่ Anthropic ประกาศไว้ integration ของคุณไม่ต้องเปลี่ยนแปลงใด ๆ ตัวโมเดล ราคา และการปรับขึ้นราคาตามกำหนดในวันที่ 2026-09-01 ทั้งหมดถูกจัดการอยู่เบื้องหลัง gateway ให้แล้ว

เหมือนเดิม ควรถือว่า claude-sonnet-5 พร้อมใช้งานจริงก็ต่อเมื่อคุณได้ยืนยันแบบครบวงจรบนบัญชีของคุณเองแล้วเท่านั้น — การ routing จริงยังคงขึ้นอยู่กับ availability ของ upstream ข้อควรระวังนี้ไว้ก่อน นี่คือตัวอย่างที่ชัดเจนของการเปิดตัวที่การรักษา integration ให้มั่นคงนั้นคุ้มค่าอย่างแท้จริง: รายละเอียดด้านราคาและ tokenizer เป็นสิ่งที่คุณไม่อยากไล่ติดตามด้วยมือในทุกโมเดลที่คุณใช้

สรุป

Claude Sonnet 5 เป็นการก้าวหน้าที่แท้จริงสำหรับงาน agentic และงาน coding ในราคาที่ ตามตัวเลขบนกระดาษ ต่ำกว่าแม้แต่รุ่นก่อนหน้าของตัวเอง ตัวเลข benchmark สนับสนุนเรื่องนี้ และผู้รีวิวอิสระก็เช่นกัน — โดยมีข้อควรระวังสองข้อที่ควรจดจำไว้: การจับ bug ในการรีวิวโค้ดถอยหลังไปเล็กน้อย แม้ว่าคอมเมนต์จะคมชัดขึ้นก็ตาม และ tokenizer ใหม่หมายความว่าคำว่า "ถูกกว่า" ต้องวัดต่องานที่เสร็จสมบูรณ์ ไม่ใช่ต่อ token ก่อนที่คุณจะเชื่อมัน

หากคุณสร้างผลิตภัณฑ์ด้วย AI นี่คือสิ่งที่ควรทดสอบกับ workload จริงของคุณตั้งแต่ตอนนี้ เผื่องบประมาณสำหรับการเปลี่ยนแปลง tokenizer หากคุณกำลัง migrate prompt ที่เป็นภาษาอังกฤษเป็นหลัก เริ่มต้นที่ effort ระดับกลาง และยังคง route งานที่มีความเสี่ยงสูงสุดไปยัง Opus 4.8 ต่อไป จนกว่า Sonnet 5 จะพิสูจน์ตัวเองได้ด้วยตัวเลขของคุณเอง

แหล่งข้อมูลทางการ

แหล่งข้อมูล OpenAI เผยแพร่เมื่อ 30 มิถุนายน 2569

เตรียมพร้อมสำหรับการเปิดตัวโมเดลครั้งต่อไป

เริ่มจาก API Key เดียว และมีเส้นทางที่ชัดขึ้นในการ route การเข้าถึงโมเดลใหม่เมื่อ upstream พร้อมใช้งาน

สมัครสมาชิก