Claude Sonnet 3.5 เปิดตัว เร็วกว่า ฉลาดกว่า Opus และ GPT-4o
Key Takewaways
- Claude 3.5 Sonnet เป็น release ตัวแรกในตระกูล model Claude 3.5 ที่กำลังจะมาถึง โดยมีประสิทธิภาพเหนือกว่า model คู่แข่งและ Claude 3 Opus ในหลายด้าน พร้อมความเร็วและต้นทุนในระดับ mid-tier model
- Claude 3.5 Sonnet มีความสามารถโดดเด่นในด้าน frontier intelligence, agentic coding และ visual reasoning โดยทำงานได้เร็วกว่า Claude 3 Opus ถึง 2 เท่า
- Anthropic แนะนำฟีเจอร์ใหม่ "Artifacts" บน Claude.ai ซึ่งขยายการโต้ตอบระหว่างผู้ใช้กับ Claude ให้เป็น dynamic workspace ที่ผสานเนื้อหาที่สร้างโดย AI เข้ากับโปรเจกต์และเวิร์กโฟลว์ได้อย่างราบรื่น
- Anthropic ยังคงมุ่งมั่นในเรื่องความปลอดภัยและความเป็นส่วนตัว โดยร่วมมือกับผู้เชี่ยวชาญภายนอกเพื่อทดสอบและปรับปรุงกลไกความปลอดภัยภายในโมเดลอย่างต่อเนื่อง
วันนี้เรามีข่าวเปิดตัว Claude 3.5 Sonnet ซึ่งเป็น release ตัวแรกในตระกูล model Claude 3.5 ที่กำลังจะมาถึง Claude 3.5 Sonnet ได้ยกระดับมาตรฐานของ AI ให้สูงขึ้น โดยทำผลงานเหนือกว่า model คู่แข่งและ Claude 3 Opus ในการประเมินผลหลากหลายด้าน พร้อมความเร็วและต้นทุนในระดับ mid-tier model อย่าง Claude 3 Sonnet
ตอนนี้ Claude 3.5 Sonnet พร้อมให้ใช้งานฟรีบน Claude.ai และ Claude iOS app ในขณะที่สมาชิก Claude Pro และ Team plan สามารถเข้าถึงได้ด้วย rate limit ที่สูงขึ้นอย่างมาก นอกจากนี้ยังใช้ได้ผ่าน Anthropic API, Amazon Bedrock และ Google Cloud's Vertex AI โดย model มีค่าใช้จ่าย $3 ต่อ 1 ล้าน input tokens และ $15 ต่อ 1 ล้าน output tokens พร้อม context window ขนาด 200K tokens
Frontier intelligence ที่เร็วกว่าถึง 2 เท่า
Claude 3.5 Sonnet กำหนดมาตรฐานใหม่ในอุตสาหกรรมสำหรับการใช้เหตุผลระดับบัณฑิตศึกษา (GPQA), ความรู้ระดับปริญญาตรี (MMLU) และความชำนาญในการเขียนโค้ด (HumanEval) โดยแสดงให้เห็นถึงการปรับปรุงอย่างเห็นได้ชัดในการเข้าใจนัยยะ อารมณ์ขัน และคำสั่งที่ซับซ้อน และยังโดดเด่นในการเขียนเนื้อหาคุณภาพสูงด้วยโทนเสียงที่เป็นธรรมชาติและเข้าถึงได้ง่าย
Claude 3.5 Sonnet ทำงานด้วยความเร็วเป็น 2 เท่าของ Claude 3 Opus การเพิ่มประสิทธิภาพนี้ ร่วมกับราคาที่คุ้มค่า ทำให้ Claude 3.5 Sonnet เหมาะอย่างยิ่งสำหรับงานที่ซับซ้อน เช่น การสนับสนุนลูกค้าที่ต้องคำนึงถึงบริบท และการจัดการ workflow แบบหลายขั้นตอน
ในการประเมิน agentic coding ภายใน Claude 3.5 Sonnet สามารถแก้ปัญหาได้ 64% ซึ่งเหนือกว่า Claude 3 Opus ที่แก้ปัญหาได้ 38% การประเมินของเราทดสอบความสามารถของ model ในการแก้ไขบั๊กหรือเพิ่มฟังก์ชันให้กับ open source codebase โดยใช้คำอธิบายภาษาธรรมชาติของการปรับปรุงที่ต้องการ เมื่อได้รับคำสั่งและเครื่องมือที่เกี่ยวข้อง Claude 3.5 Sonnet สามารถเขียน แก้ไข และ execute code ได้อย่างอิสระด้วยความสามารถในการใช้เหตุผลและการแก้ปัญหาที่ซับซ้อน นอกจากนี้ยังจัดการการแปลโค้ดได้อย่างง่ายดาย ทำให้มีประสิทธิภาพเป็นพิเศษในการอัปเดตแอปพลิเคชันเก่าและการย้าย codebase
State-of-the-art vision
Claude 3.5 Sonnet เป็น vision model ที่ทรงพลังที่สุดของเราในขณะนี้ โดยมีประสิทธิภาพเหนือกว่า Claude 3 Opus บน vision benchmarks มาตรฐาน การปรับปรุงครั้งใหญ่นี้จะเห็นได้ชัดเจนที่สุดในงานที่ต้องใช้ visual reasoning เช่น การแปลความหมายแผนภูมิและกราฟ Claude 3.5 Sonnet ยังสามารถถอดข้อความจากภาพที่ไม่สมบูรณ์ได้อย่างแม่นยำ ซึ่งเป็นความสามารถหลักสำหรับธุรกิจค้าปลีก โลจิสติกส์ และบริการทางการเงิน ที่ AI อาจได้ข้อมูลเชิงลึกจากภาพ กราฟิก หรือภาพประกอบมากกว่าข้อความเพียงอย่างเดียว
Artifacts - วิธีใหม่ในการใช้ Claude
วันนี้เรายังแนะนำ Artifacts บน Claude.ai ซึ่งเป็นฟีเจอร์ใหม่ที่ขยายวิธีการที่ผู้ใช้สามารถโต้ตอบกับ Claude เมื่อผู้ใช้ขอให้ Claude สร้างเนื้อหา เช่น code snippets เอกสารข้อความ หรือการออกแบบเว็บไซต์ Artifacts เหล่านี้จะปรากฏในหน้าต่างเฉพาะควบคู่ไปกับการสนทนา สิ่งนี้สร้าง dynamic workspace ที่ผู้ใช้สามารถดู แก้ไข และต่อยอดจากสิ่งที่ Claude สร้างขึ้นแบบ real-time ผสานเนื้อหาที่สร้างโดย AI เข้ากับโปรเจกต์และเวิร์กโฟลว์ของพวกเขาได้อย่างราบรื่น
ฟีเจอร์ตัวอย่างนี้ถือเป็นการพัฒนาของ Claude จาก conversational AI ไปสู่สภาพแวดล้อมการทำงานแบบ collaborative เป็นเพียงจุดเริ่มต้นของวิสัยทัศน์ที่กว้างไกลยิ่งขึ้นสำหรับ Claude.ai ซึ่งในไม่ช้าจะขยายไปรองรับการ collaborate ของทีมงาน ในอนาคตอันใกล้ ทีมต่างๆ และในที่สุดองค์กรทั้งหมด จะสามารถรวบรวมองค์ความรู้ เอกสาร และงานที่กำลังดำเนินการอยู่ ไว้ในพื้นที่ที่ใช้ร่วมกันได้อย่างปลอดภัย โดยมี Claude ทำหน้าที่เป็น on-demand teammate
ความมุ่งมั่นในความปลอดภัยและความเป็นส่วนตัว
โมเดลของเราได้ผ่านการทดสอบอย่างเข้มงวดและได้รับการฝึกฝนเพื่อลดการใช้งานในทางที่ผิด แม้ว่า Claude 3.5 Sonnet จะมีการพัฒนาอย่างก้าวกระโดดในด้านปัญญาประดิษฐ์ แต่การประเมินความเสี่ยงของเราได้ข้อสรุปว่า Claude 3.5 Sonnet ยังคงอยู่ที่ระดับ ASL-2 (Autonomous Systems Level 2) รายละเอียดเพิ่มเติมสามารถดูได้ในส่วนเสริมของ model card
ในฐานะส่วนหนึ่งของความมุ่งมั่นด้านความปลอดภัยและความโปร่งใส เราได้ร่วมมือกับผู้เชี่ยวชาญภายนอกเพื่อทดสอบและปรับปรุงกลไกความปลอดภัยภายในโมเดลล่าสุดนี้ เมื่อเร็วๆ นี้ เราได้ส่งมอบ Claude 3.5 Sonnet ให้กับ UK's Artificial Intelligence Safety Institute (UK AISI) เพื่อประเมินความปลอดภัยก่อนการใช้งานจริง UK AISI ได้ทำการทดสอบ 3.5 Sonnet และแบ่งปันผลลัพธ์กับ US AI Safety Institute (US AISI) ภายใต้บันทึกความเข้าใจ (MOU) ซึ่งเป็นไปได้ด้วยความร่วมมือระหว่าง US และ UK AISIs ที่ประกาศไปเมื่อต้นปีนี้
เรานำข้อเสนอแนะด้านนโยบายจากผู้เชี่ยวชาญ Subject Matter Experts (SMEs) ภายนอกมาผนวกรวม เพื่อให้มั่นใจว่าการประเมินของเรามีความแข็งแกร่ง และคำนึงถึงเทรนด์ใหม่ๆ ของการใช้งานในทางที่ผิด ความร่วมมือนี้ช่วยให้ทีมของเราสามารถขยายขีดความสามารถในการประเมิน 3.5 Sonnet เทียบกับการนำไปใช้ในทางที่ผิดรูปแบบต่างๆ ได้ ยกตัวอย่างเช่น เราใช้ feedback จากผู้เชี่ยวชาญด้านความปลอดภัยของเด็กที่ Thorn เพื่ออัปเดต classifiers และ fine-tune โมเดลของเรา
หนึ่งในหลักการพื้นฐานตามรัฐธรรมนูญที่ชี้นำการพัฒนา AI model ของเราคือ ความเป็นส่วนตัว (privacy) เราไม่ได้ train generative models ของเราด้วยข้อมูลที่ผู้ใช้ส่งมา เว้นแต่ผู้ใช้จะให้สิทธิ์อย่างชัดแจ้งให้เราทำเช่นนั้นได้ จนถึงปัจจุบัน เรายังไม่เคยใช้ข้อมูลใดๆ ที่ลูกค้าหรือผู้ใช้ส่งมา ในการ train generative models ของเรา
Coming Soon
เป้าหมายของเราคือการปรับปรุง tradeoff curve ระหว่าง intelligence, speed และ cost ให้ดีขึ้นอย่างมากในทุกๆ 2-3 เดือน เพื่อให้ครอบครัว Claude 3.5 model สมบูรณ์ เราจะปล่อย Claude 3.5 Haiku และ Claude 3.5 Opus ในช่วงปลายปีนี้
นอกเหนือจากการพัฒนา next-generation model family แล้ว ทีมงานของเรากำลังพัฒนา modalities และ features ใหม่ๆ เพื่อรองรับ use cases ที่หลากหลายมากขึ้นสำหรับธุรกิจต่างๆ รวมถึงการผสานรวมเข้ากับ enterprise applications นอกจากนี้ ทีมของเรายังศึกษา features อย่างเช่น Memory ซึ่งจะทำให้ Claude สามารถจดจำ preferences และ interaction history ของผู้ใช้ได้ตามที่กำหนด ทำให้ประสบการณ์ของผู้ใช้เป็นส่วนตัวและมีประสิทธิภาพมากยิ่งขึ้น
เรามุ่งมั่นที่จะพัฒนา Claude อย่างต่อเนื่อง และยินดีรับฟังความคิดเห็นจากผู้ใช้ คุณสามารถส่ง feedback เกี่ยวกับ Claude 3.5 Sonnet ได้โดยตรงผ่านทางผลิตภัณฑ์ เพื่อช่วยให้ทีมงานของเราปรับปรุง development roadmap และประสบการณ์ของคุณให้ดียิ่งขึ้น และเช่นเคย เรารอคอยที่จะเห็นสิ่งที่คุณสร้างสรรค์ ค้นพบ และพัฒนาด้วย Claude
Why it Matters?
ข้อมูลอ้างอิงจาก Claude 3.5 Sonnet