Anthropic CEO ตั้งเป้าเปิดเผยการทำงานภายในของโมเดล AI ภายในปี 2027

Dario Amodei CEO Anthropic ประกาศเป้าหมายทำความเข้าใจการทำงานภายในของ AI ภายในปี 2027 พร้อมพัฒนาเทคโนโลยีตรวจสอบโมเดล AI เสมือนการทำ MRI เพื่อความปลอดภัยในการใช้งาน

Anthropic CEO ตั้งเป้าเปิดเผยการทำงานภายในของโมเดล AI ภายในปี 2027

Key takeaway

  • Anthropic ตั้งเป้าที่จะเข้าใจการทำงานภายในของโมเดล AI (Mechanistic Interpretability) ให้ได้ภายในปี 2027 โดยมุ่งเน้นการพัฒนาเทคโนโลยีที่เปรียบเสมือนการทำ "brain scans" หรือ "MRIs" เพื่อตรวจสอบการทำงานของ AI
  • บริษัทได้ค้นพบวิธีการติดตามเส้นทางความคิดของ AI ผ่าน "circuits" แต่ยังพบเพียงไม่กี่ชิ้นจากที่มีอยู่หลายล้านภายในโมเดล และกำลังผลักดันให้เกิดความร่วมมือในอุตสาหกรรมเพื่อพัฒนาความเข้าใจเกี่ยวกับ AI
  • Anthropic มีจุดยืนที่แตกต่างจากบริษัทเทคโนโลยีอื่นๆ โดยให้ความสำคัญกับความปลอดภัยของ AI เป็นหลัก และสนับสนุนการออกกฎหมายควบคุมความปลอดภัย AI รวมถึงการควบคุมการส่งออกชิปไปยังประเทศจีน

Dario Amodei CEO ของ Anthropic ได้เผยแพร่บทความเมื่อวันพฤหัสบดีที่ผ่านมา โดยเน้นย้ำถึงความจำเป็นเร่งด่วนในการทำความเข้าใจการทำงานภายในของโมเดล AI ชั้นนำของโลก ในบทความ "The Urgency of Interpretability" Amodei ได้ตั้งเป้าหมายท้าทายให้ Anthropic สามารถตรวจจับปัญหาของโมเดล AI ส่วนใหญ่ได้อย่างน่าเชื่อถือภายในปี 2027

"ผมกังวลมากเกี่ยวกับการนำระบบเหล่านี้ไปใช้โดยที่เรายังไม่เข้าใจความสามารถในการตีความได้ดีพอ" Amodei เขียน "ระบบเหล่านี้จะเป็นศูนย์กลางของเศรษฐกิจ เทคโนโลยี และความมั่นคงของประเทศ และจะมีความสามารถในการทำงานโดยอัตโนมัติมากจนผมคิดว่ามันเป็นสิ่งที่ยอมรับไม่ได้ที่มนุษยชาติจะไม่รู้เลยว่าพวกมันทำงานอย่างไร"

Anthropic เป็นผู้บุกเบิกด้าน mechanistic interpretability ซึ่งเป็นสาขาที่มุ่งเปิดกล่องดำของโมเดล AI เพื่อทำความเข้าใจกระบวนการตัดสินใจของระบบเหล่านี้ แม้ว่าประสิทธิภาพของโมเดล AI จะพัฒนาอย่างรวดเร็ว แต่เรายังคงเข้าใจน้อยมากว่าระบบเหล่านี้มาถึงคำตอบได้อย่างไร

ตัวอย่างเช่น เมื่อไม่นานมานี้ OpenAI เปิดตัวโมเดล AI ด้านการให้เหตุผลใหม่ o3 และ o4-mini ซึ่งแม้จะมีประสิทธิภาพดีกว่าในบางงาน แต่กลับสร้างข้อมูลที่ไม่เป็นความจริง (hallucinate) มากกว่าโมเดลอื่นๆ โดยที่บริษัทเองก็ไม่ทราบสาเหตุ

Amodei อ้างถึง Chris Olah ผู้ร่วมก่อตั้ง Anthropic ที่กล่าวว่าโมเดล AI "เติบโตมากกว่าถูกสร้าง" นั่นคือนักวิจัย AI ได้พบวิธีปรับปรุงความฉลาดของโมเดล แต่ไม่ค่อยเข้าใจว่าทำไมจึงได้ผลเช่นนั้น

Amodei เตือนว่าอาจเป็นอันตรายที่จะบรรลุ AGI (Artificial General Intelligence) หรือที่เขาเรียกว่า "ประเทศของอัจฉริยะในศูนย์ข้อมูล" โดยไม่เข้าใจว่าโมเดลเหล่านี้ทำงานอย่างไร โดยในบทความก่อนหน้านี้ เขาคาดการณ์ว่าอุตสาหกรรมเทคโนโลยีอาจบรรลุเป้าหมายดังกล่าวภายในปี 2026 หรือ 2027

ในระยะยาว Anthropic ต้องการพัฒนาเทคโนโลยีที่เปรียบเสมือนการทำ "brain scans" หรือ "MRIs" ของโมเดล AI สมัยใหม่ การตรวจสอบเหล่านี้จะช่วยระบุปัญหาต่างๆ ในโมเดล AI รวมถึงแนวโน้มที่จะโกหกหรือแสวงหาอำนาจ แม้ว่าอาจต้องใช้เวลา 5-10 ปีในการพัฒนา แต่มาตรการเหล่านี้จะมีความสำคัญต่อการทดสอบและนำโมเดล AI ในอนาคตไปใช้อย่างปลอดภัย

Anthropic ได้มีความก้าวหน้าในการวิจัยที่ช่วยให้เข้าใจการทำงานของโมเดล AI ได้ดีขึ้น บริษัทค้นพบวิธีติดตามเส้นทางความคิดของโมเดล AI ผ่านสิ่งที่เรียกว่า "circuits" เช่น การระบุ circuit ที่ช่วยให้โมเดล AI เข้าใจว่าเมืองใดในสหรัฐฯ ตั้งอยู่ในรัฐใด อย่างไรก็ตาม บริษัทพบ circuits เพียงไม่กี่ชิ้น จากที่ประมาณการว่ามีอยู่หลายล้านภายในโมเดล AI

นอกจากการลงทุนวิจัยด้วยตนเองแล้ว Anthropic ยังได้ลงทุนในสตาร์ทอัพที่ทำงานด้านการตีความ โดย Amodei เชื่อว่าในอนาคต ความสามารถในการอธิบายว่าโมเดล AI มาถึงคำตอบได้อย่างไรอาจกลายเป็นข้อได้เปรียบทางการค้า

ในบทความดังกล่าว Amodei ยังเรียกร้องให้ OpenAI และ Google DeepMind เพิ่มความพยายามในการวิจัยด้านนี้ พร้อมทั้งขอให้รัฐบาลกำหนดกฎระเบียบ "light-touch" เพื่อส่งเสริมการวิจัยด้านการตีความ เช่น การกำหนดให้บริษัทเปิดเผยแนวทางปฏิบัติด้านความปลอดภัยและความมั่นคง นอกจากนี้ เขายังสนับสนุนให้สหรัฐฯ ควบคุมการส่งออกชิปไปยังจีน เพื่อจำกัดโอกาสที่จะเกิดการแข่งขัน AI ที่ควบคุมไม่ได้ในระดับโลก

Anthropic มักโดดเด่นจากบริษัทเทคโนโลยีอื่นๆ ด้วยการเน้นเรื่องความปลอดภัย ขณะที่บริษัทอื่นต่อต้านร่างกฎหมายความปลอดภัย AI แคลิฟอร์เนีย SB 1047 Anthropic กลับออกมาสนับสนุน โดยร่างกฎหมายนี้จะกำหนดมาตรฐานการรายงานความปลอดภัยสำหรับผู้พัฒนาโมเดล AI ระดับสูง

ด้วยแนวทางนี้ Anthropic กำลังผลักดันให้เกิดความร่วมมือทั่วทั้งอุตสาหกรรมเพื่อทำความเข้าใจโมเดล AI ให้ดีขึ้น ไม่ใช่เพียงแค่เพิ่มขีดความสามารถของเทคโนโลยีเท่านั้น

Why it matters

💡 บทความนี้นำเสนอมุมมองที่สำคัญเกี่ยวกับความท้าทายด้านความปลอดภัยของ AI จาก CEO ของ Anthropic ซึ่งเป็นหนึ่งในบริษัทชั้นนำด้าน AI ของโลก โดยเฉพาะประเด็นการทำความเข้าใจการทำงานภายในของ AI ที่ยังเป็น "กล่องดำ" ผู้อ่านจะได้เรียนรู้ถึงแนวทางการแก้ปัญหานี้ผ่านการวิจัยด้าน mechanistic interpretability และวิสัยทัศน์ของผู้นำในวงการ AI ที่มุ่งเน้นการพัฒนาเทคโนโลยีอย่างรับผิดชอบและปลอดภัย ซึ่งจะส่งผลกระทบต่ออนาคตของเทคโนโลยี AI โดยตรง

ข้อมูลอ้างอิงจาก https://techcrunch.com/2025/04/24/anthropic-ceo-wants-to-open-the-black-box-of-ai-models-by-2027/

Read more

Marriott 'กำลังลงทุนอย่างจริงจัง' ในด้าน AI รายงานความคืบหน้าในการย้ายระบบ

news

Marriott 'กำลังลงทุนอย่างจริงจัง' ในด้าน AI รายงานความคืบหน้าในการย้ายระบบ

Marriott กำลังลงทุนอย่างจริงจังในเทคโนโลยี AI โดยทุ่มงบกว่า 1.1 พันล้านดอลลาร์ เพื่อปรับปรุงระบบเทคโนโลยีหลัก 3 ระบบ ได้แก่ ระบบการปรับปรุงส่วนกลาง ระบบบริหารจัดการทรัพย์สิน และแพลตฟอร์มโปรแกรมความภักดี

By
Anthropic's Claude เพิ่มฟีเจอร์ฟรีมากขึ้น ขณะที่ OpenAI เริ่มแสดงโฆษณาใน ChatGPT

news

Anthropic's Claude เพิ่มฟีเจอร์ฟรีมากขึ้น ขณะที่ OpenAI เริ่มแสดงโฆษณาใน ChatGPT

แอนโทรปิคประกาศให้ผู้ใช้ Claude แบบฟรีเข้าถึงฟีเจอร์การสร้างไฟล์, connectors และ skills ได้แล้ว หลังจาก OpenAI เริ่มแสดงโฆษณาใน ChatGPT สำหรับผู้ใช้ฟรีและแผน Go ซึ่งเป็นความพยายามดึงดูดผู้ใช้ที่ไม่ต้องการเห็นโฆษณาขณะใช้แชทบอท

By
Olix สตาร์ทอัพชิป AI โฟโทนิกได้รับเงินลงทุน 220 ล้านดอลลาร์

news

Olix สตาร์ทอัพชิป AI โฟโทนิกได้รับเงินลงทุน 220 ล้านดอลลาร์

สตาร์ทอัพ Olix Computing ผู้พัฒนาชิปเอไอที่ใช้เทคโนโลยีโฟโทนิกประสบความสำเร็จในการระดมทุน 220 ล้านดอลลาร์ นำโดย Hummingbird Ventures ชิป OTPU ของบริษัทแก้ปัญหา "memory wall" ด้วยสถาปัตยกรรมหน่วยความจำแบบใหม่ที่ใช้ SRAM แทน HBM

By
Microsoft เตือนว่าปุ่ม AI และลิงก์ที่ถูกปลอมแปลงอาจทำลายความไว้วางใจของคุณ

news

Microsoft เตือนว่าปุ่ม AI และลิงก์ที่ถูกปลอมแปลงอาจทำลายความไว้วางใจของคุณ

ไมโครซอฟท์เตือนภัยการวางยา "หน่วยความจำ" ของโมเดล AI ด้วยคำสั่งซ่อนเร้นในปุ่ม "Summarize with AI" และลิงก์ต่างๆ ทำให้ AI แสดงคำแนะนำที่มีอคติ ส่งผลกระทบต่อความเชื่อมั่นของผู้ใช้ โดยเฉพาะในหัวข้อสำคัญเช่นสุขภาพและการเงิน

By