AI แบบ Agentic ที่กำลังเติบโตต้องการสถาปัตยกรรมหน่วยความจำใหม่

AI แบบ Agentic กำลังพัฒนาจาก chatbot ไร้สถานะสู่ระบบที่มีเวิร์กโฟลว์ซับซ้อน NVIDIA เปิดตัวแพลตฟอร์ม ICMS ในสถาปัตยกรรม Rubin เพื่อแก้ปัญหาคอขวดของหน่วยความจำ ช่วยเพิ่มประสิทธิภาพและลดต้นทุนการดำเนินงาน

AI แบบ Agentic ที่กำลังเติบโตต้องการสถาปัตยกรรมหน่วยความจำใหม่

Key takeaway

  • AI แบบ Agentic กำลังพัฒนาจาก chatbot ไร้สถานะสู่ระบบที่ซับซ้อน ต้องการสถาปัตยกรรมหน่วยความจำใหม่เพื่อรองรับการปรับขนาด เนื่องจากต้นทุนการประมวลผลประวัติเพิ่มขึ้นเร็วกว่าความสามารถในการประมวลผล
  • NVIDIA ได้เปิดตัวแพลตฟอร์ม Inference Context Memory Storage (ICMS) ภายในสถาปัตยกรรม Rubin สร้างชั้น "G3.5" ที่ออกแบบเฉพาะสำหรับการจัดการ KV cache ช่วยเพิ่มประสิทธิภาพได้ถึง 5 เท่าสำหรับเวิร์กโหลดที่ต้องการบริบทยาว
  • การเปลี่ยนไปสู่ AI แบบ agentic ต้องการการปรับโครงสร้างศูนย์ข้อมูล โดย CIO ต้องจัดประเภทข้อมูล KV cache เป็นข้อมูลที่ "ชั่วคราวแต่ไวต่อความล่าช้า" และใช้ซอฟต์แวร์ที่สามารถวางเวิร์กโหลดอย่างชาญฉลาดใกล้กับบริบทที่แคชไว้

AI แบบ Agentic กำลังพัฒนาจาก chatbot แบบไร้สถานะไปสู่ระบบที่มีเวิร์กโฟลว์ซับซ้อน ซึ่งการปรับขนาดจำเป็นต้องมีสถาปัตยกรรมหน่วยความจำรูปแบบใหม่

ในขณะที่โมเดลพื้นฐานกำลังขยายขนาดไปสู่พารามิเตอร์ระดับล้านล้านและ context window ที่รองรับโทเค็นนับล้าน ต้นทุนการประมวลผลในการจดจำประวัติกำลังเพิ่มขึ้นเร็วกว่าความสามารถในการประมวลผล

องค์กรที่ใช้งานระบบเหล่านี้กำลังประสบปัญหาคอขวดเมื่อปริมาณ "หน่วยความจำระยะยาว" (หรือที่เรียกว่า Key-Value (KV) cache) มีมากเกินกว่าที่สถาปัตยกรรมฮาร์ดแวร์ปัจจุบันจะรองรับได้

โครงสร้างพื้นฐานปัจจุบันทำให้ต้องเลือกระหว่าง การเก็บบริบทการอนุมานในหน่วยความจำ GPU (HBM) ที่มีแบนด์วิดท์สูงแต่มีข้อจำกัด หรือย้ายไปยังพื้นที่จัดเก็บทั่วไปที่ช้ากว่า ทางเลือกแรกมีราคาแพงเกินไปสำหรับบริบทขนาดใหญ่ ส่วนทางเลือกหลังสร้างความล่าช้าที่ทำให้การโต้ตอบแบบ agentic แบบเรียลไทม์เป็นไปไม่ได้

เพื่อแก้ไขช่องว่างที่กำลังขยายตัวซึ่งเป็นอุปสรรคต่อการปรับขนาด AI แบบ agentic, NVIDIA ได้เปิดตัวแพลตฟอร์ม Inference Context Memory Storage (ICMS) ภายในสถาปัตยกรรม Rubin ซึ่งนำเสนอชั้นการจัดเก็บใหม่ที่ออกแบบมาโดยเฉพาะเพื่อจัดการกับลักษณะชั่วคราวและความเร็วสูงของหน่วยความจำ AI

"AI กำลังปฏิวัติสแต็กการประมวลผลทั้งหมด—และตอนนี้ การจัดเก็บข้อมูล" Huang กล่าว "AI ไม่ใช่แค่ chatbot แบบ one-shot อีกต่อไป แต่เป็นผู้ร่วมงานอัจฉริยะที่เข้าใจโลกทางกายภาพ ให้เหตุผลในระยะยาว ยึดติดกับข้อเท็จจริง ใช้เครื่องมือเพื่อทำงานจริง และรักษาทั้งความจำระยะสั้นและระยะยาว"

ความท้าทายในการดำเนินงานอยู่ที่พฤติกรรมเฉพาะของโมเดลที่ใช้ transformer เพื่อหลีกเลี่ยงการคำนวณประวัติการสนทนาทั้งหมดใหม่สำหรับทุกคำที่สร้างขึ้น โมเดลจะเก็บสถานะก่อนหน้าไว้ใน KV cache ในเวิร์กโฟลว์แบบ agentic แคชนี้ทำหน้าที่เป็นหน่วยความจำถาวรระหว่างเครื่องมือและเซสชัน ซึ่งเติบโตแบบเชิงเส้นตามความยาวของลำดับ

สิ่งนี้สร้างประเภทข้อมูลที่มีลักษณะเฉพาะ ไม่เหมือนกับบันทึกทางการเงินหรือบันทึกลูกค้า KV cache เป็นข้อมูลที่ได้มา มีความสำคัญต่อประสิทธิภาพทันที แต่ไม่จำเป็นต้องมีการรับประกันความคงทนสูงเหมือนระบบไฟล์องค์กร สแต็กการจัดเก็บทั่วไปที่ทำงานบน CPU มาตรฐาน ใช้พลังงานในการจัดการเมตาดาต้าและการทำซ้ำที่เวิร์กโหลดแบบ agentic ไม่จำเป็นต้องใช้

ลำดับชั้นปัจจุบันที่ครอบคลุมตั้งแต่ GPU HBM (G1) ไปจนถึงพื้นที่จัดเก็บร่วม (G4) กำลังมีประสิทธิภาพลดลง:
เมื่อบริบทล้นจาก GPU (G1) ไปยัง RAM ของระบบ (G2) และในที่สุดไปยังพื้นที่จัดเก็บร่วม (G4) ประสิทธิภาพจะลดลงอย่างมาก การย้ายบริบทที่ใช้งานอยู่ไปยังชั้น G4 ทำให้เกิดความล่าช้าระดับมิลลิวินาทีและเพิ่มต้นทุนพลังงานต่อโทเค็น ทำให้ GPU ราคาแพงว่างเปล่าในขณะที่รอข้อมูล

สำหรับองค์กร สิ่งนี้ส่งผลให้ Total Cost of Ownership (TCO) สูงขึ้น โดยพลังงานถูกใช้ไปกับโครงสร้างพื้นฐานแทนที่จะใช้ในการประมวลผลที่มีประสิทธิภาพ

ชั้นหน่วยความจำใหม่สำหรับโรงงาน AI

การตอบสนองของอุตสาหกรรมคือการแทรกชั้นที่สร้างขึ้นเฉพาะลงในลำดับชั้นนี้ แพลตฟอร์ม ICMS สร้างชั้น "G3.5" — ชั้น flash ที่เชื่อมต่อกับ Ethernet ที่ออกแบบมาโดยเฉพาะสำหรับการอนุมานระดับ gigascale

วิธีการนี้รวมการจัดเก็บโดยตรงเข้ากับ compute pod โดยใช้ NVIDIA BlueField-4 data processor แพลตฟอร์มนี้ช่วยลดภาระการจัดการข้อมูลบริบทจาก host CPU ระบบให้ความจุที่ใช้ร่วมกันระดับเพตาไบต์ต่อ pod เพิ่มการปรับขนาดของ AI แบบ agentic โดยอนุญาตให้เอเจนต์เก็บประวัติจำนวนมากโดยไม่ต้องใช้ HBM ที่มีราคาแพง

ประโยชน์ในการดำเนินงานสามารถวัดได้ทั้งด้านปริมาณงานและพลังงาน โดยการเก็บบริบทที่เกี่ยวข้องไว้ในชั้นกลางนี้ ซึ่งเร็วกว่าการจัดเก็บมาตรฐานแต่ถูกกว่า HBM ระบบสามารถ "prestage" หน่วยความจำกลับไปยัง GPU ก่อนที่จะต้องการ ซึ่งลดเวลาว่างของตัวถอดรหัส GPU ช่วยให้มีอัตราการประมวลผลโทเค็น (tokens-per-second หรือ TPS) สูงขึ้นถึง 5 เท่าสำหรับเวิร์กโหลดที่ต้องการบริบทยาว

ในแง่ของพลังงาน ผลกระทบก็วัดได้เช่นกัน เนื่องจากสถาปัตยกรรมนี้ลดค่าโสหุ้ยของโปรโตคอลการจัดเก็บทั่วไป จึงให้ประสิทธิภาพการใช้พลังงานดีกว่าวิธีดั้งเดิมถึง 5 เท่า

การรวม data plane

การใช้สถาปัตยกรรมนี้ต้องมีการเปลี่ยนแปลงวิธีที่ทีม IT มองเครือข่ายการจัดเก็บ แพลตฟอร์ม ICMS ใช้ NVIDIA Spectrum-X Ethernet เพื่อให้การเชื่อมต่อแบนด์วิดท์สูงและ jitter ต่ำที่จำเป็นในการใช้พื้นที่จัดเก็บ flash เสมือนเป็นหน่วยความจำในเครื่อง

สำหรับทีมโครงสร้างพื้นฐานองค์กร จุดบูรณาการคือชั้นการจัดการ เฟรมเวิร์กเช่น NVIDIA Dynamo และ Inference Transfer Library (NIXL) จัดการการเคลื่อนย้ายของบล็อก KV ระหว่างชั้น

เครื่องมือเหล่านี้ประสานงานกับชั้นการจัดเก็บเพื่อให้แน่ใจว่าบริบทที่ถูกต้องถูกโหลดเข้าไปในหน่วยความจำ GPU (G1) หรือหน่วยความจำโฮสต์ (G2) เมื่อโมเดล AI ต้องการ เฟรมเวิร์ก NVIDIA DOCA สนับสนุนสิ่งนี้โดยให้เลเยอร์การสื่อสาร KV ที่จัดการแคชบริบทเป็นทรัพยากรสำคัญ

ผู้ให้บริการจัดเก็บข้อมูลรายใหญ่กำลังปรับตัวเข้ากับสถาปัตยกรรมนี้ บริษัทต่างๆ เช่น AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data และ WEKA กำลังพัฒนาแพลตฟอร์มด้วย BlueField-4 โซลูชันเหล่านี้คาดว่าจะพร้อมใช้งานในช่วงครึ่งหลังของปีนี้

การกำหนดโครงสร้างพื้นฐานใหม่สำหรับการปรับขนาด AI แบบ agentic

การใช้ชั้นหน่วยความจำบริบทเฉพาะส่งผลกระทบต่อการวางแผนความจุและการออกแบบศูนย์ข้อมูล:

  1. การจัดประเภทข้อมูลใหม่: CIO ต้องรู้จัก KV cache เป็นประเภทข้อมูลที่ไม่เหมือนใคร เป็น "ชั่วคราวแต่ไวต่อความล่าช้า" แตกต่างจากข้อมูลการปฏิบัติตามกฎระเบียบที่ "คงทนและเย็น" ชั้น G3.5 จัดการกับข้อมูลประเภทแรก ช่วยให้การจัดเก็บ G4 ที่คงทนสามารถมุ่งเน้นไปที่บันทึกและสิ่งประดิษฐ์ระยะยาว
  2. ความสมบูรณ์ของการจัดการ: ความสำเร็จขึ้นอยู่กับซอฟต์แวร์ที่สามารถวางเวิร์กโหลดอย่างชาญฉลาด ระบบใช้การจัดการที่รับรู้โทโพโลยี (ผ่าน NVIDIA Grove) เพื่อวางงานใกล้กับบริบทที่แคชไว้ ลดการเคลื่อนย้ายข้อมูลข้ามเครือข่าย
  3. ความหนาแน่นของพลังงาน: การใส่ความจุที่ใช้งานได้มากขึ้นในพื้นที่แร็คเดียวกัน องค์กรสามารถยืดอายุการใช้งานของสิ่งอำนวยความสะดวกที่มีอยู่ อย่างไรก็ตาม สิ่งนี้เพิ่มความหนาแน่นของการประมวลผลต่อตารางเมตร ซึ่งต้องการการวางแผนการระบายความร้อนและการจ่ายพลังงานที่เพียงพอ

การเปลี่ยนไปสู่ AI แบบ agentic บังคับให้มีการปรับโครงสร้างทางกายภาพของศูนย์ข้อมูล โมเดลที่แพร่หลายในการแยกการประมวลผลออกจากการจัดเก็บถาวรที่ช้าโดยสิ้นเชิงไม่สามารถใช้งานร่วมกับความต้องการการเรียกคืนแบบเรียลไทม์ของเอเจนต์ที่มีความจำแบบถ่ายภาพได้

ด้วยการแนะนำชั้นบริบทเฉพาะทาง องค์กรสามารถแยกการเติบโตของหน่วยความจำโมเดลออกจากต้นทุนของ GPU HBM สถาปัตยกรรมนี้สำหรับ AI แบบ agentic ช่วยให้เอเจนต์หลายตัวสามารถแชร์พูลหน่วยความจำขนาดใหญ่ที่ใช้พลังงานต่ำเพื่อลดต้นทุนในการให้บริการคำถามที่ซับซ้อน และเพิ่มการปรับขนาดโดยช่วยให้การประมวลผลมีประสิทธิภาพสูง

เมื่อองค์กรวางแผนรอบการลงทุนโครงสร้างพื้นฐานครั้งต่อไป การประเมินประสิทธิภาพของลำดับชั้นหน่วยความจำจะมีความสำคัญเท่ากับการเลือก GPU เอง

Why it matters

💡 ข่าวนี้เป็นสาระสำคัญสำหรับผู้ที่ทำงานด้านเทคโนโลยี AI และผู้บริหารไอทีที่วางแผนโครงสร้างพื้นฐานองค์กร เพราะเผยให้เห็นถึงความท้าทายด้านหน่วยความจำที่เป็นคอขวดสำคัญในการปรับขนาด AI แบบ Agentic สถาปัตยกรรมหน่วยความจำแบบใหม่จาก NVIDIA จะเปลี่ยนวิธีการออกแบบระบบ AI ในอนาคต ช่วยลดต้นทุนการดำเนินงาน เพิ่มประสิทธิภาพการใช้พลังงานได้ถึง 5 เท่า และเพิ่มความเร็วในการประมวลผลโทเค็น ผู้อ่านจะเข้าใจแนวโน้มที่จะกำหนดอนาคตของอุตสาหกรรม AI และการลงทุนด้านไอทีในปีต่อๆ ไป

ข้อมูลอ้างอิงจาก https://www.artificialintelligence-news.com/news/agentic-ai-scaling-requires-new-memory-architecture/

Read more

ทำไมโครงการนำร่อง AI ระดับองค์กรถึงล้มเหลว

news

ทำไมโครงการนำร่อง AI ระดับองค์กรถึงล้มเหลว

ข้อมูลจาก MIT เผย 95% ของโครงการนำร่อง Generative AI ล้มเหลว เนื่องจากขาดแผนการเปลี่ยนแปลง ทีม IT ไม่ร่วมมือกับแผนกอื่น พนักงานต่อต้าน และการสื่อสารไม่ชัดเจน เรียนรู้วิธีหลีกเลี่ยงปัญหาและแนวทางสู่ความสำเร็จจากผู้เชี่ยวชาญ

By
OpenAI เตรียมบุกตลาดโฆษณา ขณะที่ Google เร่งพัฒนาโครงสร้างพื้นฐาน AI

news

OpenAI เตรียมบุกตลาดโฆษณา ขณะที่ Google เร่งพัฒนาโครงสร้างพื้นฐาน AI

OpenAI กำลังพิจารณาเข้าร่วมงาน Cannes Lions สะท้อนความทะเยอทะยานในตลาดโฆษณา ขณะที่ Google ผนวก Gemini เข้ากับระบบโฆษณาค้นหาแบบใหม่ การแข่งขันระหว่างสองยักษ์ใหญ่ทวีความเข้มข้น โดย OpenAI ต้องเร่งสร้างรายได้เพื่อชดเชยค่าใช้จ่ายมหาศาล

By
Memories.ai กำลังเปลี่ยนทิศทาง LUCI AI pin จากอุปกรณ์สำหรับผู้บริโภคให้เป็นแพลตฟอร์มสำหรับนักพัฒนา

news

Memories.ai กำลังเปลี่ยนทิศทาง LUCI AI pin จากอุปกรณ์สำหรับผู้บริโภคให้เป็นแพลตฟอร์มสำหรับนักพัฒนา

Memories.ai ปรับทิศทาง Project LUCI จากอุปกรณ์สวมใส่ AI สำหรับผู้บริโภคให้เป็นแพลตฟอร์มสำหรับนักพัฒนา มุ่งแก้ปัญหาที่อุปกรณ์ AI สวมใส่รุ่นก่อนๆ เคยประสบ โดยเน้นความสามารถด้านความจำและการเข้าใจบริบท พร้อมเปิดตัวในงาน CES 2026

By
การเลิกจ้างด้วย AI: เมื่อความจริงไม่ตรงกับเรื่องเล่าขององค์กร ตามรายงานจาก Oxford Economics

news

การเลิกจ้างด้วย AI: เมื่อความจริงไม่ตรงกับเรื่องเล่าขององค์กร ตามรายงานจาก Oxford Economics

รายงานจาก Oxford Economics เผยว่าบริษัทต่างๆ ไม่ได้แทนที่พนักงานด้วย AI อย่างมีนัยสำคัญ แต่ใช้เป็นข้ออ้างในการลดจำนวนพนักงาน โดยการเลิกจ้างที่อ้างว่าเกี่ยวกับ AI คิดเป็นเพียง 4.5% ของการสูญเสียงานทั้งหมด ขณะที่ผลิตภาพไม่ได้เพิ่มขึ้นตามที่ควรจะเป็น

By