AI แบบ Agentic ที่กำลังเติบโตต้องการสถาปัตยกรรมหน่วยความจำใหม่
AI แบบ Agentic กำลังพัฒนาจาก chatbot ไร้สถานะสู่ระบบที่มีเวิร์กโฟลว์ซับซ้อน NVIDIA เปิดตัวแพลตฟอร์ม ICMS ในสถาปัตยกรรม Rubin เพื่อแก้ปัญหาคอขวดของหน่วยความจำ ช่วยเพิ่มประสิทธิภาพและลดต้นทุนการดำเนินงาน
Key takeaway
- AI แบบ Agentic กำลังพัฒนาจาก chatbot ไร้สถานะสู่ระบบที่ซับซ้อน ต้องการสถาปัตยกรรมหน่วยความจำใหม่เพื่อรองรับการปรับขนาด เนื่องจากต้นทุนการประมวลผลประวัติเพิ่มขึ้นเร็วกว่าความสามารถในการประมวลผล
- NVIDIA ได้เปิดตัวแพลตฟอร์ม Inference Context Memory Storage (ICMS) ภายในสถาปัตยกรรม Rubin สร้างชั้น "G3.5" ที่ออกแบบเฉพาะสำหรับการจัดการ KV cache ช่วยเพิ่มประสิทธิภาพได้ถึง 5 เท่าสำหรับเวิร์กโหลดที่ต้องการบริบทยาว
- การเปลี่ยนไปสู่ AI แบบ agentic ต้องการการปรับโครงสร้างศูนย์ข้อมูล โดย CIO ต้องจัดประเภทข้อมูล KV cache เป็นข้อมูลที่ "ชั่วคราวแต่ไวต่อความล่าช้า" และใช้ซอฟต์แวร์ที่สามารถวางเวิร์กโหลดอย่างชาญฉลาดใกล้กับบริบทที่แคชไว้
AI แบบ Agentic กำลังพัฒนาจาก chatbot แบบไร้สถานะไปสู่ระบบที่มีเวิร์กโฟลว์ซับซ้อน ซึ่งการปรับขนาดจำเป็นต้องมีสถาปัตยกรรมหน่วยความจำรูปแบบใหม่
ในขณะที่โมเดลพื้นฐานกำลังขยายขนาดไปสู่พารามิเตอร์ระดับล้านล้านและ context window ที่รองรับโทเค็นนับล้าน ต้นทุนการประมวลผลในการจดจำประวัติกำลังเพิ่มขึ้นเร็วกว่าความสามารถในการประมวลผล
องค์กรที่ใช้งานระบบเหล่านี้กำลังประสบปัญหาคอขวดเมื่อปริมาณ "หน่วยความจำระยะยาว" (หรือที่เรียกว่า Key-Value (KV) cache) มีมากเกินกว่าที่สถาปัตยกรรมฮาร์ดแวร์ปัจจุบันจะรองรับได้
โครงสร้างพื้นฐานปัจจุบันทำให้ต้องเลือกระหว่าง การเก็บบริบทการอนุมานในหน่วยความจำ GPU (HBM) ที่มีแบนด์วิดท์สูงแต่มีข้อจำกัด หรือย้ายไปยังพื้นที่จัดเก็บทั่วไปที่ช้ากว่า ทางเลือกแรกมีราคาแพงเกินไปสำหรับบริบทขนาดใหญ่ ส่วนทางเลือกหลังสร้างความล่าช้าที่ทำให้การโต้ตอบแบบ agentic แบบเรียลไทม์เป็นไปไม่ได้
เพื่อแก้ไขช่องว่างที่กำลังขยายตัวซึ่งเป็นอุปสรรคต่อการปรับขนาด AI แบบ agentic, NVIDIA ได้เปิดตัวแพลตฟอร์ม Inference Context Memory Storage (ICMS) ภายในสถาปัตยกรรม Rubin ซึ่งนำเสนอชั้นการจัดเก็บใหม่ที่ออกแบบมาโดยเฉพาะเพื่อจัดการกับลักษณะชั่วคราวและความเร็วสูงของหน่วยความจำ AI
"AI กำลังปฏิวัติสแต็กการประมวลผลทั้งหมด—และตอนนี้ การจัดเก็บข้อมูล" Huang กล่าว "AI ไม่ใช่แค่ chatbot แบบ one-shot อีกต่อไป แต่เป็นผู้ร่วมงานอัจฉริยะที่เข้าใจโลกทางกายภาพ ให้เหตุผลในระยะยาว ยึดติดกับข้อเท็จจริง ใช้เครื่องมือเพื่อทำงานจริง และรักษาทั้งความจำระยะสั้นและระยะยาว"
ความท้าทายในการดำเนินงานอยู่ที่พฤติกรรมเฉพาะของโมเดลที่ใช้ transformer เพื่อหลีกเลี่ยงการคำนวณประวัติการสนทนาทั้งหมดใหม่สำหรับทุกคำที่สร้างขึ้น โมเดลจะเก็บสถานะก่อนหน้าไว้ใน KV cache ในเวิร์กโฟลว์แบบ agentic แคชนี้ทำหน้าที่เป็นหน่วยความจำถาวรระหว่างเครื่องมือและเซสชัน ซึ่งเติบโตแบบเชิงเส้นตามความยาวของลำดับ
สิ่งนี้สร้างประเภทข้อมูลที่มีลักษณะเฉพาะ ไม่เหมือนกับบันทึกทางการเงินหรือบันทึกลูกค้า KV cache เป็นข้อมูลที่ได้มา มีความสำคัญต่อประสิทธิภาพทันที แต่ไม่จำเป็นต้องมีการรับประกันความคงทนสูงเหมือนระบบไฟล์องค์กร สแต็กการจัดเก็บทั่วไปที่ทำงานบน CPU มาตรฐาน ใช้พลังงานในการจัดการเมตาดาต้าและการทำซ้ำที่เวิร์กโหลดแบบ agentic ไม่จำเป็นต้องใช้
ลำดับชั้นปัจจุบันที่ครอบคลุมตั้งแต่ GPU HBM (G1) ไปจนถึงพื้นที่จัดเก็บร่วม (G4) กำลังมีประสิทธิภาพลดลง:
เมื่อบริบทล้นจาก GPU (G1) ไปยัง RAM ของระบบ (G2) และในที่สุดไปยังพื้นที่จัดเก็บร่วม (G4) ประสิทธิภาพจะลดลงอย่างมาก การย้ายบริบทที่ใช้งานอยู่ไปยังชั้น G4 ทำให้เกิดความล่าช้าระดับมิลลิวินาทีและเพิ่มต้นทุนพลังงานต่อโทเค็น ทำให้ GPU ราคาแพงว่างเปล่าในขณะที่รอข้อมูล
สำหรับองค์กร สิ่งนี้ส่งผลให้ Total Cost of Ownership (TCO) สูงขึ้น โดยพลังงานถูกใช้ไปกับโครงสร้างพื้นฐานแทนที่จะใช้ในการประมวลผลที่มีประสิทธิภาพ
ชั้นหน่วยความจำใหม่สำหรับโรงงาน AI
การตอบสนองของอุตสาหกรรมคือการแทรกชั้นที่สร้างขึ้นเฉพาะลงในลำดับชั้นนี้ แพลตฟอร์ม ICMS สร้างชั้น "G3.5" — ชั้น flash ที่เชื่อมต่อกับ Ethernet ที่ออกแบบมาโดยเฉพาะสำหรับการอนุมานระดับ gigascale
วิธีการนี้รวมการจัดเก็บโดยตรงเข้ากับ compute pod โดยใช้ NVIDIA BlueField-4 data processor แพลตฟอร์มนี้ช่วยลดภาระการจัดการข้อมูลบริบทจาก host CPU ระบบให้ความจุที่ใช้ร่วมกันระดับเพตาไบต์ต่อ pod เพิ่มการปรับขนาดของ AI แบบ agentic โดยอนุญาตให้เอเจนต์เก็บประวัติจำนวนมากโดยไม่ต้องใช้ HBM ที่มีราคาแพง
ประโยชน์ในการดำเนินงานสามารถวัดได้ทั้งด้านปริมาณงานและพลังงาน โดยการเก็บบริบทที่เกี่ยวข้องไว้ในชั้นกลางนี้ ซึ่งเร็วกว่าการจัดเก็บมาตรฐานแต่ถูกกว่า HBM ระบบสามารถ "prestage" หน่วยความจำกลับไปยัง GPU ก่อนที่จะต้องการ ซึ่งลดเวลาว่างของตัวถอดรหัส GPU ช่วยให้มีอัตราการประมวลผลโทเค็น (tokens-per-second หรือ TPS) สูงขึ้นถึง 5 เท่าสำหรับเวิร์กโหลดที่ต้องการบริบทยาว
ในแง่ของพลังงาน ผลกระทบก็วัดได้เช่นกัน เนื่องจากสถาปัตยกรรมนี้ลดค่าโสหุ้ยของโปรโตคอลการจัดเก็บทั่วไป จึงให้ประสิทธิภาพการใช้พลังงานดีกว่าวิธีดั้งเดิมถึง 5 เท่า
การรวม data plane
การใช้สถาปัตยกรรมนี้ต้องมีการเปลี่ยนแปลงวิธีที่ทีม IT มองเครือข่ายการจัดเก็บ แพลตฟอร์ม ICMS ใช้ NVIDIA Spectrum-X Ethernet เพื่อให้การเชื่อมต่อแบนด์วิดท์สูงและ jitter ต่ำที่จำเป็นในการใช้พื้นที่จัดเก็บ flash เสมือนเป็นหน่วยความจำในเครื่อง
สำหรับทีมโครงสร้างพื้นฐานองค์กร จุดบูรณาการคือชั้นการจัดการ เฟรมเวิร์กเช่น NVIDIA Dynamo และ Inference Transfer Library (NIXL) จัดการการเคลื่อนย้ายของบล็อก KV ระหว่างชั้น
เครื่องมือเหล่านี้ประสานงานกับชั้นการจัดเก็บเพื่อให้แน่ใจว่าบริบทที่ถูกต้องถูกโหลดเข้าไปในหน่วยความจำ GPU (G1) หรือหน่วยความจำโฮสต์ (G2) เมื่อโมเดล AI ต้องการ เฟรมเวิร์ก NVIDIA DOCA สนับสนุนสิ่งนี้โดยให้เลเยอร์การสื่อสาร KV ที่จัดการแคชบริบทเป็นทรัพยากรสำคัญ
ผู้ให้บริการจัดเก็บข้อมูลรายใหญ่กำลังปรับตัวเข้ากับสถาปัตยกรรมนี้ บริษัทต่างๆ เช่น AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data และ WEKA กำลังพัฒนาแพลตฟอร์มด้วย BlueField-4 โซลูชันเหล่านี้คาดว่าจะพร้อมใช้งานในช่วงครึ่งหลังของปีนี้
การกำหนดโครงสร้างพื้นฐานใหม่สำหรับการปรับขนาด AI แบบ agentic
การใช้ชั้นหน่วยความจำบริบทเฉพาะส่งผลกระทบต่อการวางแผนความจุและการออกแบบศูนย์ข้อมูล:
- การจัดประเภทข้อมูลใหม่: CIO ต้องรู้จัก KV cache เป็นประเภทข้อมูลที่ไม่เหมือนใคร เป็น "ชั่วคราวแต่ไวต่อความล่าช้า" แตกต่างจากข้อมูลการปฏิบัติตามกฎระเบียบที่ "คงทนและเย็น" ชั้น G3.5 จัดการกับข้อมูลประเภทแรก ช่วยให้การจัดเก็บ G4 ที่คงทนสามารถมุ่งเน้นไปที่บันทึกและสิ่งประดิษฐ์ระยะยาว
- ความสมบูรณ์ของการจัดการ: ความสำเร็จขึ้นอยู่กับซอฟต์แวร์ที่สามารถวางเวิร์กโหลดอย่างชาญฉลาด ระบบใช้การจัดการที่รับรู้โทโพโลยี (ผ่าน NVIDIA Grove) เพื่อวางงานใกล้กับบริบทที่แคชไว้ ลดการเคลื่อนย้ายข้อมูลข้ามเครือข่าย
- ความหนาแน่นของพลังงาน: การใส่ความจุที่ใช้งานได้มากขึ้นในพื้นที่แร็คเดียวกัน องค์กรสามารถยืดอายุการใช้งานของสิ่งอำนวยความสะดวกที่มีอยู่ อย่างไรก็ตาม สิ่งนี้เพิ่มความหนาแน่นของการประมวลผลต่อตารางเมตร ซึ่งต้องการการวางแผนการระบายความร้อนและการจ่ายพลังงานที่เพียงพอ
การเปลี่ยนไปสู่ AI แบบ agentic บังคับให้มีการปรับโครงสร้างทางกายภาพของศูนย์ข้อมูล โมเดลที่แพร่หลายในการแยกการประมวลผลออกจากการจัดเก็บถาวรที่ช้าโดยสิ้นเชิงไม่สามารถใช้งานร่วมกับความต้องการการเรียกคืนแบบเรียลไทม์ของเอเจนต์ที่มีความจำแบบถ่ายภาพได้
ด้วยการแนะนำชั้นบริบทเฉพาะทาง องค์กรสามารถแยกการเติบโตของหน่วยความจำโมเดลออกจากต้นทุนของ GPU HBM สถาปัตยกรรมนี้สำหรับ AI แบบ agentic ช่วยให้เอเจนต์หลายตัวสามารถแชร์พูลหน่วยความจำขนาดใหญ่ที่ใช้พลังงานต่ำเพื่อลดต้นทุนในการให้บริการคำถามที่ซับซ้อน และเพิ่มการปรับขนาดโดยช่วยให้การประมวลผลมีประสิทธิภาพสูง
เมื่อองค์กรวางแผนรอบการลงทุนโครงสร้างพื้นฐานครั้งต่อไป การประเมินประสิทธิภาพของลำดับชั้นหน่วยความจำจะมีความสำคัญเท่ากับการเลือก GPU เอง
Why it matters
💡 ข่าวนี้เป็นสาระสำคัญสำหรับผู้ที่ทำงานด้านเทคโนโลยี AI และผู้บริหารไอทีที่วางแผนโครงสร้างพื้นฐานองค์กร เพราะเผยให้เห็นถึงความท้าทายด้านหน่วยความจำที่เป็นคอขวดสำคัญในการปรับขนาด AI แบบ Agentic สถาปัตยกรรมหน่วยความจำแบบใหม่จาก NVIDIA จะเปลี่ยนวิธีการออกแบบระบบ AI ในอนาคต ช่วยลดต้นทุนการดำเนินงาน เพิ่มประสิทธิภาพการใช้พลังงานได้ถึง 5 เท่า และเพิ่มความเร็วในการประมวลผลโทเค็น ผู้อ่านจะเข้าใจแนวโน้มที่จะกำหนดอนาคตของอุตสาหกรรม AI และการลงทุนด้านไอทีในปีต่อๆ ไป
ข้อมูลอ้างอิงจาก https://www.artificialintelligence-news.com/news/agentic-ai-scaling-requires-new-memory-architecture/