ต้นทุน AI Inference ดิ่งลงกว่า 90% ภายในปี 2030 — Gartner ชี้แนวโน้มสำคัญที่ CIO ต้องรู้

Gartner คาดต้นทุน AI Inference จะลดลงกว่า 90% ภายในปี 2030 แต่ Enterprise อาจไม่ได้ประโยชน์เต็มที่ เพราะ Agentic AI ต้องการ Token มากกว่าเดิมถึง 30 เท่า CIO จึงต้องวางกลยุทธ์ให้สมดุลระหว่างต้นทุนและคุณค่าที่แท้จริง

ต้นทุน AI Inference ดิ่งลงกว่า 90% ภายในปี 2030 — Gartner ชี้แนวโน้มสำคัญที่ CIO ต้องรู้

Key takeaway

  • Gartner คาดการณ์ว่าต้นทุน AI Inference บน Model ขนาด 1 Trillion Parameters จะลดลงกว่า 90% ภายในปี 2030 ขับเคลื่อนโดยความก้าวหน้าด้าน Hardware, Model Design, Edge Computing และ Inference-Specialized Chip ที่มีประสิทธิภาพสูงขึ้นอย่างต่อเนื่อง
  • แม้ Token Cost จะถูกลง แต่ Enterprise อาจไม่ได้รับประโยชน์เต็มที่ เพราะ Agentic AI และ High-Value Application ที่ซับซ้อนขึ้นต้องการ Token ต่อ Task มากกว่า Generative AI ทั่วไปถึง 5–30 เท่า ทำให้ค่าใช้จ่ายโดยรวมอาจสูงขึ้นแทนที่จะลดลง
  • CIO ต้องวางกลยุทธ์สมดุลระหว่าง Low-Value Use Case กับ Frontier Capability อย่างรอบคอบ เพราะการมุ่งหน้าสู่ Frontier เพียงอย่างเดียวจะทำให้ Token Cost พุ่งสูงจนถึงจุดที่ทำกำไรไม่ได้ ขณะที่การโฟกัสแค่ Low-Value AI ก็ไม่สร้างความแตกต่างจาก Open Source ได้เช่นกัน

Gartner เปิดเผยการคาดการณ์ครั้งสำคัญว่า ต้นทุนในการรัน Inference บน AI Model ขนาด 1 Trillion Parameters จะลดลงกว่า 90% ภายในปี 2030 เมื่อเทียบกับปีที่ผ่านมา โดยผู้ให้บริการ Large Language Model (LLM) จะสามารถพัฒนาประสิทธิภาพด้านต้นทุนได้สูงถึง 100 เท่า ภายในระยะเวลาเพียง 4 ปีข้างหน้า เมื่อเปรียบเทียบกับ Model รุ่นบุกเบิกในปี 2022

ปัจจัยสำคัญที่เร่งให้ต้นทุนลดลงอย่างก้าวกระโดดในครั้งนี้ ได้แก่ การพัฒนาด้าน Hardware และ Model Design ควบคู่ไปกับการประมวลผล Inference บน Edge Device และ Inference-Specialized Chip ที่มีประสิทธิภาพสูงขึ้นอย่างต่อเนื่อง


Enterprise ยังไม่ได้ประโยชน์เต็มที่ แม้ต้นทุนจะลดลง

แม้ภาพรวมจะดูสดใส แต่ Gartner เตือนว่าฝั่ง Enterprise อาจไม่ได้รับประโยชน์จากการลดต้นทุนดังกล่าวอย่างเต็มเม็ดเต็มหน่วย โดยเฉพาะเมื่อความต้องการใช้งาน Frontier Capability อย่าง Agentic AI พุ่งสูงขึ้นอย่างต่อเนื่อง ซึ่งระบบดังกล่าวต้องการจำนวน Token ต่อ Task มากกว่า Generative AI Use Case ทั่วไปอย่างมีนัยสำคัญ ทั้งนี้ Token คือหน่วยข้อมูลพื้นฐานที่ AI Model ใช้ในการประมวลผลและสร้างผลลัพธ์

Will Sommer, Senior Director Analyst แห่ง Gartner ให้สัมภาษณ์กับ CIO Dive ว่า

"ใช่ Token Cost กำลังลดลง และนั่นจะช่วย Unlock ความสามารถที่มีมูลค่าค่อนข้างต่ำซึ่งจะถูก Embed เข้าสู่ Ecosystem ที่มีอยู่เดิม แต่ขณะเดียวกัน มันก็จะ Unlock High-Value Application ด้วยเช่นกัน และ Application เหล่านั้นจะมีราคาแพงขึ้น ไม่ใช่ถูกลง"

Sommer ย้ำว่า CIO จำเป็นต้องให้ความสำคัญกับคุณค่าที่องค์กรได้รับจริง และสร้างสมดุลระหว่างการลงทุนใน Low-Hanging Fruit กับ Cutting-Edge Capability อย่างรอบคอบ แม้ว่า Inference Cost สำหรับผู้ให้บริการ LLM จะมีแนวโน้มถูกลงก็ตาม

นอกจากนี้ Sommer ยังเสริมอีกว่า

"Token Cost กำลังลดลงก็จริง แต่เราทราบดีว่า Lab ขนาดใหญ่ส่วนใหญ่ยังไม่ได้ทำกำไร พวกเขายังคงขาดทุนอยู่ การที่จะพลิกมาทำกำไรได้นั้น พวกเขาต้องบริหารต้นทุนให้ต่ำกว่า Revenue การเพิ่มประสิทธิภาพ Model คือหนึ่งในแนวทางที่ทำได้ ดังนั้น Customer จึงไม่ได้รับส่วนลดนั้นทั้งหมด"

Model ขนาดเล็กถูกลง แต่ความซับซ้อนดันราคาพุ่ง

สำหรับ Generative AI ในกลุ่มที่ใช้ Model ขนาดต่ำกว่า 100 Billion Parameters นั้น มีแนวโน้มที่ต้นทุนการรันจะลดลงอย่างชัดเจน เนื่องจาก Inference Model มีประสิทธิภาพด้านต้นทุนสูงขึ้นอย่างต่อเนื่อง โดย Sommer ระบุว่าบริษัท Tech รายใหญ่มักจะ Embed ต้นทุนเหล่านี้เข้าไปในบริการของตนโดยตรง หรือไม่เช่นนั้นก็จะเผชิญกับการแข่งขันจากฝั่ง Open Source ที่พร้อมให้บริการ Capability ดังกล่าวอย่างเปิดกว้าง

อย่างไรก็ตาม เมื่อ Model มีความซับซ้อนมากขึ้น Sommer ชี้ว่า Model เหล่านั้นจะต้องการ Token จำนวนมากขึ้นตามไปด้วย และ Token เหล่านั้นก็มีราคาสูงกว่ารุ่นเดิมอีกด้วย

ยกตัวอย่างที่เห็นภาพชัดเจน หาก Enterprise ต้องการ Upgrade จาก Generative AI Chatbot ไปสู่ Agentic Assistant นั้น Sommer อธิบายว่า

"ไม่ใช่แค่ว่า Personal Assistant จะส่ง Query มากขึ้นเท่านั้น แต่ทุกๆ Query เดียวมีต้นทุนสูงถึง 5 ถึง 30 เท่าของ Token ที่เคยใช้"

CIO ต้องสร้างสมดุลระหว่าง Low-Value และ Frontier AI

เพื่อสร้างความแตกต่างจาก Generic Offering หรือผู้ให้บริการ Open Source CIO จำเป็นต้องปรับตัวและเลื่อนขึ้นไปใน "Complexity Scale" เพื่อสร้างคุณค่าที่สมดุลกับ Token Spend ที่ใช้ไปจริง

แต่ Sommer เน้นย้ำว่านี่คือการสร้างสมดุลที่ละเอียดอ่อน โดยกล่าวว่า

"คุณไม่สามารถเอาชนะได้ด้วยการโต้คลื่นของ Low-Value Generative AI เพียงอย่างเดียว และในขณะเดียวกัน ก็ไม่สามารถโต้ทุกคลื่นที่อยู่ใน Frontier ได้เช่นกัน หากคุณเคลื่อนตัวเข้าหา Frontier อยู่ตลอดเวลา Token Cost ของคุณจะพุ่งสูงขึ้นจนถึงจุดที่ทำกำไรไม่ได้เลย"

สรุปแล้ว แม้แนวโน้มต้นทุน AI Inference จะลดลงอย่างมีนัยสำคัญในระยะยาว แต่องค์กรที่ต้องการใช้ประโยชน์จาก AI อย่างแท้จริงจำเป็นต้องวางกลยุทธ์อย่างรอบคอบ โดยคำนึงถึงทั้งคุณค่าที่ได้รับและต้นทุนที่แท้จริงในแต่ละ Use Case ไปพร้อมกัน

Why it matters

💡 Gartner เปิดเผยว่าต้นทุน AI Inference จะลดลงกว่า 90% ภายในปี 2030 ซึ่งฟังดูเป็นข่าวดีสำหรับองค์กร แต่ความเป็นจริงซับซ้อนกว่านั้นมาก เพราะ Agentic AI และ Frontier Model ที่กำลังมาแรงกลับใช้ Token มากขึ้นหลายสิบเท่า ทำให้ค่าใช้จ่ายจริงอาจไม่ได้ลดลงอย่างที่คิด บทความนี้จึงเป็นสิ่งที่ CIO และนักวางกลยุทธ์ด้าน AI ต้องอ่าน เพื่อวางแผนการลงทุนได้อย่างชาญฉลาดและสร้างผลตอบแทนที่แท้จริงให้องค์กร

ข้อมูลอ้างอิงจาก https://www.ciodive.com/news/ai-inference-costs-drop-2030-gartner/815725/

Read more

OpenAI ปิดตัว Sora และยุติดีลกับ Disney ในการปรับทิศทาง AI ครั้งสำคัญ

news

OpenAI ปิดตัว Sora และยุติดีลกับ Disney ในการปรับทิศทาง AI ครั้งสำคัญ

OpenAI ปิดตัว Sora แอปสร้างวิดีโอ AI และยุติดีลกับ Disney เพื่อปรับทิศทางองค์กรไปสู่ Robotics และ Agentic AI ท่ามกลางการแข่งขันในตลาดวิดีโอ AI ที่เข้มข้นขึ้นเรื่อยๆ

By
Google เปิดตัว Gemma 4: Open-Source AI Model ตัวใหม่ พร้อมวิธีเริ่มต้นใช้งาน

news

Google เปิดตัว Gemma 4: Open-Source AI Model ตัวใหม่ พร้อมวิธีเริ่มต้นใช้งาน

Google เปิดตัว Gemma 4 โมเดล AI แบบ Open-Source ภายใต้ Apache 2.0 License ใช้งานฟรี รันบน Local Device ได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต รองรับ 140 ภาษา และ Context Window สูงสุด 256,000 Tokens

By
Granola สตาร์ทอัพ AI จากลอนดอน ระดมทุน $125 ล้าน ดัน Valuation พุ่งแตะ $1.5 พันล้าน ในเวลาไม่ถึงสามปี

news

Granola สตาร์ทอัพ AI จากลอนดอน ระดมทุน $125 ล้าน ดัน Valuation พุ่งแตะ $1.5 พันล้าน ในเวลาไม่ถึงสามปี

Granola สตาร์ทอัพ AI Meeting App สัญชาติอังกฤษ ระดมทุน Series C ได้ $125 ล้าน นำโดย Index Ventures และ Kleiner Perkins ดัน Valuation พุ่งแตะ $1.5 พันล้าน กลายเป็น Unicorn ในเวลาไม่ถึงสามปีนับจากก่อตั้ง

By
Google TurboQuant: อัลกอริทึมใหม่เร่งความเร็ว AI Memory 8 เท่า ลดต้นทุนกว่า 50%

news

Google TurboQuant: อัลกอริทึมใหม่เร่งความเร็ว AI Memory 8 เท่า ลดต้นทุนกว่า 50%

Google Research เปิดตัว TurboQuant อัลกอริทึม software-only ที่แก้ปัญหา KV Cache Bottleneck ของ LLMs ลด memory ได้ 6 เท่า เพิ่มความเร็ว attention 8 เท่า และลดต้นทุน enterprise กว่า 50% โดยไม่กระทบประสิทธิภาพโมเดล

By