OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง
OpenAI เปิดเผยผลทดสอบ AI รุ่นใหม่ผ่านเกณฑ์ GDPval พบว่า Claude Opus 4.1 และ GPT-5 มีประสิทธิภาพใกล้เคียงผู้เชี่ยวชาญในหลายด้าน แต่ยังมีข้อจำกัดในงานที่ต้องการความยืดหยุ่นและการตัดสินใจซับซ้อน

Key takeaway
- OpenAI ได้เปิดตัวเกณฑ์การประเมินใหม่ที่เรียกว่า "GDPval" เพื่อวัดประสิทธิภาพของ AI ในการทำงานจริง โดยทดสอบกับงาน 1,320 งานใน 44 อาชีพ ครอบคลุม 9 อุตสาหกรรมหลัก
- ผลการทดสอบพบว่า Claude Opus 4.1 ทำงานได้ดีที่สุดในด้านความสวยงามของงาน ขณะที่ GPT-5 โดดเด่นในด้านความแม่นยำของข้อมูล และโมเดล AI สามารถทำงานได้เร็วกว่าและประหยัดกว่ามนุษย์ถึง 100 เท่า
- แม้ว่า AI จะมีประสิทธิภาพดี แต่ยังมีข้อจำกัดในการทำงานที่ต้องการการโต้ตอบ การแก้ไขตามคำติชม หรืองานที่ต้องการความเข้าใจบริบทที่ซับซ้อน ซึ่งยังคงต้องพึ่งพามนุษย์อยู่มาก
แม้ว่าเครื่องมือ AI จำนวนมากเข้าสู่ตลาดพร้อมคำมั่นสัญญาว่าจะเพิ่มประสิทธิภาพและทำงานอัตโนมัติ แต่ผลลัพธ์จนถึงปัจจุบันยังไม่น่าพอใจ รายงานล่าสุดจาก MIT ระบุว่า 95% ของโครงการ AI ในองค์กรล้มเหลว ขณะที่ผู้บริหารกำลังได้รับผลงานที่เรียกว่า "workslop" จากพนักงาน ซึ่งกลับสร้างชั่วโมงการทำงานเพิ่มขึ้น—ไม่ใช่ผลลัพธ์ตามที่ตั้งใจ
การประเมินแบบใหม่ของ OpenAI ที่เรียกว่า GDPval มีเป้าหมายเปลี่ยนแปลงสิ่งนี้โดย "วัดว่า AI สามารถทำงานในโลกจริงที่มีคุณค่าทางเศรษฐกิจได้อย่างไร" ตามประกาศเมื่อวันพฤหัสบดี บริษัทและผู้ทดสอบภายนอกใช้มาตรฐานอุตสาหกรรมและการประเมินอื่นๆ เพื่อวัดความสามารถของโมเดลในงานเช่นการเขียนโค้ดและคณิตศาสตร์ อย่างไรก็ตาม การทดสอบเหล่านี้มักเน้นเชิงวิชาการมากกว่าการใช้งานจริง GDPval จึงมุ่งลดช่องว่างระหว่างทฤษฎีและการปฏิบัติ
GDPval วัดอะไร
GDPval วัดความสามารถของโมเดลในการจัดการงาน 1,320 งานที่เกี่ยวข้องกับ 44 อาชีพ—ส่วนใหญ่เป็นงานที่ใช้ความรู้—ใน 9 อุตสาหกรรมหลักที่มีสัดส่วนมากกว่า 5% ของ GDP สหรัฐฯ
โดยใช้ข้อมูลจากสำนักงานสถิติแรงงานสหรัฐฯ (BLS) และฐานข้อมูล O*NET ของกระทรวงแรงงาน OpenAI รวมอาชีพที่คาดหวังว่าจะได้รับผลกระทบจาก AI เช่น วิศวกรซอฟต์แวร์ ทนายความ และนักตัดต่อวิดีโอ รวมถึงอาชีพที่ยังไม่ค่อยได้รับผลกระทบมากนัก เช่น นักสืบ เภสัชกร และนักสังคมสงเคราะห์
ตาม OpenAI งานเหล่านี้ถูกออกแบบโดยผู้เชี่ยวชาญที่มีประสบการณ์เฉลี่ย 14 ปีในสาขาที่เกี่ยวข้อง เพื่อจำลอง "ผลงานจริง เช่น เอกสารทางกฎหมาย พิมพ์เขียวทางวิศวกรรม การสนทนาสนับสนุนลูกค้า หรือแผนการดูแลพยาบาล"
"ไม่เหมือนการประเมินอื่นๆ ที่เชื่อมโยงกับมูลค่าทางเศรษฐกิจซึ่งมุ่งเน้นเฉพาะโดเมน (เช่น SWE-Lancer) GDPval ครอบคลุมงานและอาชีพที่หลากหลาย" OpenAI ชี้แจง แทนที่จะใช้เพียง text prompts GDPval ให้ไฟล์อ้างอิงแก่โมเดลและวัดผลลัพธ์แบบ multimodal เช่น สไลด์และเอกสารเพื่อจำลองความคาดหวังในสภาพแวดล้อมการทำงานจริง
"ความสมจริงนี้ทำให้ GDPval เป็นการทดสอบที่สะท้อนว่าโมเดลสามารถสนับสนุนผู้เชี่ยวชาญได้อย่างไรในโลกจริง" OpenAI กล่าวเพิ่มเติม
โมเดลทำงานได้อย่างไร
OpenAI ให้ผู้เชี่ยวชาญที่มีประสบการณ์ประเมินผลลัพธ์จากโมเดล GPT-4o, o4-mini, o3 และ GPT-5 ของ OpenAI รวมถึง Claude Opus 4.1 ของ Anthropic, Gemini 2.5 Pro ของ Google และ Grok 4 ของ xAI โดยไม่ทราบที่มา ผู้ประเมินเปรียบเทียบผลงานเหล่านี้กับผลงานที่มนุษย์สร้าง
OpenAI ยังใช้ระบบ "autograder" ที่ขับเคลื่อนด้วย AI เพื่อทำนายว่ามนุษย์จะประเมินผลงานอย่างไร บริษัทเตรียมเปิดตัว autograder เป็นเครื่องมือวิจัยทดลอง แม้ว่าจะเตือนว่าไม่น่าเชื่อถือเท่าผู้ประเมินที่เป็นมนุษย์
"เราพบว่าโมเดล frontier ที่ดีที่สุดในปัจจุบันกำลังเข้าใกล้คุณภาพงานที่ผลิตโดยผู้เชี่ยวชาญในอุตสาหกรรม" OpenAI ระบุ "Claude Opus 4.1 เป็นโมเดลที่ทำงานได้ดีที่สุดในชุด โดยเฉพาะอย่างยิ่งในด้านความสวยงาม (เช่น การจัดรูปแบบเอกสาร การจัดวางสไลด์) และ GPT-5 โดดเด่นในด้านความแม่นยำ (เช่น การค้นหาความรู้เฉพาะโดเมน)"
ผลการวิจัยยังแสดงให้เห็นว่าประสิทธิภาพ "เพิ่มขึ้นมากกว่าสองเท่าจาก GPT-4o (เปิดตัวในฤดูใบไม้ผลิ 2024) ถึง GPT-5 (เปิดตัวในฤดูร้อน 2025)" ซึ่งบ่งชี้ว่าความสามารถของโมเดลกำลังพัฒนาอย่างรวดเร็ว
ประเด็นสำคัญอีกประการคือต้นทุน
"เราพบว่าโมเดล frontier สามารถทำงาน GDPval เสร็จเร็วกว่าและถูกกว่าผู้เชี่ยวชาญในอุตสาหกรรมประมาณ 100 เท่า" OpenAI ระบุ "อย่างไรก็ตาม ตัวเลขเหล่านี้สะท้อนเพียงเวลาการประมวลผลโมเดลและอัตราการเรียกเก็บเงิน API เท่านั้น และไม่ได้รวมถึงการกำกับดูแลของมนุษย์ การทำซ้ำ และขั้นตอนการบูรณาการที่จำเป็นในสภาพแวดล้อมการทำงานจริง"
ข้อควรระวัง
OpenAI ยอมรับว่า GDPval เป็น "เพียงขั้นตอนเริ่มต้นที่ไม่สะท้อนความละเอียดอ่อนทั้งหมดของงานทางเศรษฐกิจหลายอย่าง" การประเมินทำเพียงครั้งเดียว จึงไม่สามารถวัดได้ว่าโมเดลจะจัดการงานหลายฉบับหรือเข้าใจบริบทของโครงการที่ต่อเนื่องได้อย่างไร ตัวอย่างเช่น GDPval ไม่สามารถประเมินว่าโมเดลจะแก้ไขเอกสารตามคำติชมของลูกค้าหรือวิเคราะห์ข้อมูลเกี่ยวกับความผิดปกติใหม่ๆ ได้อย่างไร
OpenAI ยังชี้ให้เห็นว่างานในโลกจริงไม่ได้ชัดเจนเสมอไป—ไม่ใช่ทุกงานมาพร้อมกับชุดไฟล์ที่จัดระเบียบหรือคำสั่งที่ชัดเจน บทบาทสำคัญของมนุษย์ในการสำรวจปัญหาผ่านการสนทนาและจัดการกับความคลุมเครือหรือสถานการณ์ที่เปลี่ยนแปลงไม่สามารถวัดได้ด้วย GDPval ในปัจจุบัน
"งานส่วนใหญ่มากกว่าแค่การรวมภารกิจที่เขียนลงในคำสั่งได้" OpenAI ยอมรับ
บริษัทกล่าวว่าการพัฒนาในอนาคตจะครอบคลุมอุตสาหกรรมที่หลากหลายมากขึ้นและงานที่ยากต่อการทำให้เป็นอัตโนมัติ เช่น งานที่ต้องใช้ขั้นตอนแบบโต้ตอบหรือต้องการบริบทก่อนหน้ามาก (สิ่งที่ AI agents ยังมีข้อจำกัด) OpenAI จะเปิดตัวชุดย่อยของงาน GDPval สำหรับนักวิจัยเพื่อพัฒนาต่อยอด
อนาคตที่รออยู่
ข้อสรุปของ OpenAI คือสิ่งที่เราคุ้นเคยกันดี—AI จะยังคงเปลี่ยนแปลงตลาดแรงงานอย่างหลีกเลี่ยงไม่ได้ และในทางทฤษฎีสามารถรับงานที่ซ้ำซากเพื่อให้พนักงานมีเวลาสำหรับงานที่ซับซ้อนและสร้างสรรค์มากขึ้น
"โดยเฉพาะในชุดงานที่โมเดลมีความแข็งแกร่งเป็นพิเศษ เราคาดว่าการมอบหมายงานให้โมเดลก่อนที่จะลองกับมนุษย์จะประหยัดทั้งเวลาและเงิน" OpenAI กล่าว
แม้จะชี้ว่าโมเดลสามารถแข่งขันกับผู้เชี่ยวชาญที่เป็นมนุษย์ได้ในบางด้าน OpenAI ยังคงย้ำแนวทางที่คุ้นเคย: บริษัทมุ่งกระจายการเข้าถึงเครื่องมือ AI เพื่อ "สนับสนุนแรงงานผ่านช่วงเปลี่ยนผ่าน และสร้างระบบที่ให้รางวัลกับการมีส่วนร่วมอย่างกว้างขวาง"
"เป้าหมายของเราคือให้ทุกคนอยู่บน 'ลิฟต์ขาขึ้น' ของ AI" บริษัทกล่าว—แม้ว่าจะขัดแย้งกับการสำรวจล่าสุดที่แสดงว่าไม่ใช่ทุกคนกำลังได้รับประสบการณ์นั้นตั้งแต่ต้น
Why it matters
💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่ทำงานในวงการเทคโนโลยีและผู้ที่สนใจการพัฒนาของ AI เพราะเป็นการเปิดเผยผลการทดสอบประสิทธิภาพจริงของ AI รุ่นล่าสุดอย่าง GPT-5, Claude และ Gemini ในการทำงานจริง ผ่านเกณฑ์การประเมินใหม่ที่เรียกว่า GDPval ซึ่งจะช่วยให้เข้าใจข้อจำกัดและความสามารถที่แท้จริงของ AI ในการทำงานร่วมกับมนุษย์ รวมถึงผลกระทบที่อาจเกิดขึ้นกับตลาดแรงงานในอนาคต
ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openai-tested-gpt-5-claude-and-gemini-on-real-world-tasks-the-results-were-surprising/