OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง

OpenAI เปิดเผยผลทดสอบ AI รุ่นใหม่ผ่านเกณฑ์ GDPval พบว่า Claude Opus 4.1 และ GPT-5 มีประสิทธิภาพใกล้เคียงผู้เชี่ยวชาญในหลายด้าน แต่ยังมีข้อจำกัดในงานที่ต้องการความยืดหยุ่นและการตัดสินใจซับซ้อน

OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง

Key takeaway

  • OpenAI ได้เปิดตัวเกณฑ์การประเมินใหม่ที่เรียกว่า "GDPval" เพื่อวัดประสิทธิภาพของ AI ในการทำงานจริง โดยทดสอบกับงาน 1,320 งานใน 44 อาชีพ ครอบคลุม 9 อุตสาหกรรมหลัก
  • ผลการทดสอบพบว่า Claude Opus 4.1 ทำงานได้ดีที่สุดในด้านความสวยงามของงาน ขณะที่ GPT-5 โดดเด่นในด้านความแม่นยำของข้อมูล และโมเดล AI สามารถทำงานได้เร็วกว่าและประหยัดกว่ามนุษย์ถึง 100 เท่า
  • แม้ว่า AI จะมีประสิทธิภาพดี แต่ยังมีข้อจำกัดในการทำงานที่ต้องการการโต้ตอบ การแก้ไขตามคำติชม หรืองานที่ต้องการความเข้าใจบริบทที่ซับซ้อน ซึ่งยังคงต้องพึ่งพามนุษย์อยู่มาก

แม้ว่าเครื่องมือ AI จำนวนมากเข้าสู่ตลาดพร้อมคำมั่นสัญญาว่าจะเพิ่มประสิทธิภาพและทำงานอัตโนมัติ แต่ผลลัพธ์จนถึงปัจจุบันยังไม่น่าพอใจ รายงานล่าสุดจาก MIT ระบุว่า 95% ของโครงการ AI ในองค์กรล้มเหลว ขณะที่ผู้บริหารกำลังได้รับผลงานที่เรียกว่า "workslop" จากพนักงาน ซึ่งกลับสร้างชั่วโมงการทำงานเพิ่มขึ้น—ไม่ใช่ผลลัพธ์ตามที่ตั้งใจ

การประเมินแบบใหม่ของ OpenAI ที่เรียกว่า GDPval มีเป้าหมายเปลี่ยนแปลงสิ่งนี้โดย "วัดว่า AI สามารถทำงานในโลกจริงที่มีคุณค่าทางเศรษฐกิจได้อย่างไร" ตามประกาศเมื่อวันพฤหัสบดี บริษัทและผู้ทดสอบภายนอกใช้มาตรฐานอุตสาหกรรมและการประเมินอื่นๆ เพื่อวัดความสามารถของโมเดลในงานเช่นการเขียนโค้ดและคณิตศาสตร์ อย่างไรก็ตาม การทดสอบเหล่านี้มักเน้นเชิงวิชาการมากกว่าการใช้งานจริง GDPval จึงมุ่งลดช่องว่างระหว่างทฤษฎีและการปฏิบัติ

GDPval วัดอะไร

GDPval วัดความสามารถของโมเดลในการจัดการงาน 1,320 งานที่เกี่ยวข้องกับ 44 อาชีพ—ส่วนใหญ่เป็นงานที่ใช้ความรู้—ใน 9 อุตสาหกรรมหลักที่มีสัดส่วนมากกว่า 5% ของ GDP สหรัฐฯ

โดยใช้ข้อมูลจากสำนักงานสถิติแรงงานสหรัฐฯ (BLS) และฐานข้อมูล O*NET ของกระทรวงแรงงาน OpenAI รวมอาชีพที่คาดหวังว่าจะได้รับผลกระทบจาก AI เช่น วิศวกรซอฟต์แวร์ ทนายความ และนักตัดต่อวิดีโอ รวมถึงอาชีพที่ยังไม่ค่อยได้รับผลกระทบมากนัก เช่น นักสืบ เภสัชกร และนักสังคมสงเคราะห์

ตาม OpenAI งานเหล่านี้ถูกออกแบบโดยผู้เชี่ยวชาญที่มีประสบการณ์เฉลี่ย 14 ปีในสาขาที่เกี่ยวข้อง เพื่อจำลอง "ผลงานจริง เช่น เอกสารทางกฎหมาย พิมพ์เขียวทางวิศวกรรม การสนทนาสนับสนุนลูกค้า หรือแผนการดูแลพยาบาล"

"ไม่เหมือนการประเมินอื่นๆ ที่เชื่อมโยงกับมูลค่าทางเศรษฐกิจซึ่งมุ่งเน้นเฉพาะโดเมน (เช่น SWE-Lancer) GDPval ครอบคลุมงานและอาชีพที่หลากหลาย" OpenAI ชี้แจง แทนที่จะใช้เพียง text prompts GDPval ให้ไฟล์อ้างอิงแก่โมเดลและวัดผลลัพธ์แบบ multimodal เช่น สไลด์และเอกสารเพื่อจำลองความคาดหวังในสภาพแวดล้อมการทำงานจริง

"ความสมจริงนี้ทำให้ GDPval เป็นการทดสอบที่สะท้อนว่าโมเดลสามารถสนับสนุนผู้เชี่ยวชาญได้อย่างไรในโลกจริง" OpenAI กล่าวเพิ่มเติม

โมเดลทำงานได้อย่างไร

OpenAI ให้ผู้เชี่ยวชาญที่มีประสบการณ์ประเมินผลลัพธ์จากโมเดล GPT-4o, o4-mini, o3 และ GPT-5 ของ OpenAI รวมถึง Claude Opus 4.1 ของ Anthropic, Gemini 2.5 Pro ของ Google และ Grok 4 ของ xAI โดยไม่ทราบที่มา ผู้ประเมินเปรียบเทียบผลงานเหล่านี้กับผลงานที่มนุษย์สร้าง

OpenAI ยังใช้ระบบ "autograder" ที่ขับเคลื่อนด้วย AI เพื่อทำนายว่ามนุษย์จะประเมินผลงานอย่างไร บริษัทเตรียมเปิดตัว autograder เป็นเครื่องมือวิจัยทดลอง แม้ว่าจะเตือนว่าไม่น่าเชื่อถือเท่าผู้ประเมินที่เป็นมนุษย์

"เราพบว่าโมเดล frontier ที่ดีที่สุดในปัจจุบันกำลังเข้าใกล้คุณภาพงานที่ผลิตโดยผู้เชี่ยวชาญในอุตสาหกรรม" OpenAI ระบุ "Claude Opus 4.1 เป็นโมเดลที่ทำงานได้ดีที่สุดในชุด โดยเฉพาะอย่างยิ่งในด้านความสวยงาม (เช่น การจัดรูปแบบเอกสาร การจัดวางสไลด์) และ GPT-5 โดดเด่นในด้านความแม่นยำ (เช่น การค้นหาความรู้เฉพาะโดเมน)"

ผลการวิจัยยังแสดงให้เห็นว่าประสิทธิภาพ "เพิ่มขึ้นมากกว่าสองเท่าจาก GPT-4o (เปิดตัวในฤดูใบไม้ผลิ 2024) ถึง GPT-5 (เปิดตัวในฤดูร้อน 2025)" ซึ่งบ่งชี้ว่าความสามารถของโมเดลกำลังพัฒนาอย่างรวดเร็ว

ประเด็นสำคัญอีกประการคือต้นทุน

"เราพบว่าโมเดล frontier สามารถทำงาน GDPval เสร็จเร็วกว่าและถูกกว่าผู้เชี่ยวชาญในอุตสาหกรรมประมาณ 100 เท่า" OpenAI ระบุ "อย่างไรก็ตาม ตัวเลขเหล่านี้สะท้อนเพียงเวลาการประมวลผลโมเดลและอัตราการเรียกเก็บเงิน API เท่านั้น และไม่ได้รวมถึงการกำกับดูแลของมนุษย์ การทำซ้ำ และขั้นตอนการบูรณาการที่จำเป็นในสภาพแวดล้อมการทำงานจริง"

ข้อควรระวัง

OpenAI ยอมรับว่า GDPval เป็น "เพียงขั้นตอนเริ่มต้นที่ไม่สะท้อนความละเอียดอ่อนทั้งหมดของงานทางเศรษฐกิจหลายอย่าง" การประเมินทำเพียงครั้งเดียว จึงไม่สามารถวัดได้ว่าโมเดลจะจัดการงานหลายฉบับหรือเข้าใจบริบทของโครงการที่ต่อเนื่องได้อย่างไร ตัวอย่างเช่น GDPval ไม่สามารถประเมินว่าโมเดลจะแก้ไขเอกสารตามคำติชมของลูกค้าหรือวิเคราะห์ข้อมูลเกี่ยวกับความผิดปกติใหม่ๆ ได้อย่างไร

OpenAI ยังชี้ให้เห็นว่างานในโลกจริงไม่ได้ชัดเจนเสมอไป—ไม่ใช่ทุกงานมาพร้อมกับชุดไฟล์ที่จัดระเบียบหรือคำสั่งที่ชัดเจน บทบาทสำคัญของมนุษย์ในการสำรวจปัญหาผ่านการสนทนาและจัดการกับความคลุมเครือหรือสถานการณ์ที่เปลี่ยนแปลงไม่สามารถวัดได้ด้วย GDPval ในปัจจุบัน

"งานส่วนใหญ่มากกว่าแค่การรวมภารกิจที่เขียนลงในคำสั่งได้" OpenAI ยอมรับ

บริษัทกล่าวว่าการพัฒนาในอนาคตจะครอบคลุมอุตสาหกรรมที่หลากหลายมากขึ้นและงานที่ยากต่อการทำให้เป็นอัตโนมัติ เช่น งานที่ต้องใช้ขั้นตอนแบบโต้ตอบหรือต้องการบริบทก่อนหน้ามาก (สิ่งที่ AI agents ยังมีข้อจำกัด) OpenAI จะเปิดตัวชุดย่อยของงาน GDPval สำหรับนักวิจัยเพื่อพัฒนาต่อยอด

อนาคตที่รออยู่

ข้อสรุปของ OpenAI คือสิ่งที่เราคุ้นเคยกันดี—AI จะยังคงเปลี่ยนแปลงตลาดแรงงานอย่างหลีกเลี่ยงไม่ได้ และในทางทฤษฎีสามารถรับงานที่ซ้ำซากเพื่อให้พนักงานมีเวลาสำหรับงานที่ซับซ้อนและสร้างสรรค์มากขึ้น

"โดยเฉพาะในชุดงานที่โมเดลมีความแข็งแกร่งเป็นพิเศษ เราคาดว่าการมอบหมายงานให้โมเดลก่อนที่จะลองกับมนุษย์จะประหยัดทั้งเวลาและเงิน" OpenAI กล่าว

แม้จะชี้ว่าโมเดลสามารถแข่งขันกับผู้เชี่ยวชาญที่เป็นมนุษย์ได้ในบางด้าน OpenAI ยังคงย้ำแนวทางที่คุ้นเคย: บริษัทมุ่งกระจายการเข้าถึงเครื่องมือ AI เพื่อ "สนับสนุนแรงงานผ่านช่วงเปลี่ยนผ่าน และสร้างระบบที่ให้รางวัลกับการมีส่วนร่วมอย่างกว้างขวาง"

"เป้าหมายของเราคือให้ทุกคนอยู่บน 'ลิฟต์ขาขึ้น' ของ AI" บริษัทกล่าว—แม้ว่าจะขัดแย้งกับการสำรวจล่าสุดที่แสดงว่าไม่ใช่ทุกคนกำลังได้รับประสบการณ์นั้นตั้งแต่ต้น

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่ทำงานในวงการเทคโนโลยีและผู้ที่สนใจการพัฒนาของ AI เพราะเป็นการเปิดเผยผลการทดสอบประสิทธิภาพจริงของ AI รุ่นล่าสุดอย่าง GPT-5, Claude และ Gemini ในการทำงานจริง ผ่านเกณฑ์การประเมินใหม่ที่เรียกว่า GDPval ซึ่งจะช่วยให้เข้าใจข้อจำกัดและความสามารถที่แท้จริงของ AI ในการทำงานร่วมกับมนุษย์ รวมถึงผลกระทบที่อาจเกิดขึ้นกับตลาดแรงงานในอนาคต

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openai-tested-gpt-5-claude-and-gemini-on-real-world-tasks-the-results-were-surprising/

Read more

AWS ที่ทำให้อินเทอร์เน็ตล่มเกิดขึ้นหลังจาก Amazon เลิกจ้างพนักงานจำนวนมากเพื่อใช้ AI แทน

news

AWS ที่ทำให้อินเทอร์เน็ตล่มเกิดขึ้นหลังจาก Amazon เลิกจ้างพนักงานจำนวนมากเพื่อใช้ AI แทน

AWS ประสบปัญหาระบบล่มครั้งใหญ่ ส่งผลให้บริการออนไลน์ทั่วโลกหยุดชะงัก เหตุการณ์นี้เกิดขึ้นหลังจาก Amazon เลิกจ้างพนักงานจำนวนมากเพื่อนำ AI มาใช้แทน สะท้อนให้เห็นถึงความเสี่ยงของการพึ่งพาเทคโนโลยีมากเกินไป

By
อเมซอนเปิดตัวต้นแบบแว่นตาอัจฉริยะ AI สำหรับพนักงานส่งของ

news

อเมซอนเปิดตัวต้นแบบแว่นตาอัจฉริยะ AI สำหรับพนักงานส่งของ

Amazon เปิดตัวแว่นตาอัจฉริยะ Amelia ที่ใช้ AI ช่วยพนักงานส่งของทำงานได้มีประสิทธิภาพมากขึ้น มาพร้อมกล้องและจอแสดงผลในตัว ทำงานร่วมกับเสื้อกั๊กพิเศษ กำลังทดสอบกับพันธมิตรหลายราย

By
Meta ปลดพนักงาน 600 ตำแหน่งในห้องปฏิบัติการ AI Superintelligence

news

Meta ปลดพนักงาน 600 ตำแหน่งในห้องปฏิบัติการ AI Superintelligence

Meta ประกาศปลดพนักงาน 600 ตำแหน่งในแผนก Superintelligence Labs เพื่อลดความซับซ้อนขององค์กร แต่ยืนยันว่ายังคงให้ความสำคัญกับการพัฒนา AI และจะเร่งจ้างนักวิจัยใหม่ในทีม TBD

By
Target ใช้ AI สร้างความแตกต่างในธุรกิจค้าปลีก

news

Target ใช้ AI สร้างความแตกต่างในธุรกิจค้าปลีก

Target เดินหน้าใช้ AI ปฏิวัติธุรกิจค้าปลีก ผ่านแพลตฟอร์ม Target Trend Brain วิเคราะห์เทรนด์ตลาด พร้อมพัฒนาระบบคัดกรองผู้ขายและยกระดับทักษะพนักงานทั่วองค์กร เพื่อสร้างความแตกต่างในตลาด

By