OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง

OpenAI เปิดเผยผลทดสอบ AI รุ่นใหม่ผ่านเกณฑ์ GDPval พบว่า Claude Opus 4.1 และ GPT-5 มีประสิทธิภาพใกล้เคียงผู้เชี่ยวชาญในหลายด้าน แต่ยังมีข้อจำกัดในงานที่ต้องการความยืดหยุ่นและการตัดสินใจซับซ้อน

OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง

Key takeaway

  • OpenAI ได้เปิดตัวเกณฑ์การประเมินใหม่ที่เรียกว่า "GDPval" เพื่อวัดประสิทธิภาพของ AI ในการทำงานจริง โดยทดสอบกับงาน 1,320 งานใน 44 อาชีพ ครอบคลุม 9 อุตสาหกรรมหลัก
  • ผลการทดสอบพบว่า Claude Opus 4.1 ทำงานได้ดีที่สุดในด้านความสวยงามของงาน ขณะที่ GPT-5 โดดเด่นในด้านความแม่นยำของข้อมูล และโมเดล AI สามารถทำงานได้เร็วกว่าและประหยัดกว่ามนุษย์ถึง 100 เท่า
  • แม้ว่า AI จะมีประสิทธิภาพดี แต่ยังมีข้อจำกัดในการทำงานที่ต้องการการโต้ตอบ การแก้ไขตามคำติชม หรืองานที่ต้องการความเข้าใจบริบทที่ซับซ้อน ซึ่งยังคงต้องพึ่งพามนุษย์อยู่มาก

แม้ว่าเครื่องมือ AI จำนวนมากเข้าสู่ตลาดพร้อมคำมั่นสัญญาว่าจะเพิ่มประสิทธิภาพและทำงานอัตโนมัติ แต่ผลลัพธ์จนถึงปัจจุบันยังไม่น่าพอใจ รายงานล่าสุดจาก MIT ระบุว่า 95% ของโครงการ AI ในองค์กรล้มเหลว ขณะที่ผู้บริหารกำลังได้รับผลงานที่เรียกว่า "workslop" จากพนักงาน ซึ่งกลับสร้างชั่วโมงการทำงานเพิ่มขึ้น—ไม่ใช่ผลลัพธ์ตามที่ตั้งใจ

การประเมินแบบใหม่ของ OpenAI ที่เรียกว่า GDPval มีเป้าหมายเปลี่ยนแปลงสิ่งนี้โดย "วัดว่า AI สามารถทำงานในโลกจริงที่มีคุณค่าทางเศรษฐกิจได้อย่างไร" ตามประกาศเมื่อวันพฤหัสบดี บริษัทและผู้ทดสอบภายนอกใช้มาตรฐานอุตสาหกรรมและการประเมินอื่นๆ เพื่อวัดความสามารถของโมเดลในงานเช่นการเขียนโค้ดและคณิตศาสตร์ อย่างไรก็ตาม การทดสอบเหล่านี้มักเน้นเชิงวิชาการมากกว่าการใช้งานจริง GDPval จึงมุ่งลดช่องว่างระหว่างทฤษฎีและการปฏิบัติ

GDPval วัดอะไร

GDPval วัดความสามารถของโมเดลในการจัดการงาน 1,320 งานที่เกี่ยวข้องกับ 44 อาชีพ—ส่วนใหญ่เป็นงานที่ใช้ความรู้—ใน 9 อุตสาหกรรมหลักที่มีสัดส่วนมากกว่า 5% ของ GDP สหรัฐฯ

โดยใช้ข้อมูลจากสำนักงานสถิติแรงงานสหรัฐฯ (BLS) และฐานข้อมูล O*NET ของกระทรวงแรงงาน OpenAI รวมอาชีพที่คาดหวังว่าจะได้รับผลกระทบจาก AI เช่น วิศวกรซอฟต์แวร์ ทนายความ และนักตัดต่อวิดีโอ รวมถึงอาชีพที่ยังไม่ค่อยได้รับผลกระทบมากนัก เช่น นักสืบ เภสัชกร และนักสังคมสงเคราะห์

ตาม OpenAI งานเหล่านี้ถูกออกแบบโดยผู้เชี่ยวชาญที่มีประสบการณ์เฉลี่ย 14 ปีในสาขาที่เกี่ยวข้อง เพื่อจำลอง "ผลงานจริง เช่น เอกสารทางกฎหมาย พิมพ์เขียวทางวิศวกรรม การสนทนาสนับสนุนลูกค้า หรือแผนการดูแลพยาบาล"

"ไม่เหมือนการประเมินอื่นๆ ที่เชื่อมโยงกับมูลค่าทางเศรษฐกิจซึ่งมุ่งเน้นเฉพาะโดเมน (เช่น SWE-Lancer) GDPval ครอบคลุมงานและอาชีพที่หลากหลาย" OpenAI ชี้แจง แทนที่จะใช้เพียง text prompts GDPval ให้ไฟล์อ้างอิงแก่โมเดลและวัดผลลัพธ์แบบ multimodal เช่น สไลด์และเอกสารเพื่อจำลองความคาดหวังในสภาพแวดล้อมการทำงานจริง

"ความสมจริงนี้ทำให้ GDPval เป็นการทดสอบที่สะท้อนว่าโมเดลสามารถสนับสนุนผู้เชี่ยวชาญได้อย่างไรในโลกจริง" OpenAI กล่าวเพิ่มเติม

โมเดลทำงานได้อย่างไร

OpenAI ให้ผู้เชี่ยวชาญที่มีประสบการณ์ประเมินผลลัพธ์จากโมเดล GPT-4o, o4-mini, o3 และ GPT-5 ของ OpenAI รวมถึง Claude Opus 4.1 ของ Anthropic, Gemini 2.5 Pro ของ Google และ Grok 4 ของ xAI โดยไม่ทราบที่มา ผู้ประเมินเปรียบเทียบผลงานเหล่านี้กับผลงานที่มนุษย์สร้าง

OpenAI ยังใช้ระบบ "autograder" ที่ขับเคลื่อนด้วย AI เพื่อทำนายว่ามนุษย์จะประเมินผลงานอย่างไร บริษัทเตรียมเปิดตัว autograder เป็นเครื่องมือวิจัยทดลอง แม้ว่าจะเตือนว่าไม่น่าเชื่อถือเท่าผู้ประเมินที่เป็นมนุษย์

"เราพบว่าโมเดล frontier ที่ดีที่สุดในปัจจุบันกำลังเข้าใกล้คุณภาพงานที่ผลิตโดยผู้เชี่ยวชาญในอุตสาหกรรม" OpenAI ระบุ "Claude Opus 4.1 เป็นโมเดลที่ทำงานได้ดีที่สุดในชุด โดยเฉพาะอย่างยิ่งในด้านความสวยงาม (เช่น การจัดรูปแบบเอกสาร การจัดวางสไลด์) และ GPT-5 โดดเด่นในด้านความแม่นยำ (เช่น การค้นหาความรู้เฉพาะโดเมน)"

ผลการวิจัยยังแสดงให้เห็นว่าประสิทธิภาพ "เพิ่มขึ้นมากกว่าสองเท่าจาก GPT-4o (เปิดตัวในฤดูใบไม้ผลิ 2024) ถึง GPT-5 (เปิดตัวในฤดูร้อน 2025)" ซึ่งบ่งชี้ว่าความสามารถของโมเดลกำลังพัฒนาอย่างรวดเร็ว

ประเด็นสำคัญอีกประการคือต้นทุน

"เราพบว่าโมเดล frontier สามารถทำงาน GDPval เสร็จเร็วกว่าและถูกกว่าผู้เชี่ยวชาญในอุตสาหกรรมประมาณ 100 เท่า" OpenAI ระบุ "อย่างไรก็ตาม ตัวเลขเหล่านี้สะท้อนเพียงเวลาการประมวลผลโมเดลและอัตราการเรียกเก็บเงิน API เท่านั้น และไม่ได้รวมถึงการกำกับดูแลของมนุษย์ การทำซ้ำ และขั้นตอนการบูรณาการที่จำเป็นในสภาพแวดล้อมการทำงานจริง"

ข้อควรระวัง

OpenAI ยอมรับว่า GDPval เป็น "เพียงขั้นตอนเริ่มต้นที่ไม่สะท้อนความละเอียดอ่อนทั้งหมดของงานทางเศรษฐกิจหลายอย่าง" การประเมินทำเพียงครั้งเดียว จึงไม่สามารถวัดได้ว่าโมเดลจะจัดการงานหลายฉบับหรือเข้าใจบริบทของโครงการที่ต่อเนื่องได้อย่างไร ตัวอย่างเช่น GDPval ไม่สามารถประเมินว่าโมเดลจะแก้ไขเอกสารตามคำติชมของลูกค้าหรือวิเคราะห์ข้อมูลเกี่ยวกับความผิดปกติใหม่ๆ ได้อย่างไร

OpenAI ยังชี้ให้เห็นว่างานในโลกจริงไม่ได้ชัดเจนเสมอไป—ไม่ใช่ทุกงานมาพร้อมกับชุดไฟล์ที่จัดระเบียบหรือคำสั่งที่ชัดเจน บทบาทสำคัญของมนุษย์ในการสำรวจปัญหาผ่านการสนทนาและจัดการกับความคลุมเครือหรือสถานการณ์ที่เปลี่ยนแปลงไม่สามารถวัดได้ด้วย GDPval ในปัจจุบัน

"งานส่วนใหญ่มากกว่าแค่การรวมภารกิจที่เขียนลงในคำสั่งได้" OpenAI ยอมรับ

บริษัทกล่าวว่าการพัฒนาในอนาคตจะครอบคลุมอุตสาหกรรมที่หลากหลายมากขึ้นและงานที่ยากต่อการทำให้เป็นอัตโนมัติ เช่น งานที่ต้องใช้ขั้นตอนแบบโต้ตอบหรือต้องการบริบทก่อนหน้ามาก (สิ่งที่ AI agents ยังมีข้อจำกัด) OpenAI จะเปิดตัวชุดย่อยของงาน GDPval สำหรับนักวิจัยเพื่อพัฒนาต่อยอด

อนาคตที่รออยู่

ข้อสรุปของ OpenAI คือสิ่งที่เราคุ้นเคยกันดี—AI จะยังคงเปลี่ยนแปลงตลาดแรงงานอย่างหลีกเลี่ยงไม่ได้ และในทางทฤษฎีสามารถรับงานที่ซ้ำซากเพื่อให้พนักงานมีเวลาสำหรับงานที่ซับซ้อนและสร้างสรรค์มากขึ้น

"โดยเฉพาะในชุดงานที่โมเดลมีความแข็งแกร่งเป็นพิเศษ เราคาดว่าการมอบหมายงานให้โมเดลก่อนที่จะลองกับมนุษย์จะประหยัดทั้งเวลาและเงิน" OpenAI กล่าว

แม้จะชี้ว่าโมเดลสามารถแข่งขันกับผู้เชี่ยวชาญที่เป็นมนุษย์ได้ในบางด้าน OpenAI ยังคงย้ำแนวทางที่คุ้นเคย: บริษัทมุ่งกระจายการเข้าถึงเครื่องมือ AI เพื่อ "สนับสนุนแรงงานผ่านช่วงเปลี่ยนผ่าน และสร้างระบบที่ให้รางวัลกับการมีส่วนร่วมอย่างกว้างขวาง"

"เป้าหมายของเราคือให้ทุกคนอยู่บน 'ลิฟต์ขาขึ้น' ของ AI" บริษัทกล่าว—แม้ว่าจะขัดแย้งกับการสำรวจล่าสุดที่แสดงว่าไม่ใช่ทุกคนกำลังได้รับประสบการณ์นั้นตั้งแต่ต้น

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่ทำงานในวงการเทคโนโลยีและผู้ที่สนใจการพัฒนาของ AI เพราะเป็นการเปิดเผยผลการทดสอบประสิทธิภาพจริงของ AI รุ่นล่าสุดอย่าง GPT-5, Claude และ Gemini ในการทำงานจริง ผ่านเกณฑ์การประเมินใหม่ที่เรียกว่า GDPval ซึ่งจะช่วยให้เข้าใจข้อจำกัดและความสามารถที่แท้จริงของ AI ในการทำงานร่วมกับมนุษย์ รวมถึงผลกระทบที่อาจเกิดขึ้นกับตลาดแรงงานในอนาคต

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openai-tested-gpt-5-claude-and-gemini-on-real-world-tasks-the-results-were-surprising/

Read more

OpenAI อ้างวัยรุ่น "ใช้งานผิดวัตถุประสงค์"

news

OpenAI อ้างวัยรุ่น "ใช้งานผิดวัตถุประสงค์"

OpenAI ยื่นคำโต้แย้งคดีฟ้องร้องโดยครอบครัววัยรุ่นที่เสียชีวิต โดยอ้างว่า ChatGPT ถูกใช้งานผิดวัตถุประสงค์และละเมิด TOS ที่ห้ามพูดคุยเรื่องการฆ่าตัวตาย ทนายครอบครัววิจารณ์ว่าเป็นการผลักภาระความผิดที่น่าตกใจ

By
HP วางแผนลดพนักงานแม้ความต้องการ AI PC เพิ่มขึ้น

news

HP วางแผนลดพนักงานแม้ความต้องการ AI PC เพิ่มขึ้น

HP วางแผนลดพนักงาน 4,000-6,000 คนภายในปี 2028 ท่ามกลางการเติบโตของ AI PC ที่คิดเป็น 30% ของยอดจัดส่ง ขณะที่ Dell รายงานยอดสั่งซื้อ AI Server สถิติใหม่ 12.3 พันล้านดอลลาร์

By
AI สามารถทดแทนแรงงานอเมริกาได้แล้วกว่า 12% นักวิจัย MIT เผยผลศึกษา

news

AI สามารถทดแทนแรงงานอเมริกาได้แล้วกว่า 12% นักวิจัย MIT เผยผลศึกษา

การศึกษาล่าสุดจาก MIT เผยว่า AI มีความสามารถทดแทนงานแรงงานอเมริกันเกือบ 12% ได้แล้ว โดยใช้ "Iceberg Index" วัดศักยภาพระบบอัตโนมัติ ส่งผลกระทบต่อภาคเทคโนโลยี การเงิน การแพทย์ และงานระดับเริ่มต้น

By
Elon Musk คาดการณ์: งานจะเป็นเพียง "งานอดิเรก" และเงินจะไร้ความหมายภายใน 10-20 ปี ด้วยพลัง AI และหุ่นยนต์

news

Elon Musk คาดการณ์: งานจะเป็นเพียง "งานอดิเรก" และเงินจะไร้ความหมายภายใน 10-20 ปี ด้วยพลัง AI และหุ่นยนต์

Elon Musk วาดภาพอนาคตที่การทำงานกลายเป็นทางเลือกภายใน 10-20 ปี ด้วยพลัง AI และหุ่นยนต์ แม้นักเศรษฐศาสตร์เห็นด้วยกับวิสัยทัศน์ แต่ยังกังวลเรื่องกรอบเวลา เทคโนโลยี และผลกระทบต่อสังคม

By