OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง

OpenAI เปิดเผยผลทดสอบ AI รุ่นใหม่ผ่านเกณฑ์ GDPval พบว่า Claude Opus 4.1 และ GPT-5 มีประสิทธิภาพใกล้เคียงผู้เชี่ยวชาญในหลายด้าน แต่ยังมีข้อจำกัดในงานที่ต้องการความยืดหยุ่นและการตัดสินใจซับซ้อน

OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง

Key takeaway

  • OpenAI ได้เปิดตัวเกณฑ์การประเมินใหม่ที่เรียกว่า "GDPval" เพื่อวัดประสิทธิภาพของ AI ในการทำงานจริง โดยทดสอบกับงาน 1,320 งานใน 44 อาชีพ ครอบคลุม 9 อุตสาหกรรมหลัก
  • ผลการทดสอบพบว่า Claude Opus 4.1 ทำงานได้ดีที่สุดในด้านความสวยงามของงาน ขณะที่ GPT-5 โดดเด่นในด้านความแม่นยำของข้อมูล และโมเดล AI สามารถทำงานได้เร็วกว่าและประหยัดกว่ามนุษย์ถึง 100 เท่า
  • แม้ว่า AI จะมีประสิทธิภาพดี แต่ยังมีข้อจำกัดในการทำงานที่ต้องการการโต้ตอบ การแก้ไขตามคำติชม หรืองานที่ต้องการความเข้าใจบริบทที่ซับซ้อน ซึ่งยังคงต้องพึ่งพามนุษย์อยู่มาก

แม้ว่าเครื่องมือ AI จำนวนมากเข้าสู่ตลาดพร้อมคำมั่นสัญญาว่าจะเพิ่มประสิทธิภาพและทำงานอัตโนมัติ แต่ผลลัพธ์จนถึงปัจจุบันยังไม่น่าพอใจ รายงานล่าสุดจาก MIT ระบุว่า 95% ของโครงการ AI ในองค์กรล้มเหลว ขณะที่ผู้บริหารกำลังได้รับผลงานที่เรียกว่า "workslop" จากพนักงาน ซึ่งกลับสร้างชั่วโมงการทำงานเพิ่มขึ้น—ไม่ใช่ผลลัพธ์ตามที่ตั้งใจ

การประเมินแบบใหม่ของ OpenAI ที่เรียกว่า GDPval มีเป้าหมายเปลี่ยนแปลงสิ่งนี้โดย "วัดว่า AI สามารถทำงานในโลกจริงที่มีคุณค่าทางเศรษฐกิจได้อย่างไร" ตามประกาศเมื่อวันพฤหัสบดี บริษัทและผู้ทดสอบภายนอกใช้มาตรฐานอุตสาหกรรมและการประเมินอื่นๆ เพื่อวัดความสามารถของโมเดลในงานเช่นการเขียนโค้ดและคณิตศาสตร์ อย่างไรก็ตาม การทดสอบเหล่านี้มักเน้นเชิงวิชาการมากกว่าการใช้งานจริง GDPval จึงมุ่งลดช่องว่างระหว่างทฤษฎีและการปฏิบัติ

GDPval วัดอะไร

GDPval วัดความสามารถของโมเดลในการจัดการงาน 1,320 งานที่เกี่ยวข้องกับ 44 อาชีพ—ส่วนใหญ่เป็นงานที่ใช้ความรู้—ใน 9 อุตสาหกรรมหลักที่มีสัดส่วนมากกว่า 5% ของ GDP สหรัฐฯ

โดยใช้ข้อมูลจากสำนักงานสถิติแรงงานสหรัฐฯ (BLS) และฐานข้อมูล O*NET ของกระทรวงแรงงาน OpenAI รวมอาชีพที่คาดหวังว่าจะได้รับผลกระทบจาก AI เช่น วิศวกรซอฟต์แวร์ ทนายความ และนักตัดต่อวิดีโอ รวมถึงอาชีพที่ยังไม่ค่อยได้รับผลกระทบมากนัก เช่น นักสืบ เภสัชกร และนักสังคมสงเคราะห์

ตาม OpenAI งานเหล่านี้ถูกออกแบบโดยผู้เชี่ยวชาญที่มีประสบการณ์เฉลี่ย 14 ปีในสาขาที่เกี่ยวข้อง เพื่อจำลอง "ผลงานจริง เช่น เอกสารทางกฎหมาย พิมพ์เขียวทางวิศวกรรม การสนทนาสนับสนุนลูกค้า หรือแผนการดูแลพยาบาล"

"ไม่เหมือนการประเมินอื่นๆ ที่เชื่อมโยงกับมูลค่าทางเศรษฐกิจซึ่งมุ่งเน้นเฉพาะโดเมน (เช่น SWE-Lancer) GDPval ครอบคลุมงานและอาชีพที่หลากหลาย" OpenAI ชี้แจง แทนที่จะใช้เพียง text prompts GDPval ให้ไฟล์อ้างอิงแก่โมเดลและวัดผลลัพธ์แบบ multimodal เช่น สไลด์และเอกสารเพื่อจำลองความคาดหวังในสภาพแวดล้อมการทำงานจริง

"ความสมจริงนี้ทำให้ GDPval เป็นการทดสอบที่สะท้อนว่าโมเดลสามารถสนับสนุนผู้เชี่ยวชาญได้อย่างไรในโลกจริง" OpenAI กล่าวเพิ่มเติม

โมเดลทำงานได้อย่างไร

OpenAI ให้ผู้เชี่ยวชาญที่มีประสบการณ์ประเมินผลลัพธ์จากโมเดล GPT-4o, o4-mini, o3 และ GPT-5 ของ OpenAI รวมถึง Claude Opus 4.1 ของ Anthropic, Gemini 2.5 Pro ของ Google และ Grok 4 ของ xAI โดยไม่ทราบที่มา ผู้ประเมินเปรียบเทียบผลงานเหล่านี้กับผลงานที่มนุษย์สร้าง

OpenAI ยังใช้ระบบ "autograder" ที่ขับเคลื่อนด้วย AI เพื่อทำนายว่ามนุษย์จะประเมินผลงานอย่างไร บริษัทเตรียมเปิดตัว autograder เป็นเครื่องมือวิจัยทดลอง แม้ว่าจะเตือนว่าไม่น่าเชื่อถือเท่าผู้ประเมินที่เป็นมนุษย์

"เราพบว่าโมเดล frontier ที่ดีที่สุดในปัจจุบันกำลังเข้าใกล้คุณภาพงานที่ผลิตโดยผู้เชี่ยวชาญในอุตสาหกรรม" OpenAI ระบุ "Claude Opus 4.1 เป็นโมเดลที่ทำงานได้ดีที่สุดในชุด โดยเฉพาะอย่างยิ่งในด้านความสวยงาม (เช่น การจัดรูปแบบเอกสาร การจัดวางสไลด์) และ GPT-5 โดดเด่นในด้านความแม่นยำ (เช่น การค้นหาความรู้เฉพาะโดเมน)"

ผลการวิจัยยังแสดงให้เห็นว่าประสิทธิภาพ "เพิ่มขึ้นมากกว่าสองเท่าจาก GPT-4o (เปิดตัวในฤดูใบไม้ผลิ 2024) ถึง GPT-5 (เปิดตัวในฤดูร้อน 2025)" ซึ่งบ่งชี้ว่าความสามารถของโมเดลกำลังพัฒนาอย่างรวดเร็ว

ประเด็นสำคัญอีกประการคือต้นทุน

"เราพบว่าโมเดล frontier สามารถทำงาน GDPval เสร็จเร็วกว่าและถูกกว่าผู้เชี่ยวชาญในอุตสาหกรรมประมาณ 100 เท่า" OpenAI ระบุ "อย่างไรก็ตาม ตัวเลขเหล่านี้สะท้อนเพียงเวลาการประมวลผลโมเดลและอัตราการเรียกเก็บเงิน API เท่านั้น และไม่ได้รวมถึงการกำกับดูแลของมนุษย์ การทำซ้ำ และขั้นตอนการบูรณาการที่จำเป็นในสภาพแวดล้อมการทำงานจริง"

ข้อควรระวัง

OpenAI ยอมรับว่า GDPval เป็น "เพียงขั้นตอนเริ่มต้นที่ไม่สะท้อนความละเอียดอ่อนทั้งหมดของงานทางเศรษฐกิจหลายอย่าง" การประเมินทำเพียงครั้งเดียว จึงไม่สามารถวัดได้ว่าโมเดลจะจัดการงานหลายฉบับหรือเข้าใจบริบทของโครงการที่ต่อเนื่องได้อย่างไร ตัวอย่างเช่น GDPval ไม่สามารถประเมินว่าโมเดลจะแก้ไขเอกสารตามคำติชมของลูกค้าหรือวิเคราะห์ข้อมูลเกี่ยวกับความผิดปกติใหม่ๆ ได้อย่างไร

OpenAI ยังชี้ให้เห็นว่างานในโลกจริงไม่ได้ชัดเจนเสมอไป—ไม่ใช่ทุกงานมาพร้อมกับชุดไฟล์ที่จัดระเบียบหรือคำสั่งที่ชัดเจน บทบาทสำคัญของมนุษย์ในการสำรวจปัญหาผ่านการสนทนาและจัดการกับความคลุมเครือหรือสถานการณ์ที่เปลี่ยนแปลงไม่สามารถวัดได้ด้วย GDPval ในปัจจุบัน

"งานส่วนใหญ่มากกว่าแค่การรวมภารกิจที่เขียนลงในคำสั่งได้" OpenAI ยอมรับ

บริษัทกล่าวว่าการพัฒนาในอนาคตจะครอบคลุมอุตสาหกรรมที่หลากหลายมากขึ้นและงานที่ยากต่อการทำให้เป็นอัตโนมัติ เช่น งานที่ต้องใช้ขั้นตอนแบบโต้ตอบหรือต้องการบริบทก่อนหน้ามาก (สิ่งที่ AI agents ยังมีข้อจำกัด) OpenAI จะเปิดตัวชุดย่อยของงาน GDPval สำหรับนักวิจัยเพื่อพัฒนาต่อยอด

อนาคตที่รออยู่

ข้อสรุปของ OpenAI คือสิ่งที่เราคุ้นเคยกันดี—AI จะยังคงเปลี่ยนแปลงตลาดแรงงานอย่างหลีกเลี่ยงไม่ได้ และในทางทฤษฎีสามารถรับงานที่ซ้ำซากเพื่อให้พนักงานมีเวลาสำหรับงานที่ซับซ้อนและสร้างสรรค์มากขึ้น

"โดยเฉพาะในชุดงานที่โมเดลมีความแข็งแกร่งเป็นพิเศษ เราคาดว่าการมอบหมายงานให้โมเดลก่อนที่จะลองกับมนุษย์จะประหยัดทั้งเวลาและเงิน" OpenAI กล่าว

แม้จะชี้ว่าโมเดลสามารถแข่งขันกับผู้เชี่ยวชาญที่เป็นมนุษย์ได้ในบางด้าน OpenAI ยังคงย้ำแนวทางที่คุ้นเคย: บริษัทมุ่งกระจายการเข้าถึงเครื่องมือ AI เพื่อ "สนับสนุนแรงงานผ่านช่วงเปลี่ยนผ่าน และสร้างระบบที่ให้รางวัลกับการมีส่วนร่วมอย่างกว้างขวาง"

"เป้าหมายของเราคือให้ทุกคนอยู่บน 'ลิฟต์ขาขึ้น' ของ AI" บริษัทกล่าว—แม้ว่าจะขัดแย้งกับการสำรวจล่าสุดที่แสดงว่าไม่ใช่ทุกคนกำลังได้รับประสบการณ์นั้นตั้งแต่ต้น

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่ทำงานในวงการเทคโนโลยีและผู้ที่สนใจการพัฒนาของ AI เพราะเป็นการเปิดเผยผลการทดสอบประสิทธิภาพจริงของ AI รุ่นล่าสุดอย่าง GPT-5, Claude และ Gemini ในการทำงานจริง ผ่านเกณฑ์การประเมินใหม่ที่เรียกว่า GDPval ซึ่งจะช่วยให้เข้าใจข้อจำกัดและความสามารถที่แท้จริงของ AI ในการทำงานร่วมกับมนุษย์ รวมถึงผลกระทบที่อาจเกิดขึ้นกับตลาดแรงงานในอนาคต

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openai-tested-gpt-5-claude-and-gemini-on-real-world-tasks-the-results-were-surprising/

Read more

กล้องอัจฉริยะด้วย AI ของ Logitech ปฏิวัติการแสดงผลห้องประชุมขนาดใหญ่ในการประชุมวิดีโอ

news

กล้องอัจฉริยะด้วย AI ของ Logitech ปฏิวัติการแสดงผลห้องประชุมขนาดใหญ่ในการประชุมวิดีโอ

Logitech นำเสนอโซลูชันใหม่ด้วย Rally AI Camera และ Rally AI Camera Pro ที่ใช้เทคโนโลยี AI ช่วยแก้ปัญหาการประชุมในห้องขนาดใหญ่ ด้วยระบบจัดเฟรมอัจฉริยะ RightSight 2 ที่ปรับมุมมองตามสถานการณ์ เพื่อให้การประชุมแบบไฮบริดมีความเท่าเทียมมากขึ้น

By
Resolve AI ระดมทุน $125 ล้านด้วยมูลค่า $1 พันล้าน เพื่อพัฒนาระบบบำรุงรักษาแอปพลิเคชันอัตโนมัติ

news

Resolve AI ระดมทุน $125 ล้านด้วยมูลค่า $1 พันล้าน เพื่อพัฒนาระบบบำรุงรักษาแอปพลิเคชันอัตโนมัติ

Resolve AI สตาร์ทอัพที่พัฒนาแพลตฟอร์มแก้ไขปัญหาแอปพลิเคชันอัตโนมัติ ระดมทุน Series A มูลค่า $125 ล้าน จาก Lightspeed และพันธมิตร ส่งผลให้บริษัทมีมูลค่า $1 พันล้าน เงินทุนจะถูกใช้ขยายทีมและพัฒนาโมเดล AI แบบกำหนดเอง

By
นักวิจัยเผยผู้บุกรุก AWS ได้รับสิทธิ์ admin ภายในเวลาไม่ถึง 10 นาที ด้วยความช่วยเหลือจาก AI

news

นักวิจัยเผยผู้บุกรุก AWS ได้รับสิทธิ์ admin ภายในเวลาไม่ถึง 10 นาที ด้วยความช่วยเหลือจาก AI

ผู้บุกรุกใช้ AI เจาะระบบคลาวด์ AWS ได้สิทธิ์แอดมินภายในเวลาไม่ถึง 10 นาที โดยขโมย credentials จาก S3 buckets สาธารณะ ยกระดับสิทธิ์ผ่าน Lambda function และเข้าถึงทรัพยากร AI ของเหยื่อ กรณีนี้แสดงให้เห็นถึงภัยคุกคามใหม่ที่ใช้ AI ช่วยโจมตี

By
จาก Clawdbot สู่ Moltbot: AI Agent นี้ไวรัลและเปลี่ยนตัวตนใหม่ภายใน 72 ชั่วโมงได้อย่างไร

news

จาก Clawdbot สู่ Moltbot: AI Agent นี้ไวรัลและเปลี่ยนตัวตนใหม่ภายใน 72 ชั่วโมงได้อย่างไร

ติดตามเรื่องราวของ Moltbot ผู้ช่วย AI โอเพนซอร์สที่ต้องเปลี่ยนชื่อจาก Clawdbot หลังปัญหาเครื่องหมายการค้ากับ Anthropic เจ้าของ Claude AI พร้อมเรียนรู้คุณสมบัติเด่นที่ทำให้ผู้ช่วย AI นี้น่าสนใจ ทั้งหน่วยความจำถาวร การแจ้งเตือนเชิงรุก และความสามารถในการทำงานอัตโนมัติ

By