OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง

OpenAI เปิดเผยผลทดสอบ AI รุ่นใหม่ผ่านเกณฑ์ GDPval พบว่า Claude Opus 4.1 และ GPT-5 มีประสิทธิภาพใกล้เคียงผู้เชี่ยวชาญในหลายด้าน แต่ยังมีข้อจำกัดในงานที่ต้องการความยืดหยุ่นและการตัดสินใจซับซ้อน

OpenAI ทดสอบ GPT-5, Claude และ Gemini ในงานจริง

Key takeaway

  • OpenAI ได้เปิดตัวเกณฑ์การประเมินใหม่ที่เรียกว่า "GDPval" เพื่อวัดประสิทธิภาพของ AI ในการทำงานจริง โดยทดสอบกับงาน 1,320 งานใน 44 อาชีพ ครอบคลุม 9 อุตสาหกรรมหลัก
  • ผลการทดสอบพบว่า Claude Opus 4.1 ทำงานได้ดีที่สุดในด้านความสวยงามของงาน ขณะที่ GPT-5 โดดเด่นในด้านความแม่นยำของข้อมูล และโมเดล AI สามารถทำงานได้เร็วกว่าและประหยัดกว่ามนุษย์ถึง 100 เท่า
  • แม้ว่า AI จะมีประสิทธิภาพดี แต่ยังมีข้อจำกัดในการทำงานที่ต้องการการโต้ตอบ การแก้ไขตามคำติชม หรืองานที่ต้องการความเข้าใจบริบทที่ซับซ้อน ซึ่งยังคงต้องพึ่งพามนุษย์อยู่มาก

แม้ว่าเครื่องมือ AI จำนวนมากเข้าสู่ตลาดพร้อมคำมั่นสัญญาว่าจะเพิ่มประสิทธิภาพและทำงานอัตโนมัติ แต่ผลลัพธ์จนถึงปัจจุบันยังไม่น่าพอใจ รายงานล่าสุดจาก MIT ระบุว่า 95% ของโครงการ AI ในองค์กรล้มเหลว ขณะที่ผู้บริหารกำลังได้รับผลงานที่เรียกว่า "workslop" จากพนักงาน ซึ่งกลับสร้างชั่วโมงการทำงานเพิ่มขึ้น—ไม่ใช่ผลลัพธ์ตามที่ตั้งใจ

การประเมินแบบใหม่ของ OpenAI ที่เรียกว่า GDPval มีเป้าหมายเปลี่ยนแปลงสิ่งนี้โดย "วัดว่า AI สามารถทำงานในโลกจริงที่มีคุณค่าทางเศรษฐกิจได้อย่างไร" ตามประกาศเมื่อวันพฤหัสบดี บริษัทและผู้ทดสอบภายนอกใช้มาตรฐานอุตสาหกรรมและการประเมินอื่นๆ เพื่อวัดความสามารถของโมเดลในงานเช่นการเขียนโค้ดและคณิตศาสตร์ อย่างไรก็ตาม การทดสอบเหล่านี้มักเน้นเชิงวิชาการมากกว่าการใช้งานจริง GDPval จึงมุ่งลดช่องว่างระหว่างทฤษฎีและการปฏิบัติ

GDPval วัดอะไร

GDPval วัดความสามารถของโมเดลในการจัดการงาน 1,320 งานที่เกี่ยวข้องกับ 44 อาชีพ—ส่วนใหญ่เป็นงานที่ใช้ความรู้—ใน 9 อุตสาหกรรมหลักที่มีสัดส่วนมากกว่า 5% ของ GDP สหรัฐฯ

โดยใช้ข้อมูลจากสำนักงานสถิติแรงงานสหรัฐฯ (BLS) และฐานข้อมูล O*NET ของกระทรวงแรงงาน OpenAI รวมอาชีพที่คาดหวังว่าจะได้รับผลกระทบจาก AI เช่น วิศวกรซอฟต์แวร์ ทนายความ และนักตัดต่อวิดีโอ รวมถึงอาชีพที่ยังไม่ค่อยได้รับผลกระทบมากนัก เช่น นักสืบ เภสัชกร และนักสังคมสงเคราะห์

ตาม OpenAI งานเหล่านี้ถูกออกแบบโดยผู้เชี่ยวชาญที่มีประสบการณ์เฉลี่ย 14 ปีในสาขาที่เกี่ยวข้อง เพื่อจำลอง "ผลงานจริง เช่น เอกสารทางกฎหมาย พิมพ์เขียวทางวิศวกรรม การสนทนาสนับสนุนลูกค้า หรือแผนการดูแลพยาบาล"

"ไม่เหมือนการประเมินอื่นๆ ที่เชื่อมโยงกับมูลค่าทางเศรษฐกิจซึ่งมุ่งเน้นเฉพาะโดเมน (เช่น SWE-Lancer) GDPval ครอบคลุมงานและอาชีพที่หลากหลาย" OpenAI ชี้แจง แทนที่จะใช้เพียง text prompts GDPval ให้ไฟล์อ้างอิงแก่โมเดลและวัดผลลัพธ์แบบ multimodal เช่น สไลด์และเอกสารเพื่อจำลองความคาดหวังในสภาพแวดล้อมการทำงานจริง

"ความสมจริงนี้ทำให้ GDPval เป็นการทดสอบที่สะท้อนว่าโมเดลสามารถสนับสนุนผู้เชี่ยวชาญได้อย่างไรในโลกจริง" OpenAI กล่าวเพิ่มเติม

โมเดลทำงานได้อย่างไร

OpenAI ให้ผู้เชี่ยวชาญที่มีประสบการณ์ประเมินผลลัพธ์จากโมเดล GPT-4o, o4-mini, o3 และ GPT-5 ของ OpenAI รวมถึง Claude Opus 4.1 ของ Anthropic, Gemini 2.5 Pro ของ Google และ Grok 4 ของ xAI โดยไม่ทราบที่มา ผู้ประเมินเปรียบเทียบผลงานเหล่านี้กับผลงานที่มนุษย์สร้าง

OpenAI ยังใช้ระบบ "autograder" ที่ขับเคลื่อนด้วย AI เพื่อทำนายว่ามนุษย์จะประเมินผลงานอย่างไร บริษัทเตรียมเปิดตัว autograder เป็นเครื่องมือวิจัยทดลอง แม้ว่าจะเตือนว่าไม่น่าเชื่อถือเท่าผู้ประเมินที่เป็นมนุษย์

"เราพบว่าโมเดล frontier ที่ดีที่สุดในปัจจุบันกำลังเข้าใกล้คุณภาพงานที่ผลิตโดยผู้เชี่ยวชาญในอุตสาหกรรม" OpenAI ระบุ "Claude Opus 4.1 เป็นโมเดลที่ทำงานได้ดีที่สุดในชุด โดยเฉพาะอย่างยิ่งในด้านความสวยงาม (เช่น การจัดรูปแบบเอกสาร การจัดวางสไลด์) และ GPT-5 โดดเด่นในด้านความแม่นยำ (เช่น การค้นหาความรู้เฉพาะโดเมน)"

ผลการวิจัยยังแสดงให้เห็นว่าประสิทธิภาพ "เพิ่มขึ้นมากกว่าสองเท่าจาก GPT-4o (เปิดตัวในฤดูใบไม้ผลิ 2024) ถึง GPT-5 (เปิดตัวในฤดูร้อน 2025)" ซึ่งบ่งชี้ว่าความสามารถของโมเดลกำลังพัฒนาอย่างรวดเร็ว

ประเด็นสำคัญอีกประการคือต้นทุน

"เราพบว่าโมเดล frontier สามารถทำงาน GDPval เสร็จเร็วกว่าและถูกกว่าผู้เชี่ยวชาญในอุตสาหกรรมประมาณ 100 เท่า" OpenAI ระบุ "อย่างไรก็ตาม ตัวเลขเหล่านี้สะท้อนเพียงเวลาการประมวลผลโมเดลและอัตราการเรียกเก็บเงิน API เท่านั้น และไม่ได้รวมถึงการกำกับดูแลของมนุษย์ การทำซ้ำ และขั้นตอนการบูรณาการที่จำเป็นในสภาพแวดล้อมการทำงานจริง"

ข้อควรระวัง

OpenAI ยอมรับว่า GDPval เป็น "เพียงขั้นตอนเริ่มต้นที่ไม่สะท้อนความละเอียดอ่อนทั้งหมดของงานทางเศรษฐกิจหลายอย่าง" การประเมินทำเพียงครั้งเดียว จึงไม่สามารถวัดได้ว่าโมเดลจะจัดการงานหลายฉบับหรือเข้าใจบริบทของโครงการที่ต่อเนื่องได้อย่างไร ตัวอย่างเช่น GDPval ไม่สามารถประเมินว่าโมเดลจะแก้ไขเอกสารตามคำติชมของลูกค้าหรือวิเคราะห์ข้อมูลเกี่ยวกับความผิดปกติใหม่ๆ ได้อย่างไร

OpenAI ยังชี้ให้เห็นว่างานในโลกจริงไม่ได้ชัดเจนเสมอไป—ไม่ใช่ทุกงานมาพร้อมกับชุดไฟล์ที่จัดระเบียบหรือคำสั่งที่ชัดเจน บทบาทสำคัญของมนุษย์ในการสำรวจปัญหาผ่านการสนทนาและจัดการกับความคลุมเครือหรือสถานการณ์ที่เปลี่ยนแปลงไม่สามารถวัดได้ด้วย GDPval ในปัจจุบัน

"งานส่วนใหญ่มากกว่าแค่การรวมภารกิจที่เขียนลงในคำสั่งได้" OpenAI ยอมรับ

บริษัทกล่าวว่าการพัฒนาในอนาคตจะครอบคลุมอุตสาหกรรมที่หลากหลายมากขึ้นและงานที่ยากต่อการทำให้เป็นอัตโนมัติ เช่น งานที่ต้องใช้ขั้นตอนแบบโต้ตอบหรือต้องการบริบทก่อนหน้ามาก (สิ่งที่ AI agents ยังมีข้อจำกัด) OpenAI จะเปิดตัวชุดย่อยของงาน GDPval สำหรับนักวิจัยเพื่อพัฒนาต่อยอด

อนาคตที่รออยู่

ข้อสรุปของ OpenAI คือสิ่งที่เราคุ้นเคยกันดี—AI จะยังคงเปลี่ยนแปลงตลาดแรงงานอย่างหลีกเลี่ยงไม่ได้ และในทางทฤษฎีสามารถรับงานที่ซ้ำซากเพื่อให้พนักงานมีเวลาสำหรับงานที่ซับซ้อนและสร้างสรรค์มากขึ้น

"โดยเฉพาะในชุดงานที่โมเดลมีความแข็งแกร่งเป็นพิเศษ เราคาดว่าการมอบหมายงานให้โมเดลก่อนที่จะลองกับมนุษย์จะประหยัดทั้งเวลาและเงิน" OpenAI กล่าว

แม้จะชี้ว่าโมเดลสามารถแข่งขันกับผู้เชี่ยวชาญที่เป็นมนุษย์ได้ในบางด้าน OpenAI ยังคงย้ำแนวทางที่คุ้นเคย: บริษัทมุ่งกระจายการเข้าถึงเครื่องมือ AI เพื่อ "สนับสนุนแรงงานผ่านช่วงเปลี่ยนผ่าน และสร้างระบบที่ให้รางวัลกับการมีส่วนร่วมอย่างกว้างขวาง"

"เป้าหมายของเราคือให้ทุกคนอยู่บน 'ลิฟต์ขาขึ้น' ของ AI" บริษัทกล่าว—แม้ว่าจะขัดแย้งกับการสำรวจล่าสุดที่แสดงว่าไม่ใช่ทุกคนกำลังได้รับประสบการณ์นั้นตั้งแต่ต้น

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่ทำงานในวงการเทคโนโลยีและผู้ที่สนใจการพัฒนาของ AI เพราะเป็นการเปิดเผยผลการทดสอบประสิทธิภาพจริงของ AI รุ่นล่าสุดอย่าง GPT-5, Claude และ Gemini ในการทำงานจริง ผ่านเกณฑ์การประเมินใหม่ที่เรียกว่า GDPval ซึ่งจะช่วยให้เข้าใจข้อจำกัดและความสามารถที่แท้จริงของ AI ในการทำงานร่วมกับมนุษย์ รวมถึงผลกระทบที่อาจเกิดขึ้นกับตลาดแรงงานในอนาคต

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openai-tested-gpt-5-claude-and-gemini-on-real-world-tasks-the-results-were-surprising/

Read more

Bandcamp ประกาศนโยบายแบนเพลงที่สร้างด้วย AI

news

Bandcamp ประกาศนโยบายแบนเพลงที่สร้างด้วย AI

Bandcamp ประกาศนโยบายใหม่แบนเพลงที่สร้างด้วย AI ทั้งหมดหรือส่วนใหญ่ รวมถึงการใช้ AI เลียนแบบศิลปินอื่น เพื่อปกป้องความคิดสร้างสรรค์ของมนุษย์ ขณะที่ค่ายเพลงยักษ์ใหญ่อย่าง UMG และ Warner กลับร่วมมือกับแพลตฟอร์ม AI

By
Apple วางแผนเปลี่ยน Siri ให้เป็นแชทบอท AI เต็มรูปแบบเพื่อแข่งขันกับ ChatGPT และ Gemini

news

Apple วางแผนเปลี่ยน Siri ให้เป็นแชทบอท AI เต็มรูปแบบเพื่อแข่งขันกับ ChatGPT และ Gemini

แอปเปิลกำลังปรับโฉม Siri ครั้งใหญ่ภายใต้โครงการ "Campos" เปลี่ยนเป็นแชทบอท AI เต็มรูปแบบ เพิ่มความสามารถทั้งการค้นหาเว็บ สร้างคอนเทนต์ วิเคราะห์ไฟล์ และเชื่อมโยงกับแอปหลักของ Apple คาดเปิดตัวในงาน WWDC มิถุนายนนี้

By
OpenAI อาจสร้างรายได้จากโฆษณา 25,000 ล้านดอลลาร์ต่อปีภายในปี 2030 สร้างความกังวลให้ Google

news

OpenAI อาจสร้างรายได้จากโฆษณา 25,000 ล้านดอลลาร์ต่อปีภายในปี 2030 สร้างความกังวลให้ Google

นักวิเคราะห์จาก Evercore ISI คาดการณ์ว่า OpenAI จะสร้างรายได้จากโฆษณาถึง 25,000 ล้านดอลลาร์ภายในปี 2030 ท้าทาย Google โดยตรง ด้วยฐานผู้ใช้ ChatGPT เกือบ 1,000 ล้านคนต่อสัปดาห์ และการเริ่มแสดงโฆษณาในอีกไม่กี่สัปดาห์ข้างหน้า

By
สตาร์ทอัพ AI ที่ได้รับการสนับสนุนจาก Alibaba อย่าง Moonshot AI มีมูลค่า 4.8 พันล้านดอลลาร์

news

สตาร์ทอัพ AI ที่ได้รับการสนับสนุนจาก Alibaba อย่าง Moonshot AI มีมูลค่า 4.8 พันล้านดอลลาร์

สตาร์ทอัพ AI จีนที่ได้รับการสนับสนุนจาก Alibaba มีมูลค่าพุ่งสูงถึง 4.8 พันล้านดอลลาร์ แม้จำนวนผู้ใช้ Kimi ลดลงเกือบครึ่ง บริษัทกำลังปรับเปลี่ยนกลยุทธ์จาก Consumer AI สู่บริการ Enterprise ในภาคการเงิน สุขภาพ และกฎหมาย

By