OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

OpenAI เปิดเผยผลการทดสอบ Deep Research AI ที่แสดงให้เห็นว่ามีความสามารถในการค้นหาข้อมูลอย่างอดทนมากกว่ามนุษย์ แต่ยังมีข้อจำกัดด้านความแม่นยำ โดยผิดพลาดถึงครึ่งหนึ่งของการทดสอบทั้งหมด

OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

Key takeaway

  • Deep Research ของ OpenAI แสดงให้เห็นถึงความสามารถในการค้นหาข้อมูลที่มีความอดทนและทำงานได้ต่อเนื่องมากกว่ามนุษย์ โดยเฉพาะในการค้นหาข้อมูลที่ต้องใช้เวลานานหลายชั่วโมง แต่ยังมีอัตราความผิดพลาดสูงถึง 48.5%
  • ผลการทดสอบผ่าน BrowseComp แสดงให้เห็นว่ามนุษย์มีข้อจำกัดในการค้นหาข้อมูลบนเว็บ โดย 70% ยอมแพ้หลังพยายาม 2 ชั่วโมง และตอบถูกเพียง 30% เท่านั้น ในขณะที่ Deep Research ทำได้ดีกว่าด้วยความแม่นยำ 51.5%
  • แม้ Deep Research จะทำงานได้ดีกว่าโมเดลอื่นๆ ของ OpenAI แต่ยังมีปัญหาเรื่อง calibration error คือการมั่นใจในคำตอบที่ผิดมากเกินไป ปัจจุบันให้บริการเฉพาะผู้ใช้ Plus และ Pro เท่านั้น

ความก้าวหน้าล่าสุดในเทคโนโลยี AI แบบ generative ได้พัฒนาไปสู่ AI agents ที่สามารถเข้าถึงเว็บเพื่อค้นหาคำตอบ แม้จะมีแนวโน้มที่น่าสนใจ แต่เทคโนโลยี agentic ยังคงอยู่ในขั้นตอนการพัฒนาอยู่มาก

ในงานวิจัยที่เผยแพร่เมื่อสัปดาห์ที่ผ่านมา นักวิจัยของ OpenAI ได้เปิดเผยว่าเทคโนโลยี Deep Research ซึ่งพัฒนาขึ้นเพื่อการค้นหาข้อมูลบนเว็บ ทำงานได้มีประสิทธิภาพมากกว่าโมเดลอื่นๆ ของ OpenAI เมื่อต้องตอบคำถามที่ต้องสืบค้นข้อมูลออนไลน์ และยังทำงานได้ดีกว่ามนุษย์ในการค้นหาที่ต้องใช้เวลาหลายชั่วโมง

อย่างไรก็ตาม Deep Research ยังคงล้มเหลวเกือบครึ่งหนึ่งของการทดสอบทั้งหมด

ผลการทดสอบล่าสุดของ OpenAI แสดงให้เห็นว่า Deep Research มีความเพียรพยายามและมุ่งมั่นในการค้นหาคำตอบที่เหนือกว่านักวิจัยที่เป็นมนุษย์สำหรับงานบางประเภท แต่ก็ยังคงประสบความล้มเหลวในการหาคำตอบที่ถูกต้องบ่อยครั้ง

การทดสอบที่เรียกว่า BrowseComp ซึ่งอธิบายโดย Jason Wei และทีมวิจัยว่าเป็น "benchmark ที่เรียบง่ายแต่ท้าทายสำหรับการวัดความสามารถของ agents ในการเบราว์เว็บ"

แนวคิดหลักคือ AI agents - ซึ่งหมายถึงโมเดล AI ที่สามารถเบราว์ "เว็บเพจนับพันหน้า" - อาจมีทรัพยากรที่เหนือกว่ามนุษย์ ซึ่งมีข้อจำกัดด้านความจำ เกิดความเหนื่อยล้าเมื่อต้องท่องเว็บเป็นเวลานาน และ "สามารถให้ความสนใจกับสิ่งเดียวในแต่ละครั้งและไม่สามารถทำงานแบบขนาน" หมายความว่า ไม่สามารถประมวลผลข้อมูลหลายกระแสความคิดในเวลาเดียวกันได้

"ในทางกลับกัน ปัญญาของเครื่องมีความจำที่กว้างขวางกว่าและสามารถทำงานได้อย่างไม่รู้จักเหน็ดเหนื่อยโดยไม่วอกแวก" Wei และทีมระบุในรายงาน

Wei และทีมได้พัฒนาต่อยอดจากงานวิจัยก่อนหน้าในปีที่แล้วคือ "SimpleQ&A" ซึ่งทดสอบความสามารถของโมเดล AI ในการตอบ "คำถามสั้นๆ ที่ต้องการข้อเท็จจริง" โดยคำถามครอบคลุมหัวข้อเกี่ยวกับทีวีและภาพยนตร์ วิทยาศาสตร์ ประวัติศาสตร์ ดนตรี วิดีโอเกม การเมือง และหัวข้ออื่นๆ

ชุดคำถาม BrowseComp จำนวน 1,266 ข้อถูกออกแบบให้ท้าทายมากกว่าการค้นหาข้อมูลทั่วไป ผู้วิจัยอธิบายว่าเป็นคำถามที่หาคำตอบได้ยาก หรือตามที่พวกเขากล่าวคือ "ท้าทายเพราะต้องค้นหาในพื้นที่ที่กว้างของคำตอบที่เป็นไปได้และจับคู่กับเงื่อนไขที่ระบุในคำถาม" และ "เป็นข้อมูลที่หายากและซับซ้อนบนเว็บ"

ผลการทดสอบพบว่ามนุษย์มีข้อจำกัดมากในการค้นหาบนเว็บ โดย 70% ของคำถาม มนุษย์ยอมแพ้หลังจากพยายามค้นหานานถึงสองชั่วโมง พวกเขาตอบได้เพียง 30% ของคำถาม และ 14% ของคำตอบที่ให้ไปไม่ตรงกับคำตอบที่ถูกต้อง

เมื่อทดสอบ Deep Research เทียบกับ GPT-4o , GPT-4.5 และโมเดล o1 ผลลัพธ์ของโมเดลอื่นๆ ออกมาไม่ดีนัก โดย GPT-4o และ GPT-4.5 ได้ความแม่นยำเกือบศูนย์

ด้วยคะแนน 51.5% Deep Research ทำได้ "ดีกว่าอย่างมีนัยสำคัญ" และ "มีประสิทธิภาพโดยเฉพาะในการตอบคำถามเฉพาะทางที่ไม่ชัดเจนซึ่งต้องเบราว์เว็บไซต์จำนวนมาก"

อย่างไรก็ตาม นักวิจัยยังพบว่า GPT-4o ที่ใช้การเบราว์และ Deep Research อาจผิดพลาดจากการ "มั่นใจเกินไป" ในคำตอบที่ผิด ซึ่งเป็นปัญหาที่รู้จักกันในชื่อ calibration error

ปัจจุบัน Deep Research มีให้บริการสำหรับผู้ใช้บริการแบบ Plus และ Pro ของ OpenAI เท่านั้น

Why it matters

💡 บทความนี้นำเสนอความก้าวหน้าล่าสุดของ OpenAI ในการพัฒนา Deep Research ซึ่งเป็น AI ที่มีความสามารถในการค้นหาข้อมูลบนเว็บได้อย่างละเอียดและอดทนมากกว่ามนุษย์ ผู้อ่านจะได้เรียนรู้ถึงข้อดีและข้อจำกัดของเทคโนโลยีนี้ ผ่านผลการทดสอบที่น่าสนใจจากการเปรียบเทียบกับทั้งมนุษย์และ AI รุ่นอื่นๆ ซึ่งมีความสำคัญต่อการพัฒนาและการประยุกต์ใช้ AI ในอนาคต โดยเฉพาะสำหรับผู้ที่ทำงานด้านการวิจัยและค้นคว้าข้อมูล

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openais-deep-research-has-more-fact-finding-stamina-than-you-but-its-still-wrong-half-the-time/

Read more

การต่อต้าน Duolingo ที่หันมาใช้ AI เป็นหลักไม่ส่งผลกระทบใดๆ

news

การต่อต้าน Duolingo ที่หันมาใช้ AI เป็นหลักไม่ส่งผลกระทบใดๆ

แม้จะถูกวิพากษ์วิจารณ์อย่างหนักจากนโยบาย AI-first แต่ Duolingo กลับทำรายได้ทะลุเป้า มีผู้ใช้เพิ่มขึ้น 40% และคาดว่าจะมีรายได้กว่า 1 พันล้านดอลลาร์ในปีนี้ สะท้อนให้เห็นว่าการต่อต้านไม่ส่งผลต่อธุรกิจ

By
ผู้นำทีม Windows ของ Microsoft เผย Windows เวอร์ชันใหม่จะเปลี่ยนโฉมด้วย AI

news

ผู้นำทีม Windows ของ Microsoft เผย Windows เวอร์ชันใหม่จะเปลี่ยนโฉมด้วย AI

Microsoft เปิดเผยวิสัยทัศน์ Windows ยุคใหม่ที่จะปฏิวัติการใช้งานด้วย AI แบบแอมเบียนท์ เน้นการสั่งการด้วยเสียงและการรับรู้บริบทอัตโนมัติ พร้อมผสานการทำงานระหว่างระบบโลคัลและคลาวด์

By
OpenAI ระบุ ChatGPT เวอร์ชันอัปเกรดล่าสุด ก้าวหน้าขึ้นมาก แต่ยังไม่สามารถทำงานแทนมนุษย์ได้

news

OpenAI ระบุ ChatGPT เวอร์ชันอัปเกรดล่าสุด ก้าวหน้าขึ้นมาก แต่ยังไม่สามารถทำงานแทนมนุษย์ได้

OpenAI เปิดตัว ChatGPT รุ่นใหม่พร้อมโมเดล GPT-5 ที่มีความสามารถสูงขึ้นในการเขียนโค้ดและงานสร้างสรรค์ แม้จะเป็นก้าวสำคัญสู่ AGI แต่ Sam Altman ยอมรับว่ายังมีข้อจำกัดด้านการเรียนรู้ต่อเนื่อง

By
ไม่ใช่ทุกเครื่องมือ AI จะมีประโยชน์ - วิธีเลือกเครื่องมือที่จะเปลี่ยนแปลงธุรกิจของคุณได้จริง

news

ไม่ใช่ทุกเครื่องมือ AI จะมีประโยชน์ - วิธีเลือกเครื่องมือที่จะเปลี่ยนแปลงธุรกิจของคุณได้จริง

เรียนรู้วิธีเลือกเครื่องมือ AI ที่เหมาะกับธุรกิจของคุณ โดยเน้นที่การแก้ปัญหาจริง ไม่หลงกับคำโฆษณาเกินจริง และการประเมินคุณค่าที่วัดผลได้ พร้อมคำแนะนำจากผู้เชี่ยวชาญในการเลือกใช้ AI อย่างมีประสิทธิภาพ

By