OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

OpenAI เปิดเผยผลการทดสอบ Deep Research AI ที่แสดงให้เห็นว่ามีความสามารถในการค้นหาข้อมูลอย่างอดทนมากกว่ามนุษย์ แต่ยังมีข้อจำกัดด้านความแม่นยำ โดยผิดพลาดถึงครึ่งหนึ่งของการทดสอบทั้งหมด

OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

Key takeaway

  • Deep Research ของ OpenAI แสดงให้เห็นถึงความสามารถในการค้นหาข้อมูลที่มีความอดทนและทำงานได้ต่อเนื่องมากกว่ามนุษย์ โดยเฉพาะในการค้นหาข้อมูลที่ต้องใช้เวลานานหลายชั่วโมง แต่ยังมีอัตราความผิดพลาดสูงถึง 48.5%
  • ผลการทดสอบผ่าน BrowseComp แสดงให้เห็นว่ามนุษย์มีข้อจำกัดในการค้นหาข้อมูลบนเว็บ โดย 70% ยอมแพ้หลังพยายาม 2 ชั่วโมง และตอบถูกเพียง 30% เท่านั้น ในขณะที่ Deep Research ทำได้ดีกว่าด้วยความแม่นยำ 51.5%
  • แม้ Deep Research จะทำงานได้ดีกว่าโมเดลอื่นๆ ของ OpenAI แต่ยังมีปัญหาเรื่อง calibration error คือการมั่นใจในคำตอบที่ผิดมากเกินไป ปัจจุบันให้บริการเฉพาะผู้ใช้ Plus และ Pro เท่านั้น

ความก้าวหน้าล่าสุดในเทคโนโลยี AI แบบ generative ได้พัฒนาไปสู่ AI agents ที่สามารถเข้าถึงเว็บเพื่อค้นหาคำตอบ แม้จะมีแนวโน้มที่น่าสนใจ แต่เทคโนโลยี agentic ยังคงอยู่ในขั้นตอนการพัฒนาอยู่มาก

ในงานวิจัยที่เผยแพร่เมื่อสัปดาห์ที่ผ่านมา นักวิจัยของ OpenAI ได้เปิดเผยว่าเทคโนโลยี Deep Research ซึ่งพัฒนาขึ้นเพื่อการค้นหาข้อมูลบนเว็บ ทำงานได้มีประสิทธิภาพมากกว่าโมเดลอื่นๆ ของ OpenAI เมื่อต้องตอบคำถามที่ต้องสืบค้นข้อมูลออนไลน์ และยังทำงานได้ดีกว่ามนุษย์ในการค้นหาที่ต้องใช้เวลาหลายชั่วโมง

อย่างไรก็ตาม Deep Research ยังคงล้มเหลวเกือบครึ่งหนึ่งของการทดสอบทั้งหมด

ผลการทดสอบล่าสุดของ OpenAI แสดงให้เห็นว่า Deep Research มีความเพียรพยายามและมุ่งมั่นในการค้นหาคำตอบที่เหนือกว่านักวิจัยที่เป็นมนุษย์สำหรับงานบางประเภท แต่ก็ยังคงประสบความล้มเหลวในการหาคำตอบที่ถูกต้องบ่อยครั้ง

การทดสอบที่เรียกว่า BrowseComp ซึ่งอธิบายโดย Jason Wei และทีมวิจัยว่าเป็น "benchmark ที่เรียบง่ายแต่ท้าทายสำหรับการวัดความสามารถของ agents ในการเบราว์เว็บ"

แนวคิดหลักคือ AI agents - ซึ่งหมายถึงโมเดล AI ที่สามารถเบราว์ "เว็บเพจนับพันหน้า" - อาจมีทรัพยากรที่เหนือกว่ามนุษย์ ซึ่งมีข้อจำกัดด้านความจำ เกิดความเหนื่อยล้าเมื่อต้องท่องเว็บเป็นเวลานาน และ "สามารถให้ความสนใจกับสิ่งเดียวในแต่ละครั้งและไม่สามารถทำงานแบบขนาน" หมายความว่า ไม่สามารถประมวลผลข้อมูลหลายกระแสความคิดในเวลาเดียวกันได้

"ในทางกลับกัน ปัญญาของเครื่องมีความจำที่กว้างขวางกว่าและสามารถทำงานได้อย่างไม่รู้จักเหน็ดเหนื่อยโดยไม่วอกแวก" Wei และทีมระบุในรายงาน

Wei และทีมได้พัฒนาต่อยอดจากงานวิจัยก่อนหน้าในปีที่แล้วคือ "SimpleQ&A" ซึ่งทดสอบความสามารถของโมเดล AI ในการตอบ "คำถามสั้นๆ ที่ต้องการข้อเท็จจริง" โดยคำถามครอบคลุมหัวข้อเกี่ยวกับทีวีและภาพยนตร์ วิทยาศาสตร์ ประวัติศาสตร์ ดนตรี วิดีโอเกม การเมือง และหัวข้ออื่นๆ

ชุดคำถาม BrowseComp จำนวน 1,266 ข้อถูกออกแบบให้ท้าทายมากกว่าการค้นหาข้อมูลทั่วไป ผู้วิจัยอธิบายว่าเป็นคำถามที่หาคำตอบได้ยาก หรือตามที่พวกเขากล่าวคือ "ท้าทายเพราะต้องค้นหาในพื้นที่ที่กว้างของคำตอบที่เป็นไปได้และจับคู่กับเงื่อนไขที่ระบุในคำถาม" และ "เป็นข้อมูลที่หายากและซับซ้อนบนเว็บ"

ผลการทดสอบพบว่ามนุษย์มีข้อจำกัดมากในการค้นหาบนเว็บ โดย 70% ของคำถาม มนุษย์ยอมแพ้หลังจากพยายามค้นหานานถึงสองชั่วโมง พวกเขาตอบได้เพียง 30% ของคำถาม และ 14% ของคำตอบที่ให้ไปไม่ตรงกับคำตอบที่ถูกต้อง

เมื่อทดสอบ Deep Research เทียบกับ GPT-4o , GPT-4.5 และโมเดล o1 ผลลัพธ์ของโมเดลอื่นๆ ออกมาไม่ดีนัก โดย GPT-4o และ GPT-4.5 ได้ความแม่นยำเกือบศูนย์

ด้วยคะแนน 51.5% Deep Research ทำได้ "ดีกว่าอย่างมีนัยสำคัญ" และ "มีประสิทธิภาพโดยเฉพาะในการตอบคำถามเฉพาะทางที่ไม่ชัดเจนซึ่งต้องเบราว์เว็บไซต์จำนวนมาก"

อย่างไรก็ตาม นักวิจัยยังพบว่า GPT-4o ที่ใช้การเบราว์และ Deep Research อาจผิดพลาดจากการ "มั่นใจเกินไป" ในคำตอบที่ผิด ซึ่งเป็นปัญหาที่รู้จักกันในชื่อ calibration error

ปัจจุบัน Deep Research มีให้บริการสำหรับผู้ใช้บริการแบบ Plus และ Pro ของ OpenAI เท่านั้น

Why it matters

💡 บทความนี้นำเสนอความก้าวหน้าล่าสุดของ OpenAI ในการพัฒนา Deep Research ซึ่งเป็น AI ที่มีความสามารถในการค้นหาข้อมูลบนเว็บได้อย่างละเอียดและอดทนมากกว่ามนุษย์ ผู้อ่านจะได้เรียนรู้ถึงข้อดีและข้อจำกัดของเทคโนโลยีนี้ ผ่านผลการทดสอบที่น่าสนใจจากการเปรียบเทียบกับทั้งมนุษย์และ AI รุ่นอื่นๆ ซึ่งมีความสำคัญต่อการพัฒนาและการประยุกต์ใช้ AI ในอนาคต โดยเฉพาะสำหรับผู้ที่ทำงานด้านการวิจัยและค้นคว้าข้อมูล

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openais-deep-research-has-more-fact-finding-stamina-than-you-but-its-still-wrong-half-the-time/

Read more

Google เปิดตัว Gemini 2.5 Flash โมเดล AI ที่มีประสิทธิภาพด้านต้นทุนสูงสุด

news

Google เปิดตัว Gemini 2.5 Flash โมเดล AI ที่มีประสิทธิภาพด้านต้นทุนสูงสุด

Google เปิดตัว Gemini 2.5 Flash โมเดล AI รุ่นใหม่ที่มาพร้อมความสามารถในการให้เหตุผลขั้นสูง รองรับอินพุตหลากหลายรูปแบบ และมีประสิทธิภาพด้านต้นทุนสูงสุด พร้อมให้ทดลองใช้งานแล้วผ่าน API

By
ทำไมการใช้ภาพจาก ChatGPT อาจทำให้คุณเสียเปรียบในอนาคต

news

ทำไมการใช้ภาพจาก ChatGPT อาจทำให้คุณเสียเปรียบในอนาคต

ค้นพบความเสี่ยงที่ซ่อนอยู่เบื้องหลังการใช้ภาพจาก ChatGPT ทั้งด้านลิขสิทธิ์และผลกระทบทางธุรกิจ พร้อมแนวทางการใช้งานอย่างปลอดภัยและมีประสิทธิภาพ

By
OpenAI พยายามซื้อผู้สร้าง Cursor ก่อนเข้าสู่การเจรจาซื้อ Windsurf มูลค่า $3B

news

OpenAI พยายามซื้อผู้สร้าง Cursor ก่อนเข้าสู่การเจรจาซื้อ Windsurf มูลค่า $3B

OpenAI เคยเจรจาซื้อกิจการ Anysphere ผู้พัฒนา Cursor ในปี 2024 แต่ไม่สำเร็จ ก่อนหันไปเจรจากับ Windsurf มูลค่า 3 พันล้านดอลลาร์ สะท้อนความสำคัญของตลาด code generation

By
AWS เปิดตัวตัวอย่างโค้ด Security Reference Architecture สำหรับ Generative AI

news

AWS เปิดตัวตัวอย่างโค้ด Security Reference Architecture สำหรับ Generative AI

AWS ประกาศเปิดตัวโค้ดตัวอย่าง Security Reference Architecture สำหรับ Generative AI ครอบคลุมทั้ง secure model inference และ RAG พร้อมเทมเพลต CloudFormation ที่พร้อมใช้งาน เน้นความปลอดภัยระดับสูงสุด

By