OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

OpenAI เปิดเผยผลการทดสอบ Deep Research AI ที่แสดงให้เห็นว่ามีความสามารถในการค้นหาข้อมูลอย่างอดทนมากกว่ามนุษย์ แต่ยังมีข้อจำกัดด้านความแม่นยำ โดยผิดพลาดถึงครึ่งหนึ่งของการทดสอบทั้งหมด

OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

Key takeaway

  • Deep Research ของ OpenAI แสดงให้เห็นถึงความสามารถในการค้นหาข้อมูลที่มีความอดทนและทำงานได้ต่อเนื่องมากกว่ามนุษย์ โดยเฉพาะในการค้นหาข้อมูลที่ต้องใช้เวลานานหลายชั่วโมง แต่ยังมีอัตราความผิดพลาดสูงถึง 48.5%
  • ผลการทดสอบผ่าน BrowseComp แสดงให้เห็นว่ามนุษย์มีข้อจำกัดในการค้นหาข้อมูลบนเว็บ โดย 70% ยอมแพ้หลังพยายาม 2 ชั่วโมง และตอบถูกเพียง 30% เท่านั้น ในขณะที่ Deep Research ทำได้ดีกว่าด้วยความแม่นยำ 51.5%
  • แม้ Deep Research จะทำงานได้ดีกว่าโมเดลอื่นๆ ของ OpenAI แต่ยังมีปัญหาเรื่อง calibration error คือการมั่นใจในคำตอบที่ผิดมากเกินไป ปัจจุบันให้บริการเฉพาะผู้ใช้ Plus และ Pro เท่านั้น

ความก้าวหน้าล่าสุดในเทคโนโลยี AI แบบ generative ได้พัฒนาไปสู่ AI agents ที่สามารถเข้าถึงเว็บเพื่อค้นหาคำตอบ แม้จะมีแนวโน้มที่น่าสนใจ แต่เทคโนโลยี agentic ยังคงอยู่ในขั้นตอนการพัฒนาอยู่มาก

ในงานวิจัยที่เผยแพร่เมื่อสัปดาห์ที่ผ่านมา นักวิจัยของ OpenAI ได้เปิดเผยว่าเทคโนโลยี Deep Research ซึ่งพัฒนาขึ้นเพื่อการค้นหาข้อมูลบนเว็บ ทำงานได้มีประสิทธิภาพมากกว่าโมเดลอื่นๆ ของ OpenAI เมื่อต้องตอบคำถามที่ต้องสืบค้นข้อมูลออนไลน์ และยังทำงานได้ดีกว่ามนุษย์ในการค้นหาที่ต้องใช้เวลาหลายชั่วโมง

อย่างไรก็ตาม Deep Research ยังคงล้มเหลวเกือบครึ่งหนึ่งของการทดสอบทั้งหมด

ผลการทดสอบล่าสุดของ OpenAI แสดงให้เห็นว่า Deep Research มีความเพียรพยายามและมุ่งมั่นในการค้นหาคำตอบที่เหนือกว่านักวิจัยที่เป็นมนุษย์สำหรับงานบางประเภท แต่ก็ยังคงประสบความล้มเหลวในการหาคำตอบที่ถูกต้องบ่อยครั้ง

การทดสอบที่เรียกว่า BrowseComp ซึ่งอธิบายโดย Jason Wei และทีมวิจัยว่าเป็น "benchmark ที่เรียบง่ายแต่ท้าทายสำหรับการวัดความสามารถของ agents ในการเบราว์เว็บ"

แนวคิดหลักคือ AI agents - ซึ่งหมายถึงโมเดล AI ที่สามารถเบราว์ "เว็บเพจนับพันหน้า" - อาจมีทรัพยากรที่เหนือกว่ามนุษย์ ซึ่งมีข้อจำกัดด้านความจำ เกิดความเหนื่อยล้าเมื่อต้องท่องเว็บเป็นเวลานาน และ "สามารถให้ความสนใจกับสิ่งเดียวในแต่ละครั้งและไม่สามารถทำงานแบบขนาน" หมายความว่า ไม่สามารถประมวลผลข้อมูลหลายกระแสความคิดในเวลาเดียวกันได้

"ในทางกลับกัน ปัญญาของเครื่องมีความจำที่กว้างขวางกว่าและสามารถทำงานได้อย่างไม่รู้จักเหน็ดเหนื่อยโดยไม่วอกแวก" Wei และทีมระบุในรายงาน

Wei และทีมได้พัฒนาต่อยอดจากงานวิจัยก่อนหน้าในปีที่แล้วคือ "SimpleQ&A" ซึ่งทดสอบความสามารถของโมเดล AI ในการตอบ "คำถามสั้นๆ ที่ต้องการข้อเท็จจริง" โดยคำถามครอบคลุมหัวข้อเกี่ยวกับทีวีและภาพยนตร์ วิทยาศาสตร์ ประวัติศาสตร์ ดนตรี วิดีโอเกม การเมือง และหัวข้ออื่นๆ

ชุดคำถาม BrowseComp จำนวน 1,266 ข้อถูกออกแบบให้ท้าทายมากกว่าการค้นหาข้อมูลทั่วไป ผู้วิจัยอธิบายว่าเป็นคำถามที่หาคำตอบได้ยาก หรือตามที่พวกเขากล่าวคือ "ท้าทายเพราะต้องค้นหาในพื้นที่ที่กว้างของคำตอบที่เป็นไปได้และจับคู่กับเงื่อนไขที่ระบุในคำถาม" และ "เป็นข้อมูลที่หายากและซับซ้อนบนเว็บ"

ผลการทดสอบพบว่ามนุษย์มีข้อจำกัดมากในการค้นหาบนเว็บ โดย 70% ของคำถาม มนุษย์ยอมแพ้หลังจากพยายามค้นหานานถึงสองชั่วโมง พวกเขาตอบได้เพียง 30% ของคำถาม และ 14% ของคำตอบที่ให้ไปไม่ตรงกับคำตอบที่ถูกต้อง

เมื่อทดสอบ Deep Research เทียบกับ GPT-4o , GPT-4.5 และโมเดล o1 ผลลัพธ์ของโมเดลอื่นๆ ออกมาไม่ดีนัก โดย GPT-4o และ GPT-4.5 ได้ความแม่นยำเกือบศูนย์

ด้วยคะแนน 51.5% Deep Research ทำได้ "ดีกว่าอย่างมีนัยสำคัญ" และ "มีประสิทธิภาพโดยเฉพาะในการตอบคำถามเฉพาะทางที่ไม่ชัดเจนซึ่งต้องเบราว์เว็บไซต์จำนวนมาก"

อย่างไรก็ตาม นักวิจัยยังพบว่า GPT-4o ที่ใช้การเบราว์และ Deep Research อาจผิดพลาดจากการ "มั่นใจเกินไป" ในคำตอบที่ผิด ซึ่งเป็นปัญหาที่รู้จักกันในชื่อ calibration error

ปัจจุบัน Deep Research มีให้บริการสำหรับผู้ใช้บริการแบบ Plus และ Pro ของ OpenAI เท่านั้น

Why it matters

💡 บทความนี้นำเสนอความก้าวหน้าล่าสุดของ OpenAI ในการพัฒนา Deep Research ซึ่งเป็น AI ที่มีความสามารถในการค้นหาข้อมูลบนเว็บได้อย่างละเอียดและอดทนมากกว่ามนุษย์ ผู้อ่านจะได้เรียนรู้ถึงข้อดีและข้อจำกัดของเทคโนโลยีนี้ ผ่านผลการทดสอบที่น่าสนใจจากการเปรียบเทียบกับทั้งมนุษย์และ AI รุ่นอื่นๆ ซึ่งมีความสำคัญต่อการพัฒนาและการประยุกต์ใช้ AI ในอนาคต โดยเฉพาะสำหรับผู้ที่ทำงานด้านการวิจัยและค้นคว้าข้อมูล

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openais-deep-research-has-more-fact-finding-stamina-than-you-but-its-still-wrong-half-the-time/

Read more

Zendesk เผยตัว AI เอเจนต์ใหม่สามารถแก้ปัญหาการซัพพอร์ตได้ถึง 80%

news

Zendesk เผยตัว AI เอเจนต์ใหม่สามารถแก้ปัญหาการซัพพอร์ตได้ถึง 80%

Zendesk ประกาศเปิดตัวชุดผลิตภัณฑ์ AI Agent ใหม่ที่สามารถแก้ไขปัญหาการสนับสนุนลูกค้าได้ถึง 80% โดยอัตโนมัติ พร้อมระบบ co-pilot สำหรับจัดการปัญหาซับซ้อน ตอกย้ำการเปลี่ยนแปลงครั้งสำคัญในอุตสาหกรรมบริการลูกค้า

By
เจมี่ ไดมอน CEO JPMorgan เผย AI ช่วยธนาคารประหยัดเงินหลายพันล้านต่อปี

news

เจมี่ ไดมอน CEO JPMorgan เผย AI ช่วยธนาคารประหยัดเงินหลายพันล้านต่อปี

JPMorgan ธนาคารยักษ์ใหญ่สหรัฐฯ ประสบความสำเร็จจากการลงทุนด้าน AI ประหยัดเงินได้ 2 พันล้านดอลลาร์ต่อปี พร้อมเผยมีพนักงานกว่า 150,000 คนใช้โมเดล AI ภายในองค์กรทุกสัปดาห์

By
Dia เบราว์เซอร์ที่ขับเคลื่อนด้วย AI จาก The Browser Company เปิดให้ใช้งานแล้วบน macOS

news

Dia เบราว์เซอร์ที่ขับเคลื่อนด้วย AI จาก The Browser Company เปิดให้ใช้งานแล้วบน macOS

The Browser Company เปิดตัว Dia เบราว์เซอร์ AI ทายาทของ Arc สำหรับ macOS ที่มาพร้อมฟีเจอร์อัจฉริยะมากมาย ทั้งแชท AI, Custom Skills และระบบ Memory พร้อมให้ใช้งานทั้งแผนฟรีและ Pro

By
Brandi AI แนะนำให้แบรนด์หยุดกังวลเรื่อง SEO และหันมาโฟกัสที่ Generative Engine Optimization แทน

news

Brandi AI แนะนำให้แบรนด์หยุดกังวลเรื่อง SEO และหันมาโฟกัสที่ Generative Engine Optimization แทน

Brandi AI แนะนำให้แบรนด์ปรับกลยุทธ์จาก SEO สู่ GEO (Generative Engine Optimization) เพื่อเพิ่มการมองเห็นบนแชทบอท AI ที่กำลังเข้ามาแทนที่เสิร์ชเอนจินแบบดั้งเดิม พร้อมเปิดตัวแพลตฟอร์มวิเคราะห์และปรับแต่งเนื้อหา

By