OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

OpenAI เปิดเผยผลการทดสอบ Deep Research AI ที่แสดงให้เห็นว่ามีความสามารถในการค้นหาข้อมูลอย่างอดทนมากกว่ามนุษย์ แต่ยังมีข้อจำกัดด้านความแม่นยำ โดยผิดพลาดถึงครึ่งหนึ่งของการทดสอบทั้งหมด

OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

Key takeaway

  • Deep Research ของ OpenAI แสดงให้เห็นถึงความสามารถในการค้นหาข้อมูลที่มีความอดทนและทำงานได้ต่อเนื่องมากกว่ามนุษย์ โดยเฉพาะในการค้นหาข้อมูลที่ต้องใช้เวลานานหลายชั่วโมง แต่ยังมีอัตราความผิดพลาดสูงถึง 48.5%
  • ผลการทดสอบผ่าน BrowseComp แสดงให้เห็นว่ามนุษย์มีข้อจำกัดในการค้นหาข้อมูลบนเว็บ โดย 70% ยอมแพ้หลังพยายาม 2 ชั่วโมง และตอบถูกเพียง 30% เท่านั้น ในขณะที่ Deep Research ทำได้ดีกว่าด้วยความแม่นยำ 51.5%
  • แม้ Deep Research จะทำงานได้ดีกว่าโมเดลอื่นๆ ของ OpenAI แต่ยังมีปัญหาเรื่อง calibration error คือการมั่นใจในคำตอบที่ผิดมากเกินไป ปัจจุบันให้บริการเฉพาะผู้ใช้ Plus และ Pro เท่านั้น

ความก้าวหน้าล่าสุดในเทคโนโลยี AI แบบ generative ได้พัฒนาไปสู่ AI agents ที่สามารถเข้าถึงเว็บเพื่อค้นหาคำตอบ แม้จะมีแนวโน้มที่น่าสนใจ แต่เทคโนโลยี agentic ยังคงอยู่ในขั้นตอนการพัฒนาอยู่มาก

ในงานวิจัยที่เผยแพร่เมื่อสัปดาห์ที่ผ่านมา นักวิจัยของ OpenAI ได้เปิดเผยว่าเทคโนโลยี Deep Research ซึ่งพัฒนาขึ้นเพื่อการค้นหาข้อมูลบนเว็บ ทำงานได้มีประสิทธิภาพมากกว่าโมเดลอื่นๆ ของ OpenAI เมื่อต้องตอบคำถามที่ต้องสืบค้นข้อมูลออนไลน์ และยังทำงานได้ดีกว่ามนุษย์ในการค้นหาที่ต้องใช้เวลาหลายชั่วโมง

อย่างไรก็ตาม Deep Research ยังคงล้มเหลวเกือบครึ่งหนึ่งของการทดสอบทั้งหมด

ผลการทดสอบล่าสุดของ OpenAI แสดงให้เห็นว่า Deep Research มีความเพียรพยายามและมุ่งมั่นในการค้นหาคำตอบที่เหนือกว่านักวิจัยที่เป็นมนุษย์สำหรับงานบางประเภท แต่ก็ยังคงประสบความล้มเหลวในการหาคำตอบที่ถูกต้องบ่อยครั้ง

การทดสอบที่เรียกว่า BrowseComp ซึ่งอธิบายโดย Jason Wei และทีมวิจัยว่าเป็น "benchmark ที่เรียบง่ายแต่ท้าทายสำหรับการวัดความสามารถของ agents ในการเบราว์เว็บ"

แนวคิดหลักคือ AI agents - ซึ่งหมายถึงโมเดล AI ที่สามารถเบราว์ "เว็บเพจนับพันหน้า" - อาจมีทรัพยากรที่เหนือกว่ามนุษย์ ซึ่งมีข้อจำกัดด้านความจำ เกิดความเหนื่อยล้าเมื่อต้องท่องเว็บเป็นเวลานาน และ "สามารถให้ความสนใจกับสิ่งเดียวในแต่ละครั้งและไม่สามารถทำงานแบบขนาน" หมายความว่า ไม่สามารถประมวลผลข้อมูลหลายกระแสความคิดในเวลาเดียวกันได้

"ในทางกลับกัน ปัญญาของเครื่องมีความจำที่กว้างขวางกว่าและสามารถทำงานได้อย่างไม่รู้จักเหน็ดเหนื่อยโดยไม่วอกแวก" Wei และทีมระบุในรายงาน

Wei และทีมได้พัฒนาต่อยอดจากงานวิจัยก่อนหน้าในปีที่แล้วคือ "SimpleQ&A" ซึ่งทดสอบความสามารถของโมเดล AI ในการตอบ "คำถามสั้นๆ ที่ต้องการข้อเท็จจริง" โดยคำถามครอบคลุมหัวข้อเกี่ยวกับทีวีและภาพยนตร์ วิทยาศาสตร์ ประวัติศาสตร์ ดนตรี วิดีโอเกม การเมือง และหัวข้ออื่นๆ

ชุดคำถาม BrowseComp จำนวน 1,266 ข้อถูกออกแบบให้ท้าทายมากกว่าการค้นหาข้อมูลทั่วไป ผู้วิจัยอธิบายว่าเป็นคำถามที่หาคำตอบได้ยาก หรือตามที่พวกเขากล่าวคือ "ท้าทายเพราะต้องค้นหาในพื้นที่ที่กว้างของคำตอบที่เป็นไปได้และจับคู่กับเงื่อนไขที่ระบุในคำถาม" และ "เป็นข้อมูลที่หายากและซับซ้อนบนเว็บ"

ผลการทดสอบพบว่ามนุษย์มีข้อจำกัดมากในการค้นหาบนเว็บ โดย 70% ของคำถาม มนุษย์ยอมแพ้หลังจากพยายามค้นหานานถึงสองชั่วโมง พวกเขาตอบได้เพียง 30% ของคำถาม และ 14% ของคำตอบที่ให้ไปไม่ตรงกับคำตอบที่ถูกต้อง

เมื่อทดสอบ Deep Research เทียบกับ GPT-4o , GPT-4.5 และโมเดล o1 ผลลัพธ์ของโมเดลอื่นๆ ออกมาไม่ดีนัก โดย GPT-4o และ GPT-4.5 ได้ความแม่นยำเกือบศูนย์

ด้วยคะแนน 51.5% Deep Research ทำได้ "ดีกว่าอย่างมีนัยสำคัญ" และ "มีประสิทธิภาพโดยเฉพาะในการตอบคำถามเฉพาะทางที่ไม่ชัดเจนซึ่งต้องเบราว์เว็บไซต์จำนวนมาก"

อย่างไรก็ตาม นักวิจัยยังพบว่า GPT-4o ที่ใช้การเบราว์และ Deep Research อาจผิดพลาดจากการ "มั่นใจเกินไป" ในคำตอบที่ผิด ซึ่งเป็นปัญหาที่รู้จักกันในชื่อ calibration error

ปัจจุบัน Deep Research มีให้บริการสำหรับผู้ใช้บริการแบบ Plus และ Pro ของ OpenAI เท่านั้น

Why it matters

💡 บทความนี้นำเสนอความก้าวหน้าล่าสุดของ OpenAI ในการพัฒนา Deep Research ซึ่งเป็น AI ที่มีความสามารถในการค้นหาข้อมูลบนเว็บได้อย่างละเอียดและอดทนมากกว่ามนุษย์ ผู้อ่านจะได้เรียนรู้ถึงข้อดีและข้อจำกัดของเทคโนโลยีนี้ ผ่านผลการทดสอบที่น่าสนใจจากการเปรียบเทียบกับทั้งมนุษย์และ AI รุ่นอื่นๆ ซึ่งมีความสำคัญต่อการพัฒนาและการประยุกต์ใช้ AI ในอนาคต โดยเฉพาะสำหรับผู้ที่ทำงานด้านการวิจัยและค้นคว้าข้อมูล

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openais-deep-research-has-more-fact-finding-stamina-than-you-but-its-still-wrong-half-the-time/

Read more

OpenAI เปิดตัว ChatGPT Health ช่วยผู้ป่วยเตรียมพร้อมก่อนพบแพทย์

news

OpenAI เปิดตัว ChatGPT Health ช่วยผู้ป่วยเตรียมพร้อมก่อนพบแพทย์

OpenAI เปิดตัว ChatGPT Health ช่วยผู้ป่วยเตรียมพร้อมก่อนพบแพทย์ โดยสามารถอัปโหลดประวัติการรักษาและผลตรวจได้ ขณะที่ UChicago Medicine ใช้ AI ช่วยบันทึกข้อมูลผู้ป่วย ลดภาวะหมดไฟของแพทย์จาก 52% เหลือ 39%

By
นักวิจัยเผยผลกระทบเมื่อองค์กรนำ AI มาใช้อย่างจริงจัง ผลลัพธ์อาจทำให้คุณกังวล

news

นักวิจัยเผยผลกระทบเมื่อองค์กรนำ AI มาใช้อย่างจริงจัง ผลลัพธ์อาจทำให้คุณกังวล

นักวิจัยจาก UC Berkeley พบว่าการนำ AI มาใช้ในองค์กรไม่ได้ช่วยลดภาระงานตามที่คาดหวัง แต่กลับเพิ่มความเข้มข้นของงาน ก่อให้เกิดปรากฏการณ์ "workload creep" ที่นำไปสู่ความเหนื่อยล้า ภาวะหมดไฟ และคุณภาพงานที่ลดลง

By
ศึกโฆษณา AI ในงาน Super Bowl เผยวิสัยทัศน์ที่แตกต่างของบริษัทเทคยักษ์ใหญ่

news

ศึกโฆษณา AI ในงาน Super Bowl เผยวิสัยทัศน์ที่แตกต่างของบริษัทเทคยักษ์ใหญ่

ศึกโฆษณา AI ในงาน Super Bowl เผยให้เห็นความขัดแย้งระหว่าง OpenAI และ Anthropic พร้อมวิสัยทัศน์ที่แตกต่าง โดย OpenAI มุ่งเข้าถึงผู้ใช้มวลชน Anthropic เน้นลูกค้าองค์กร และ Google พยายามผสาน Gemini เข้ากับระบบนิเวศผลิตภัณฑ์ทั้งหมด

By
พนักงานกังวลเสียงานจาก AI ท่ามกลางการนำเทคโนโลยีมาใช้ในองค์กร

news

พนักงานกังวลเสียงานจาก AI ท่ามกลางการนำเทคโนโลยีมาใช้ในองค์กร

พนักงานกว่า 2 ใน 3 กังวลผลกระทบเชิงลบจาก AI โดยเฉพาะการแทนที่ตำแหน่งงาน ขณะที่ผู้บริหารกว่าครึ่งเชื่อว่าองค์กรพร้อมบูรณาการ AI แล้ว ผู้เชี่ยวชาญแนะนำให้ชะลอการนำ AI มาใช้และเน้นการสื่อสารสองทางเพื่อสร้างความไว้วางใจ

By