OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

OpenAI เปิดเผยผลการทดสอบ Deep Research AI ที่แสดงให้เห็นว่ามีความสามารถในการค้นหาข้อมูลอย่างอดทนมากกว่ามนุษย์ แต่ยังมีข้อจำกัดด้านความแม่นยำ โดยผิดพลาดถึงครึ่งหนึ่งของการทดสอบทั้งหมด

OpenAI's Deep Research มีความอดทนในการค้นหาข้อเท็จจริงมากกว่ามนุษย์ แต่ยังคงผิดพลาดครึ่งหนึ่งของเวลา

Key takeaway

  • Deep Research ของ OpenAI แสดงให้เห็นถึงความสามารถในการค้นหาข้อมูลที่มีความอดทนและทำงานได้ต่อเนื่องมากกว่ามนุษย์ โดยเฉพาะในการค้นหาข้อมูลที่ต้องใช้เวลานานหลายชั่วโมง แต่ยังมีอัตราความผิดพลาดสูงถึง 48.5%
  • ผลการทดสอบผ่าน BrowseComp แสดงให้เห็นว่ามนุษย์มีข้อจำกัดในการค้นหาข้อมูลบนเว็บ โดย 70% ยอมแพ้หลังพยายาม 2 ชั่วโมง และตอบถูกเพียง 30% เท่านั้น ในขณะที่ Deep Research ทำได้ดีกว่าด้วยความแม่นยำ 51.5%
  • แม้ Deep Research จะทำงานได้ดีกว่าโมเดลอื่นๆ ของ OpenAI แต่ยังมีปัญหาเรื่อง calibration error คือการมั่นใจในคำตอบที่ผิดมากเกินไป ปัจจุบันให้บริการเฉพาะผู้ใช้ Plus และ Pro เท่านั้น

ความก้าวหน้าล่าสุดในเทคโนโลยี AI แบบ generative ได้พัฒนาไปสู่ AI agents ที่สามารถเข้าถึงเว็บเพื่อค้นหาคำตอบ แม้จะมีแนวโน้มที่น่าสนใจ แต่เทคโนโลยี agentic ยังคงอยู่ในขั้นตอนการพัฒนาอยู่มาก

ในงานวิจัยที่เผยแพร่เมื่อสัปดาห์ที่ผ่านมา นักวิจัยของ OpenAI ได้เปิดเผยว่าเทคโนโลยี Deep Research ซึ่งพัฒนาขึ้นเพื่อการค้นหาข้อมูลบนเว็บ ทำงานได้มีประสิทธิภาพมากกว่าโมเดลอื่นๆ ของ OpenAI เมื่อต้องตอบคำถามที่ต้องสืบค้นข้อมูลออนไลน์ และยังทำงานได้ดีกว่ามนุษย์ในการค้นหาที่ต้องใช้เวลาหลายชั่วโมง

อย่างไรก็ตาม Deep Research ยังคงล้มเหลวเกือบครึ่งหนึ่งของการทดสอบทั้งหมด

ผลการทดสอบล่าสุดของ OpenAI แสดงให้เห็นว่า Deep Research มีความเพียรพยายามและมุ่งมั่นในการค้นหาคำตอบที่เหนือกว่านักวิจัยที่เป็นมนุษย์สำหรับงานบางประเภท แต่ก็ยังคงประสบความล้มเหลวในการหาคำตอบที่ถูกต้องบ่อยครั้ง

การทดสอบที่เรียกว่า BrowseComp ซึ่งอธิบายโดย Jason Wei และทีมวิจัยว่าเป็น "benchmark ที่เรียบง่ายแต่ท้าทายสำหรับการวัดความสามารถของ agents ในการเบราว์เว็บ"

แนวคิดหลักคือ AI agents - ซึ่งหมายถึงโมเดล AI ที่สามารถเบราว์ "เว็บเพจนับพันหน้า" - อาจมีทรัพยากรที่เหนือกว่ามนุษย์ ซึ่งมีข้อจำกัดด้านความจำ เกิดความเหนื่อยล้าเมื่อต้องท่องเว็บเป็นเวลานาน และ "สามารถให้ความสนใจกับสิ่งเดียวในแต่ละครั้งและไม่สามารถทำงานแบบขนาน" หมายความว่า ไม่สามารถประมวลผลข้อมูลหลายกระแสความคิดในเวลาเดียวกันได้

"ในทางกลับกัน ปัญญาของเครื่องมีความจำที่กว้างขวางกว่าและสามารถทำงานได้อย่างไม่รู้จักเหน็ดเหนื่อยโดยไม่วอกแวก" Wei และทีมระบุในรายงาน

Wei และทีมได้พัฒนาต่อยอดจากงานวิจัยก่อนหน้าในปีที่แล้วคือ "SimpleQ&A" ซึ่งทดสอบความสามารถของโมเดล AI ในการตอบ "คำถามสั้นๆ ที่ต้องการข้อเท็จจริง" โดยคำถามครอบคลุมหัวข้อเกี่ยวกับทีวีและภาพยนตร์ วิทยาศาสตร์ ประวัติศาสตร์ ดนตรี วิดีโอเกม การเมือง และหัวข้ออื่นๆ

ชุดคำถาม BrowseComp จำนวน 1,266 ข้อถูกออกแบบให้ท้าทายมากกว่าการค้นหาข้อมูลทั่วไป ผู้วิจัยอธิบายว่าเป็นคำถามที่หาคำตอบได้ยาก หรือตามที่พวกเขากล่าวคือ "ท้าทายเพราะต้องค้นหาในพื้นที่ที่กว้างของคำตอบที่เป็นไปได้และจับคู่กับเงื่อนไขที่ระบุในคำถาม" และ "เป็นข้อมูลที่หายากและซับซ้อนบนเว็บ"

ผลการทดสอบพบว่ามนุษย์มีข้อจำกัดมากในการค้นหาบนเว็บ โดย 70% ของคำถาม มนุษย์ยอมแพ้หลังจากพยายามค้นหานานถึงสองชั่วโมง พวกเขาตอบได้เพียง 30% ของคำถาม และ 14% ของคำตอบที่ให้ไปไม่ตรงกับคำตอบที่ถูกต้อง

เมื่อทดสอบ Deep Research เทียบกับ GPT-4o , GPT-4.5 และโมเดล o1 ผลลัพธ์ของโมเดลอื่นๆ ออกมาไม่ดีนัก โดย GPT-4o และ GPT-4.5 ได้ความแม่นยำเกือบศูนย์

ด้วยคะแนน 51.5% Deep Research ทำได้ "ดีกว่าอย่างมีนัยสำคัญ" และ "มีประสิทธิภาพโดยเฉพาะในการตอบคำถามเฉพาะทางที่ไม่ชัดเจนซึ่งต้องเบราว์เว็บไซต์จำนวนมาก"

อย่างไรก็ตาม นักวิจัยยังพบว่า GPT-4o ที่ใช้การเบราว์และ Deep Research อาจผิดพลาดจากการ "มั่นใจเกินไป" ในคำตอบที่ผิด ซึ่งเป็นปัญหาที่รู้จักกันในชื่อ calibration error

ปัจจุบัน Deep Research มีให้บริการสำหรับผู้ใช้บริการแบบ Plus และ Pro ของ OpenAI เท่านั้น

Why it matters

💡 บทความนี้นำเสนอความก้าวหน้าล่าสุดของ OpenAI ในการพัฒนา Deep Research ซึ่งเป็น AI ที่มีความสามารถในการค้นหาข้อมูลบนเว็บได้อย่างละเอียดและอดทนมากกว่ามนุษย์ ผู้อ่านจะได้เรียนรู้ถึงข้อดีและข้อจำกัดของเทคโนโลยีนี้ ผ่านผลการทดสอบที่น่าสนใจจากการเปรียบเทียบกับทั้งมนุษย์และ AI รุ่นอื่นๆ ซึ่งมีความสำคัญต่อการพัฒนาและการประยุกต์ใช้ AI ในอนาคต โดยเฉพาะสำหรับผู้ที่ทำงานด้านการวิจัยและค้นคว้าข้อมูล

ข้อมูลอ้างอิงจาก https://www.zdnet.com/article/openais-deep-research-has-more-fact-finding-stamina-than-you-but-its-still-wrong-half-the-time/

Read more

ChatGPT เปิดตัว Group Chats ฟีเจอร์แชทกลุ่มใหม่เพื่อการทำงานร่วมกันอย่างมีประสิทธิภาพ

news

ChatGPT เปิดตัว Group Chats ฟีเจอร์แชทกลุ่มใหม่เพื่อการทำงานร่วมกันอย่างมีประสิทธิภาพ

** OpenAI เปิดตัว Group Chats ฟีเจอร์ใหม่ที่ให้ผู้ใช้ทำงานร่วมกันกับเพื่อน ครอบครัว หรือเพื่อนร่วมงานพร้อม ChatGPT ในการสนทนาเดียวกัน เริ่มทดสอบใน 4 ประเทศเอเชีย รองรับทุกแพ็กเกจ มีฟีเจอร์ครบครัน

By
IBM เตรียมปลดพนักงานหลายพันคนท่ามกลางการเติบโตของ AI

news

IBM เตรียมปลดพนักงานหลายพันคนท่ามกลางการเติบโตของ AI

IBM เตรียมปลดพนักงานหลายพันคนทั่วโลก (ต่ำกว่า 10% จากพนักงาน 270,000 คน) ขณะปรับเปลี่ยนโฟกัสไปยังธุรกิจ AI และซอฟต์แวร์ที่มีการเติบโตสูง โดยยอดขายล่าสุดเพิ่มขึ้น 9% เป็น 16.33 พันล้านดอลลาร์

By
Newsmax ถูกหลอกโดยวิดีโอ AI และออกอากาศทั้งช่วงรายการเสมือนว่ามันเป็นเรื่องจริง

news

Newsmax ถูกหลอกโดยวิดีโอ AI และออกอากาศทั้งช่วงรายการเสมือนว่ามันเป็นเรื่องจริง

นิวส์แมกซ์ออกอากาศวิดีโอที่สร้างด้วย AI แสดงผู้หญิงโกรธเรื่อง food stamps ถูกตัด โดยนำเสนอเป็นเรื่องจริงในรายการ "The Cost of Free Stuff" กรณีนี้สะท้อนอันตรายของ deepfake และการใช้ AI สร้างข้อมูลบิดเบือนทางการเมือง

By
สตาร์ทอัพซีแอตเทิลเปิดตัวแว่นตาอัจฉริยะที่ขับเคลื่อนด้วย AI สำหรับช่างมุงหลังคาและช่างไฟฟ้า

news

สตาร์ทอัพซีแอตเทิลเปิดตัวแว่นตาอัจฉริยะที่ขับเคลื่อนด้วย AI สำหรับช่างมุงหลังคาและช่างไฟฟ้า

สตาร์ทอัพซีแอตเทิล Zuper เปิดตัว "Zuper Glass" แว่นตาอัจฉริยะที่ขับเคลื่อนด้วย AI สำหรับช่างเทคนิค ช่วยให้ถ่ายภาพ บันทึกวิดีโอ และสื่อสารได้โดยมือยังว่างพร้อมทำงาน ซิงค์ข้อมูลแบบเรียลไทม์กับแพลตฟอร์มหลักของบริษัท

By