Amazon เปิดตัว Nova Act เอเจนต์ AI ที่ควบคุมเว็บเบราว์เซอร์ได้

Amazon เปิดตัว Nova Act เอเจนต์ AI ที่ควบคุมเว็บเบราว์เซอร์ได้อัตโนมัติ พร้อม SDK สำหรับนักพัฒนา โดยจะเป็นส่วนสำคัญของ Alexa+ ที่กำลังจะเปิดตัว แข่งขันกับ OpenAI และ Anthropic ในตลาดเอเจนต์ AI

Amazon เปิดตัว Nova Act เอเจนต์ AI ที่ควบคุมเว็บเบราว์เซอร์ได้

Key takeaway

  • Nova Act เป็นเอเจนต์ AI ตัวใหม่จาก Amazon ที่สามารถควบคุมเว็บเบราว์เซอร์และทำงานอัตโนมัติพื้นฐานได้ โดยจะเป็นส่วนสำคัญของ Alexa+ ที่กำลังจะเปิดตัวในอนาคต
  • Amazon อ้างว่า Nova Act มีประสิทธิภาพสูงกว่าคู่แข่งอย่าง OpenAI และ Anthropic โดยได้คะแนน 94% ใน ScreenSpot Web Text test ซึ่งสูงกว่าคู่แข่งที่ได้ 88% และ 90% ตามลำดับ
  • Nova Act พัฒนาโดยห้องปฏิบัติการ AGI ของ Amazon ที่นำโดย David Luan และ Pieter Abbeel อดีตนักวิจัยจาก OpenAI โดยมีเป้าหมายในการสร้างระบบ AI ที่สามารถช่วยมนุษย์ทำงานบนคอมพิวเตอร์ได้ทุกอย่าง

Amazon เปิดตัว Nova Act เมื่อวันจันทร์ ซึ่งเป็นเอเจนต์ AI อเนกประสงค์ที่สามารถควบคุมเว็บเบราว์เซอร์และทำงานพื้นฐานได้โดยอัตโนมัติ พร้อมกันนี้ บริษัทยังได้เปิดตัว Nova Act SDK ชุดเครื่องมือสำหรับนักพัฒนาในการสร้างต้นแบบเอเจนต์ด้วยเทคโนโลยีดังกล่าว

Nova Act พัฒนาโดยห้องปฏิบัติการ AGI ของ Amazon ที่เพิ่งเปิดในซานฟรานซิสโก จะเป็นกำลังสำคัญในการขับเคลื่อนฟีเจอร์หลักของ Alexa+ ที่กำลังจะเปิดตัว ซึ่งเป็นเวอร์ชันของผู้ช่วยเสียงยอดนิยมที่เสริมด้วย generative AI อย่างไรก็ตาม เวอร์ชันของ Nova Act ที่เปิดให้ใช้งานวันนี้ยังไม่สมบูรณ์ โดย Amazon ระบุว่าเป็นเพียง "research preview" เท่านั้น

นักพัฒนาสามารถเข้าถึงชุดเครื่องมือ Nova Act ได้ที่เว็บไซต์ nova.amazon.com ซึ่งยังทำหน้าที่เป็นศูนย์รวมโมเดลพื้นฐาน Nova ต่างๆ ของ Amazon

Nova Act เป็นความพยายามของ Amazon ในการแข่งขันกับ OpenAI's Operator และ Anthropic's Computer Use ด้วยเทคโนโลยีเอเจนต์ AI อเนกประสงค์ของตัวเอง บริษัทเทคโนโลยีชั้นนำเชื่อว่าเอเจนต์ AI ที่สามารถท่องเว็บแทนผู้ใช้จะทำให้แชทบอท AI ในปัจจุบันมีประโยชน์มากขึ้นอย่างมีนัยสำคัญ

แม้ Amazon อาจไม่ใช่รายแรกที่พัฒนาเทคโนโลยีประเภทนี้ แต่ผ่าน Alexa+ บริษัทอาจสามารถเข้าถึงผู้ใช้ได้กว้างที่สุด

Amazon ระบุว่านักพัฒนาที่ใช้ Nova Act SDK สามารถสร้างเอเจนต์ที่ทำงานพื้นฐานแทนผู้ใช้ได้โดยอัตโนมัติ เช่น สั่งอาหารจาก Sweetgreen หรือจองร้านอาหาร ด้วยชุดเครื่องมือดังกล่าว นักพัฒนาสามารถรวมฟีเจอร์ที่ช่วยให้เอเจนต์ AI นำทางหน้าเว็บ กรอกแบบฟอร์ม หรือเลือกวันที่ในปฏิทินได้

Amazon อ้างว่า Nova Act มีประสิทธิภาพเหนือกว่าเอเจนต์จาก OpenAI และ Anthropic ในการทดสอบภายใน โดยใน ScreenSpot Web Text ซึ่งวัดการโต้ตอบกับข้อความบนหน้าจอ Nova Act ได้คะแนน 94% สูงกว่า OpenAI's CUA (88%) และ Anthropic's Claude 3.7 Sonnet (90%) อย่างไรก็ตาม Amazon ไม่ได้ทดสอบด้วยการประเมินที่พบบ่อย เช่น WebVoyager

Nova Act เป็นผลิตภัณฑ์สาธารณะชิ้นแรกจากห้องปฏิบัติการ AGI ของ Amazon ซึ่งนำโดย David Luan และ Pieter Abbeel อดีตนักวิจัยจาก OpenAI ทั้งคู่เคยก่อตั้งสตาร์ทอัพมาก่อน โดย Luan ก่อตั้ง Adept ส่วน Abbeel ร่วมก่อตั้ง Covariant ก่อนที่ Amazon จะจ้างพวกเขาเมื่อปีที่แล้วเพื่อนำทีมพัฒนาเอเจนต์ AI

Luan เผยกับ TechCrunch ว่าเขามองเอเจนต์เป็นขั้นตอนสำคัญสู่การสร้างระบบ AI ที่ฉลาดเหนือมนุษย์ โดยนิยาม AGI ว่าเป็น "ระบบ AI ที่สามารถช่วยคุณทำทุกอย่างที่มนุษย์ทำบนคอมพิวเตอร์" ทีมของเขาออกแบบ Nova Act SDK ให้ทำงานสั้นๆ ง่ายๆ ได้อย่างน่าเชื่อถือ พร้อมเครื่องมือสำหรับนักพัฒนาในการกำหนดจุดที่ต้องการให้มนุษย์เข้ามาแทรกแซงในเวิร์กโฟลว์

ปัญหาใหญ่ของเอเจนต์ AI รุ่นแรกๆ จาก OpenAI, Google และ Anthropic คือความน่าเชื่อถือในสถานการณ์ที่แตกต่างกัน ในการทดสอบของ TechCrunch พบว่าระบบเหล่านี้ทำงานช้า มีปัญหาในการทำงานอิสระเป็นเวลานาน และมักทำผิดพลาดในจุดที่มนุษย์จะไม่ทำ เร็วๆ นี้เราจะได้เห็นว่า Amazon จะแก้ปัญหานี้ได้หรือไม่ หรือจะประสบปัญหาเดียวกับคู่แข่ง

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่สนใจด้านเทคโนโลยี AI และการพัฒนาซอฟต์แวร์ เนื่องจาก Nova Act ของ Amazon เป็นการก้าวกระโดดครั้งสำคัญในวงการ AI Agent ที่สามารถควบคุมเว็บเบราว์เซอร์ได้โดยอัตโนมัติ ซึ่งจะส่งผลกระทบต่อการพัฒนาแอปพลิเคชันและการใช้งาน AI ในอนาคต โดยเฉพาะอย่างยิ่งเมื่อ Amazon เปิดให้นักพัฒนาสามารถเข้าถึง SDK เพื่อสร้างโซลูชันของตนเอง ทำให้เกิดโอกาสใหม่ๆ ในการพัฒนานวัตกรรมด้าน AI

ข้อมูลอ้างอิงจาก https://techcrunch.com/2025/03/31/amazon-unveils-nova-act-an-ai-agent-that-uses-a-web-browser/

Read more

Google เปิดตัว Gemini 2.5 Flash โมเดล AI ที่มีประสิทธิภาพด้านต้นทุนสูงสุด

news

Google เปิดตัว Gemini 2.5 Flash โมเดล AI ที่มีประสิทธิภาพด้านต้นทุนสูงสุด

Google เปิดตัว Gemini 2.5 Flash โมเดล AI รุ่นใหม่ที่มาพร้อมความสามารถในการให้เหตุผลขั้นสูง รองรับอินพุตหลากหลายรูปแบบ และมีประสิทธิภาพด้านต้นทุนสูงสุด พร้อมให้ทดลองใช้งานแล้วผ่าน API

By
ทำไมการใช้ภาพจาก ChatGPT อาจทำให้คุณเสียเปรียบในอนาคต

news

ทำไมการใช้ภาพจาก ChatGPT อาจทำให้คุณเสียเปรียบในอนาคต

ค้นพบความเสี่ยงที่ซ่อนอยู่เบื้องหลังการใช้ภาพจาก ChatGPT ทั้งด้านลิขสิทธิ์และผลกระทบทางธุรกิจ พร้อมแนวทางการใช้งานอย่างปลอดภัยและมีประสิทธิภาพ

By
OpenAI พยายามซื้อผู้สร้าง Cursor ก่อนเข้าสู่การเจรจาซื้อ Windsurf มูลค่า $3B

news

OpenAI พยายามซื้อผู้สร้าง Cursor ก่อนเข้าสู่การเจรจาซื้อ Windsurf มูลค่า $3B

OpenAI เคยเจรจาซื้อกิจการ Anysphere ผู้พัฒนา Cursor ในปี 2024 แต่ไม่สำเร็จ ก่อนหันไปเจรจากับ Windsurf มูลค่า 3 พันล้านดอลลาร์ สะท้อนความสำคัญของตลาด code generation

By
AWS เปิดตัวตัวอย่างโค้ด Security Reference Architecture สำหรับ Generative AI

news

AWS เปิดตัวตัวอย่างโค้ด Security Reference Architecture สำหรับ Generative AI

AWS ประกาศเปิดตัวโค้ดตัวอย่าง Security Reference Architecture สำหรับ Generative AI ครอบคลุมทั้ง secure model inference และ RAG พร้อมเทมเพลต CloudFormation ที่พร้อมใช้งาน เน้นความปลอดภัยระดับสูงสุด

By