นักวิจัยสามารถเอาชนะระบบและแฮ็กเข้าถึง o3-mini ของ OpenAI

นักวิจัยด้านความปลอดภัยจาก CyberArk สามารถหลอก o3-mini ให้สร้าง exploit สำหรับระบบ Windows ได้ แม้ OpenAI จะติดตั้งระบบป้องกันใหม่ "deliberative alignment" เผยให้เห็นช่องโหว่ด้านความปลอดภัยที่ต้องปรับปรุง

นักวิจัยสามารถเอาชนะระบบและแฮ็กเข้าถึง o3-mini ของ OpenAI

Key takeaway

  • ระบบรักษาความปลอดภัยใหม่ "deliberative alignment" ของ OpenAI ที่ใช้ใน o3-mini ถูกเจาะช่องโหว่ได้ภายในเวลาไม่กี่วันหลังเปิดตัว โดย Eran Shimony นักวิจัยด้านความปลอดภัยสามารถหลอกให้ AI สอนวิธีเขียน exploit สำหรับระบบ Windows ได้
  • การทดสอบด้วยเครื่องมือ FuzzyAI แสดงให้เห็นจุดอ่อนที่แตกต่างกันของ LLM แต่ละค่าย โดย OpenAI มีจุดอ่อนด้านการถูกหลอกลวง, Llama อ่อนไหวต่อ ASCII art และ Claude มีช่องโหว่ด้านการเขียนโค้ด
  • แนวทางการแก้ไขที่ถูกเสนอคือการฝึกฝน AI ด้วย prompt ที่เป็นอันตรายมากขึ้น และการพัฒนาระบบตรวจจับ input ที่เป็นภัยให้มีประสิทธิภาพมากขึ้น เพื่อป้องกันการถูกหลอกใช้ในทางที่ผิด

OpenAI ได้เปิดตัวโมเดล o3 และ o3-mini เมื่อวันที่ 20 ธันวาคม พร้อมระบบรักษาความปลอดภัยใหม่ "deliberative alignment" ที่ออกแบบมาเพื่อให้การทำงานสอดคล้องกับนโยบายความปลอดภัยของบริษัทได้แม่นยำยิ่งขึ้น และแก้ไขจุดอ่อนที่เคยถูกโจมตีมาก่อนหน้านี้

แต่ภายในเวลาไม่ถึงสัปดาห์ Eran Shimony นักวิจัยด้านความปลอดภัยจาก CyberArk สามารถหลอกให้ o3-mini สอนวิธีเขียน exploit สำหรับ Local Security Authority Subsystem Service (lsass.exe) ซึ่งเป็นระบบสำคัญด้านความปลอดภัยของ Windows

ระบบป้องกันใหม่ของ o3-mini ใช้เทคนิค chain of thought (CoT) ที่ทำให้ AI วิเคราะห์คำตอบอย่างละเอียดทีละขั้น และได้รับการฝึกฝนด้วยแนวทางความปลอดภัยของ OpenAI โดยตรง

Shimony ใช้เครื่องมือ FuzzyAI ทดสอบความปลอดภัยของ LLM ยอดนิยม พบจุดอ่อนที่แตกต่างกัน:

  • โมเดลของ OpenAI อ่อนไหวต่อการหลอกลวง
  • Llama ของ Meta มีจุดอ่อนเรื่อง ASCII art
  • Claude มีช่องโหว่ด้านการเขียนโค้ด

แม้ o3 จะมีระบบป้องกันที่แข็งแกร่งกว่า GPT-4 แต่ Shimony ก็สามารถหลอกให้สร้าง malware ได้ โดยอ้างว่าเป็นนักประวัติศาสตร์ที่ต้องการข้อมูลเพื่อการศึกษา

OpenAI รับทราบเรื่องนี้ แต่ชี้แจงว่าโค้ดที่ได้เป็นเพียง pseudocode และเป็นข้อมูลที่สามารถหาได้ทั่วไปบนอินเทอร์เน็ต

Shimony เสนอแนวทางปรับปรุง o3 สองวิธี:

  1. ฝึกฝนด้วย prompt ที่เป็นอันตรายมากขึ้น
  2. เพิ่มระบบตรวจจับ input ที่เป็นภัยให้แข็งแกร่งขึ้น

#TechNews #AI #Cybersecurity #OpenAI #LLM

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่ทำงานด้านเทคโนโลยีและผู้ที่สนใจพัฒนาการของ AI เพราะเผยให้เห็นถึงช่องโหว่ด้านความปลอดภัยในโมเดล AI รุ่นใหม่ล่าสุดของ OpenAI ที่ถูกเจาะได้ภายในเวลาอันรวดเร็ว แม้จะมีการปรับปรุงระบบป้องกันแล้วก็ตาม สะท้อนให้เห็นความท้าทายในการพัฒนาระบบ AI ที่ทั้งฉลาดและปลอดภัย รวมถึงความจำเป็นในการพัฒนาระบบรักษาความปลอดภัยให้แข็งแกร่งยิ่งขึ้น

ข้อมูลอ้างอิงจาก https://www.darkreading.com/application-security/researcher-jailbreaks-openai-o3-mini

Read more

NASA ใช้ AI ขับเคลื่อนยานสำรวจ Perseverance บนดาวอังคารเป็นครั้งแรก

news

NASA ใช้ AI ขับเคลื่อนยานสำรวจ Perseverance บนดาวอังคารเป็นครั้งแรก

NASA ใช้ AI ของ Anthropic ชื่อ Claude วางแผนเส้นทางให้ยานสำรวจ Perseverance บนดาวอังคารเป็นครั้งแรก ทำให้ยานเดินทางได้ไกลเกือบ 1,500 ฟุตโดยไม่มีปัญหา เทคโนโลยีนี้ช่วยเพิ่มประสิทธิภาพการสำรวจและลดภาระงานของทีมนักวิทยาศาสตร์

By
กล้องอัจฉริยะด้วย AI ของ Logitech ปฏิวัติการแสดงผลห้องประชุมขนาดใหญ่ในการประชุมวิดีโอ

news

กล้องอัจฉริยะด้วย AI ของ Logitech ปฏิวัติการแสดงผลห้องประชุมขนาดใหญ่ในการประชุมวิดีโอ

Logitech นำเสนอโซลูชันใหม่ด้วย Rally AI Camera และ Rally AI Camera Pro ที่ใช้เทคโนโลยี AI ช่วยแก้ปัญหาการประชุมในห้องขนาดใหญ่ ด้วยระบบจัดเฟรมอัจฉริยะ RightSight 2 ที่ปรับมุมมองตามสถานการณ์ เพื่อให้การประชุมแบบไฮบริดมีความเท่าเทียมมากขึ้น

By
Resolve AI ระดมทุน $125 ล้านด้วยมูลค่า $1 พันล้าน เพื่อพัฒนาระบบบำรุงรักษาแอปพลิเคชันอัตโนมัติ

news

Resolve AI ระดมทุน $125 ล้านด้วยมูลค่า $1 พันล้าน เพื่อพัฒนาระบบบำรุงรักษาแอปพลิเคชันอัตโนมัติ

Resolve AI สตาร์ทอัพที่พัฒนาแพลตฟอร์มแก้ไขปัญหาแอปพลิเคชันอัตโนมัติ ระดมทุน Series A มูลค่า $125 ล้าน จาก Lightspeed และพันธมิตร ส่งผลให้บริษัทมีมูลค่า $1 พันล้าน เงินทุนจะถูกใช้ขยายทีมและพัฒนาโมเดล AI แบบกำหนดเอง

By
นักวิจัยเผยผู้บุกรุก AWS ได้รับสิทธิ์ admin ภายในเวลาไม่ถึง 10 นาที ด้วยความช่วยเหลือจาก AI

news

นักวิจัยเผยผู้บุกรุก AWS ได้รับสิทธิ์ admin ภายในเวลาไม่ถึง 10 นาที ด้วยความช่วยเหลือจาก AI

ผู้บุกรุกใช้ AI เจาะระบบคลาวด์ AWS ได้สิทธิ์แอดมินภายในเวลาไม่ถึง 10 นาที โดยขโมย credentials จาก S3 buckets สาธารณะ ยกระดับสิทธิ์ผ่าน Lambda function และเข้าถึงทรัพยากร AI ของเหยื่อ กรณีนี้แสดงให้เห็นถึงภัยคุกคามใหม่ที่ใช้ AI ช่วยโจมตี

By