Meta เผชิญกระแสวิพากษ์วิจารณ์เกี่ยวกับ 'เวอร์ชันทดลอง' ของ Maverick AI ที่ใช้ในการจัดอันดับเบนช์มาร์ก

Meta ถูกวิพากษ์วิจารณ์กรณีใช้เวอร์ชันพิเศษของ Maverick AI ในการทดสอบ LM Arena ต่างจากเวอร์ชันที่เผยแพร่ทั่วไป สร้างความสงสัยในความโปร่งใสและมาตรฐานการทดสอบ AI

Meta เผชิญกระแสวิพากษ์วิจารณ์เกี่ยวกับ 'เวอร์ชันทดลอง' ของ Maverick AI ที่ใช้ในการจัดอันดับเบนช์มาร์ก

Key takeaway

  • Meta ถูกวิพากษ์วิจารณ์เรื่องความโปร่งใส เนื่องจากใช้ "เวอร์ชันทดลอง" ของ Maverick AI ในการทดสอบเบนช์มาร์ก LM Arena ซึ่งแตกต่างจากเวอร์ชันที่เปิดให้นักพัฒนาทั่วไปใช้งาน
  • นักวิจัย AI พบความแตกต่างที่ชัดเจนระหว่างเวอร์ชันที่ใช้ทดสอบกับเวอร์ชันสาธารณะ โดยเวอร์ชันทดสอบมีการตอบสนองที่ยาวกว่า ละเอียดกว่า และใช้อิโมจิมากกว่า ซึ่งอาจทำให้ได้เปรียบในการจัดอันดับ
  • เหตุการณ์นี้นำไปสู่การตั้งคำถามเกี่ยวกับมาตรฐานการทดสอบ AI และความจำเป็นในการมีเบนช์มาร์กที่โปร่งใสและเป็นธรรม เพื่อสะท้อนประสิทธิภาพที่แท้จริงในการใช้งานจริง

โมเดล AI ตัวล่าสุดของ Meta อย่าง Maverick กำลังสร้างความฮือฮาหลังจากได้รับการจัดอันดับเป็นอันดับสองบน LM Arena ซึ่งเป็นแพลตฟอร์มที่ผู้ประเมินมนุษย์ทำการประเมินและจัดอันดับคุณภาพการตอบสนองของโมเดล AI

อย่างไรก็ตาม ความขัดแย้งเกิดขึ้นเมื่อนักวิจัย AI พบว่าเวอร์ชันของ Maverick ที่ใช้ในการทดสอบเบนช์มาร์กไม่ใช่เวอร์ชันเดียวกับที่เปิดให้นักพัฒนาใช้งานทั่วไป

การจัดอันดับของ Maverick AI สร้างความสงสัย

ผลงานอันโดดเด่นของ Maverick บน LM Arena ในเบื้องต้นดูเหมือนจะยืนยันคำกล่าวอ้างของ Meta ว่ากำลังผลักดันขอบเขตของ AI สนทนาที่ล้ำสมัยที่สุด แต่การตรวจสอบเพิ่มเติมพบว่าโมเดลที่นำไปทดสอบไม่ใช่รุ่นที่เผยแพร่ทั่วไป ตามรายงานของ TechCrunch

Meta เน้นย้ำในประกาศอย่างเป็นทางการว่าเวอร์ชันที่นำไปใช้บน LM Arena เป็น "เวอร์ชันการแชทแบบทดลอง" ซึ่งเป็นประเด็นที่ไม่ได้ระบุอย่างชัดเจนในผลคะแนนเบนช์มาร์ก

บนเว็บไซต์ Llama ของ Meta ตารางเปรียบเทียบยืนยันว่าการทดสอบ LM Arena ใช้ "Llama 4 Maverick ที่ปรับให้เหมาะกับการสนทนา" รุ่นนี้มีการปรับแต่งพิเศษเพื่อปรับปรุงการโต้ตอบ ซึ่งอาจให้ข้อได้เปรียบที่ไม่เป็นธรรมเหนือรุ่น "vanilla" ที่ไม่ได้รับการปรับแต่งของผู้พัฒนา AI รายอื่น

โดยทั่วไป LM Arena แม้จะไม่สมบูรณ์แบบ แต่ทำหน้าที่เป็นพื้นที่กลางในการเปรียบเทียบโมเดลภาษาขนาดใหญ่ตามเกณฑ์การประเมินของมนุษย์ บริษัท AI ส่วนใหญ่ได้เปิดตัวเวอร์ชันที่ไม่มีการแก้ไขของโมเดลที่เผยแพร่สู่สาธารณะ หรือเปิดเผยอย่างชัดเจนเมื่อมีการเปลี่ยนแปลง

ในทางตรงกันข้าม วิธีการของ Meta ถูกวิจารณ์ว่าขาดความโปร่งใส การไม่เปิดเผยว่าใช้โมเดลที่ได้รับการปรับแต่งพิเศษในการทดสอบ ในขณะที่ให้นักพัฒนาทั่วไปใช้โมเดลที่ปรับแต่งน้อยกว่า ทำให้เกิดความคาดหวังที่ไม่ตรงกับความเป็นจริง และสร้างความสับสนเกี่ยวกับความสามารถที่แท้จริงของ Maverick ในสถานการณ์ใช้งานจริง

นักวิจัย AI ชี้ให้เห็นความแตกต่าง

ผู้เชี่ยวชาญหลายรายบน X รายงานว่าเวอร์ชัน LM Arena ของ Maverick ทำงานแตกต่างอย่างมีนัยสำคัญจากเวอร์ชันที่เปิดให้ดาวน์โหลด บางคนชี้ให้เห็นการใช้อิโมจิที่มากเกินไป ในขณะที่คนอื่นสังเกตเห็นคำตอบที่ยาวและขัดเกลามากกว่าในรุ่นที่เผยแพร่ทั่วไป

ความแตกต่างนี้นำไปสู่คำถามสำคัญในการทดสอบเบนช์มาร์ก AI: บริษัทควรมีสิทธิ์ปรับแต่งโมเดลเฉพาะสำหรับการทดสอบเบนช์มาร์กและไม่เปิดเผยเวอร์ชันเหล่านั้นต่อสาธารณะหรือไม่?

Meta และ Chatbot Arena ยังคงเงียบ

ในขณะที่กระแสวิพากษ์วิจารณ์เพิ่มขึ้น หลายฝ่ายเรียกร้องความโปร่งใสจากทั้ง Meta และ Chatbot Arena ซึ่งเป็นองค์กรที่ดูแล LM Arena ณ เวลาที่เขียนบทความนี้ ทั้งสองฝ่ายยังไม่ได้ออกมาตอบสนองต่อประเด็นนี้

นี่เป็นประเด็นสำคัญในการวิจัย AI: ความจำเป็นในการมีเบนช์มาร์กที่เป็นมาตรฐานและโปร่งใส ซึ่งวัดประสิทธิภาพในโลกแห่งความเป็นจริง แทนที่จะเป็นผลลัพธ์ที่ได้รับการคัดเลือกมาโดยเฉพาะ ในยุคที่ AI เริ่มส่งผลกระทบต่อทุกด้านตั้งแต่การสนับสนุนลูกค้าไปจนถึงการสร้างเนื้อหา การนำเสนอข้อมูลอย่างตรงไปตรงมาจึงมีความสำคัญมากกว่าที่เคย

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่ติดตามวงการ AI เนื่องจากเผยให้เห็นประเด็นความโปร่งใสในการทดสอบและการประเมินผลโมเดล AI ของบริษัทยักษ์ใหญ่อย่าง Meta กรณีของ Maverick AI นี้สะท้อนให้เห็นถึงความท้าทายในการสร้างมาตรฐานการทดสอบที่เป็นธรรมและน่าเชื่อถือในอุตสาหกรรม AI ซึ่งส่งผลโดยตรงต่อการพัฒนาและการนำ AI ไปใช้งานจริง ผู้อ่านจะได้เข้าใจถึงความสำคัญของการตรวจสอบข้อมูลและการประเมินผลที่โปร่งใสในยุคที่ AI กำลังมีบทบาทสำคัญในชีวิตประจำวันมากขึ้น

ข้อมูลอ้างอิงจาก https://www.techtimes.com/articles/309909/20250407/meta-faces-backlash-over-experimental-maverick-ai-version-used-benchmark-rankings-why.htm

Read more

Apple Music กำลังจะมาที่ ChatGPT ตามประกาศของ OpenAI

news

Apple Music กำลังจะมาที่ ChatGPT ตามประกาศของ OpenAI

OpenAI ประกาศว่า Apple Music กำลังจะเข้าร่วมเป็นพาร์ทเนอร์กับ ChatGPT เร็วๆ นี้ ผู้ใช้จะสามารถสร้างเพลย์ลิสต์และค้นหาเพลงด้วยภาษาธรรมชาติได้ เช่นเดียวกับที่ Spotify ทำได้ในปัจจุบัน พร้อมกับพาร์ทเนอร์รายใหม่อื่นๆ เช่น Adobe และ Salesforce

By
ซานโฮเซกลายเป็นศูนย์กลางการต่อสู้เรื่องดาต้าเซ็นเตอร์สำหรับ AI ในแคลิฟอร์เนีย

news

ซานโฮเซกลายเป็นศูนย์กลางการต่อสู้เรื่องดาต้าเซ็นเตอร์สำหรับ AI ในแคลิฟอร์เนีย

ซานโฮเซประกาศตัวเป็นศูนย์กลางดาต้าเซ็นเตอร์ฝั่งตะวันตก ท่ามกลางข้อถกเถียงเรื่องการใช้พลังงานมหาศาล ผลกระทบต่อสิ่งแวดล้อม และค่าไฟฟ้าของผู้บริโภค ขณะที่แคลิฟอร์เนียพยายามหาสมดุลระหว่างการเติบโตทางเทคโนโลยีและเป้าหมายพลังงานสะอาด

By
OpenAI เผยรายงานพบช่องว่างผลิตภาพสูงถึง 6 เท่าระหว่างผู้ใช้ AI ระดับสูงกับผู้ใช้ทั่วไป

news

OpenAI เผยรายงานพบช่องว่างผลิตภาพสูงถึง 6 เท่าระหว่างผู้ใช้ AI ระดับสูงกับผู้ใช้ทั่วไป

รายงานล่าสุดเผยช่องว่างการใช้งาน AI ในองค์กรกำลังขยายตัว พนักงานกลุ่มนำใช้ ChatGPT มากกว่าเพื่อนร่วมงานถึง 6 เท่า โดยเฉพาะในงานเขียนโค้ดและวิเคราะห์ข้อมูล ปัญหาไม่ได้อยู่ที่เทคโนโลยี แต่เป็นโครงสร้างองค์กรที่ไม่พร้อมปรับตัว

By
Amazon, Microsoft ทุ่มเงินลงทุนด้าน AI ในอินเดียมหาศาล

news

Amazon, Microsoft ทุ่มเงินลงทุนด้าน AI ในอินเดียมหาศาล

ไมโครซอฟท์และอะเมซอนประกาศลงทุนรวมกว่า 52.5 พันล้านดอลลาร์ในอินเดีย เพื่อพัฒนาระบบนิเวศ AI และคลาวด์ ต่อยอดจากการลงทุนของ Google และ Intel ตอกย้ำการเติบโตของอินเดียในฐานะศูนย์กลางเทคโนโลยีระดับโลก

By