Wikipedia มอบข้อมูลให้ผู้พัฒนา AI เพื่อป้องกันบอทคัดลอกข้อมูล

วิกิพีเดียจับมือ Kaggle เปิดตัวชุดข้อมูลภาษาอังกฤษและฝรั่งเศสสำหรับพัฒนา AI โดยเฉพาะ เพื่อป้องกันการสแกรปข้อมูลที่สร้างภาระให้เซิร์ฟเวอร์ ช่วยให้นักพัฒนาเข้าถึงข้อมูลได้สะดวกขึ้น

Wikipedia มอบข้อมูลให้ผู้พัฒนา AI เพื่อป้องกันบอทคัดลอกข้อมูล

Key takeaway

  • วิกิพีเดียร่วมมือกับ Kaggle เปิดตัวชุดข้อมูลที่ออกแบบมาเฉพาะสำหรับการเทรนโมเดล AI โดยมีเนื้อหาที่มีโครงสร้างในภาษาอังกฤษและฝรั่งเศส เพื่อป้องกันการสแกรปข้อมูลจากบอท AI ที่สร้างภาระให้กับเซิร์ฟเวอร์
  • ชุดข้อมูลนี้อยู่ในรูปแบบ JSON ที่มีโครงสร้างชัดเจน ประกอบด้วยบทสรุปงานวิจัย คำอธิบายสั้นๆ ลิงก์รูปภาพ ข้อมูล infobox และส่วนต่างๆ ของบทความ ซึ่งเหมาะสำหรับการนำไปใช้ในงาน machine learning
  • การร่วมมือครั้งนี้จะช่วยให้บริษัทขนาดเล็กและนักวิทยาศาสตร์ข้อมูลอิสระสามารถเข้าถึงข้อมูลได้ง่ายขึ้น โดยไม่ต้องพึ่งพาการสแกรปข้อมูลแบบดั้งเดิมที่อาจสร้างปัญหาให้กับระบบ

วิกิพีเดียกำลังดำเนินการยับยั้งนักพัฒนาปัญญาประดิษฐ์จากการสแกรปแพลตฟอร์มด้วยการเปิดตัวชุดข้อมูลที่ออกแบบมาโดยเฉพาะสำหรับการเทรนโมเดล AI มูลนิธิวิกิมีเดียได้ประกาศเมื่อวันพุธที่ผ่านมาว่า ได้ร่วมมือกับ Kaggle — แพลตฟอร์มชุมชนวิทยาศาสตร์ข้อมูลที่เป็นของ Google — เพื่อเผยแพร่ชุดข้อมูลเบต้าของ "เนื้อหาวิกิพีเดียที่มีโครงสร้างในภาษาอังกฤษและฝรั่งเศส"

ทางวิกิมีเดียระบุว่า ชุดข้อมูลที่โฮสต์โดย Kaggle นี้ได้รับการ "ออกแบบโดยคำนึงถึงเวิร์กโฟลว์ของ machine learning" ซึ่งช่วยให้นักพัฒนา AI สามารถเข้าถึงข้อมูลบทความที่เครื่องอ่านได้ เพื่อนำไปใช้ในการสร้างโมเดล, การ fine-tuning, การทำ benchmarking, การ alignment และการวิเคราะห์ได้สะดวกยิ่งขึ้น เนื้อหาในชุดข้อมูลนี้มีใบอนุญาตแบบเปิด และตั้งแต่วันที่ 15 เมษายน ได้รวมบทสรุปงานวิจัย, คำอธิบายสั้นๆ, ลิงก์รูปภาพ, ข้อมูล infobox และส่วนต่างๆ ของบทความ — โดยไม่รวมการอ้างอิงหรือองค์ประกอบที่ไม่ใช่ข้อความเขียน เช่น ไฟล์เสียง

วิกิมีเดียเชื่อว่า "การนำเสนอเนื้อหาวิกิพีเดียในรูปแบบ JSON ที่มีโครงสร้างชัดเจน" ที่มอบให้กับผู้ใช้ Kaggle นั้น จะเป็นทางเลือกที่น่าดึงดูดใจมากกว่า "การสแกรปหรือแยกวิเคราะห์ข้อความบทความดิบ" — ซึ่งปัญหาดังกล่าวกำลังสร้างความตึงเครียดให้กับเซิร์ฟเวอร์ของวิกิพีเดีย เนื่องจากบอท AI อัตโนมัติใช้แบนด์วิดท์ของแพลตฟอร์มอย่างต่อเนื่อง แม้ว่าวิกิมีเดียจะมีข้อตกลงการแบ่งปันเนื้อหากับ Google และ Internet Archive อยู่แล้ว แต่ความร่วมมือกับ Kaggle ครั้งนี้จะช่วยให้ข้อมูลเหล่านั้นเข้าถึงได้ง่ายขึ้นสำหรับบริษัทขนาดเล็กและนักวิทยาศาสตร์ข้อมูลอิสระ

Brenda Flynn หัวหน้าฝ่ายพันธมิตรของ Kaggle กล่าวว่า "ในฐานะที่เป็นแหล่งที่ชุมชน machine learning มาหาเครื่องมือและทดสอบ Kaggle รู้สึกตื่นเต้นอย่างมากที่ได้เป็นโฮสต์สำหรับข้อมูลของมูลนิธิวิกิมีเดีย Kaggle รู้สึกตื่นเต้นที่ได้มีส่วนร่วมในการรักษาให้ข้อมูลนี้สามารถเข้าถึงได้ พร้อมใช้งาน และมีประโยชน์"

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่สนใจด้านเทคโนโลยี AI และการพัฒนาโมเดล เพราะเป็นการเปลี่ยนแปลงครั้งสำคัญในวงการ AI ที่วิกิพีเดียได้เปิดให้เข้าถึงข้อมูลอย่างเป็นระบบผ่าน Kaggle แทนการสแกรปข้อมูลแบบเดิม ซึ่งจะช่วยให้นักพัฒนาทั้งรายใหญ่และรายย่อยสามารถนำข้อมูลไปใช้ได้อย่างมีประสิทธิภาพ ถูกต้องตามกฎหมาย และไม่สร้างภาระให้กับเซิร์ฟเวอร์ของวิกิพีเดีย

ข้อมูลอ้างอิงจาก https://www.theverge.com/news/650467/wikipedia-kaggle-partnership-ai-dataset-machine-learning

Read more

วุฒิสมาชิกเรียกร้องคำตอบเกี่ยวกับของเล่น AI จากผู้ผลิตชั้นนำ

news

วุฒิสมาชิกเรียกร้องคำตอบเกี่ยวกับของเล่น AI จากผู้ผลิตชั้นนำ

วุฒิสมาชิก Blackburn และ Blumenthal เรียกร้องข้อมูลจากผู้ผลิตของเล่น AI รายใหญ่ 6 บริษัท เกี่ยวกับนโยบายการแชร์ข้อมูล การทดสอบผลกระทบต่อเด็ก และมาตรการป้องกันเนื้อหาไม่เหมาะสม หลังพบว่าของเล่นบางชิ้นมีส่วนร่วมในการสนทนาที่มีเนื้อหาทางเพศ

By
คนทำงานมากขึ้นใช้ AI แต่ไม่รู้ว่านายจ้างใช้ด้วยหรือไม่ - ทำไมนี่จึงเป็นปัญหา

news

คนทำงานมากขึ้นใช้ AI แต่ไม่รู้ว่านายจ้างใช้ด้วยหรือไม่ - ทำไมนี่จึงเป็นปัญหา

การสำรวจล่าสุดจาก Gallup พบว่า 45% ของคนทำงานใช้ AI อย่างน้อยปีละครั้ง แต่เกือบ 1 ใน 4 ไม่ทราบว่าองค์กรของตนมีการนำ AI มาใช้หรือไม่ สะท้อนช่องว่างการสื่อสารระหว่างผู้บริหารกับพนักงาน ขณะที่การใช้ AI ในแต่ละอุตสาหกรรมมีความแตกต่างกันอย่างชัดเจน

By
Nvidia เปิดตัวตระกูลโมเดล Nemotron-3 ขับเคลื่อนนวัตกรรม AI แบบโอเพนซอร์ส

news

Nvidia เปิดตัวตระกูลโมเดล Nemotron-3 ขับเคลื่อนนวัตกรรม AI แบบโอเพนซอร์ส

Nvidia เปิดตัวตระกูลโมเดล Nemotron-3 แบบโอเพนซอร์ส พร้อมเครื่องมือและข้อมูลสำหรับพัฒนา AI ที่มีประสิทธิภาพสูง รองรับบริบทยาว 1 ล้านโทเค็น และมาพร้อม Reinforcement Learning Gyms เพื่อสร้าง AI เฉพาะทาง

By
OpenAI ประกาศอัปเกรด ChatGPT Images ด้วย 'ความเร็วในการสร้างภาพเร็วขึ้น 4 เท่า'

news

OpenAI ประกาศอัปเกรด ChatGPT Images ด้วย 'ความเร็วในการสร้างภาพเร็วขึ้น 4 เท่า'

OpenAI ประกาศอัปเกรด ChatGPT Images ครั้งใหญ่ ด้วยความเร็วในการสร้างภาพเพิ่มขึ้น 4 เท่า พร้อมปรับปรุงความแม่นยำในการตอบสนองคำสั่งและการแก้ไขภาพ หลังจาก Sam Altman ประกาศสถานการณ์ "code red" เพื่อเร่งพัฒนาคุณภาพ

By