Wikipedia มอบข้อมูลให้ผู้พัฒนา AI เพื่อป้องกันบอทคัดลอกข้อมูล

วิกิพีเดียจับมือ Kaggle เปิดตัวชุดข้อมูลภาษาอังกฤษและฝรั่งเศสสำหรับพัฒนา AI โดยเฉพาะ เพื่อป้องกันการสแกรปข้อมูลที่สร้างภาระให้เซิร์ฟเวอร์ ช่วยให้นักพัฒนาเข้าถึงข้อมูลได้สะดวกขึ้น

Wikipedia มอบข้อมูลให้ผู้พัฒนา AI เพื่อป้องกันบอทคัดลอกข้อมูล

Key takeaway

  • วิกิพีเดียร่วมมือกับ Kaggle เปิดตัวชุดข้อมูลที่ออกแบบมาเฉพาะสำหรับการเทรนโมเดล AI โดยมีเนื้อหาที่มีโครงสร้างในภาษาอังกฤษและฝรั่งเศส เพื่อป้องกันการสแกรปข้อมูลจากบอท AI ที่สร้างภาระให้กับเซิร์ฟเวอร์
  • ชุดข้อมูลนี้อยู่ในรูปแบบ JSON ที่มีโครงสร้างชัดเจน ประกอบด้วยบทสรุปงานวิจัย คำอธิบายสั้นๆ ลิงก์รูปภาพ ข้อมูล infobox และส่วนต่างๆ ของบทความ ซึ่งเหมาะสำหรับการนำไปใช้ในงาน machine learning
  • การร่วมมือครั้งนี้จะช่วยให้บริษัทขนาดเล็กและนักวิทยาศาสตร์ข้อมูลอิสระสามารถเข้าถึงข้อมูลได้ง่ายขึ้น โดยไม่ต้องพึ่งพาการสแกรปข้อมูลแบบดั้งเดิมที่อาจสร้างปัญหาให้กับระบบ

วิกิพีเดียกำลังดำเนินการยับยั้งนักพัฒนาปัญญาประดิษฐ์จากการสแกรปแพลตฟอร์มด้วยการเปิดตัวชุดข้อมูลที่ออกแบบมาโดยเฉพาะสำหรับการเทรนโมเดล AI มูลนิธิวิกิมีเดียได้ประกาศเมื่อวันพุธที่ผ่านมาว่า ได้ร่วมมือกับ Kaggle — แพลตฟอร์มชุมชนวิทยาศาสตร์ข้อมูลที่เป็นของ Google — เพื่อเผยแพร่ชุดข้อมูลเบต้าของ "เนื้อหาวิกิพีเดียที่มีโครงสร้างในภาษาอังกฤษและฝรั่งเศส"

ทางวิกิมีเดียระบุว่า ชุดข้อมูลที่โฮสต์โดย Kaggle นี้ได้รับการ "ออกแบบโดยคำนึงถึงเวิร์กโฟลว์ของ machine learning" ซึ่งช่วยให้นักพัฒนา AI สามารถเข้าถึงข้อมูลบทความที่เครื่องอ่านได้ เพื่อนำไปใช้ในการสร้างโมเดล, การ fine-tuning, การทำ benchmarking, การ alignment และการวิเคราะห์ได้สะดวกยิ่งขึ้น เนื้อหาในชุดข้อมูลนี้มีใบอนุญาตแบบเปิด และตั้งแต่วันที่ 15 เมษายน ได้รวมบทสรุปงานวิจัย, คำอธิบายสั้นๆ, ลิงก์รูปภาพ, ข้อมูล infobox และส่วนต่างๆ ของบทความ — โดยไม่รวมการอ้างอิงหรือองค์ประกอบที่ไม่ใช่ข้อความเขียน เช่น ไฟล์เสียง

วิกิมีเดียเชื่อว่า "การนำเสนอเนื้อหาวิกิพีเดียในรูปแบบ JSON ที่มีโครงสร้างชัดเจน" ที่มอบให้กับผู้ใช้ Kaggle นั้น จะเป็นทางเลือกที่น่าดึงดูดใจมากกว่า "การสแกรปหรือแยกวิเคราะห์ข้อความบทความดิบ" — ซึ่งปัญหาดังกล่าวกำลังสร้างความตึงเครียดให้กับเซิร์ฟเวอร์ของวิกิพีเดีย เนื่องจากบอท AI อัตโนมัติใช้แบนด์วิดท์ของแพลตฟอร์มอย่างต่อเนื่อง แม้ว่าวิกิมีเดียจะมีข้อตกลงการแบ่งปันเนื้อหากับ Google และ Internet Archive อยู่แล้ว แต่ความร่วมมือกับ Kaggle ครั้งนี้จะช่วยให้ข้อมูลเหล่านั้นเข้าถึงได้ง่ายขึ้นสำหรับบริษัทขนาดเล็กและนักวิทยาศาสตร์ข้อมูลอิสระ

Brenda Flynn หัวหน้าฝ่ายพันธมิตรของ Kaggle กล่าวว่า "ในฐานะที่เป็นแหล่งที่ชุมชน machine learning มาหาเครื่องมือและทดสอบ Kaggle รู้สึกตื่นเต้นอย่างมากที่ได้เป็นโฮสต์สำหรับข้อมูลของมูลนิธิวิกิมีเดีย Kaggle รู้สึกตื่นเต้นที่ได้มีส่วนร่วมในการรักษาให้ข้อมูลนี้สามารถเข้าถึงได้ พร้อมใช้งาน และมีประโยชน์"

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่สนใจด้านเทคโนโลยี AI และการพัฒนาโมเดล เพราะเป็นการเปลี่ยนแปลงครั้งสำคัญในวงการ AI ที่วิกิพีเดียได้เปิดให้เข้าถึงข้อมูลอย่างเป็นระบบผ่าน Kaggle แทนการสแกรปข้อมูลแบบเดิม ซึ่งจะช่วยให้นักพัฒนาทั้งรายใหญ่และรายย่อยสามารถนำข้อมูลไปใช้ได้อย่างมีประสิทธิภาพ ถูกต้องตามกฎหมาย และไม่สร้างภาระให้กับเซิร์ฟเวอร์ของวิกิพีเดีย

ข้อมูลอ้างอิงจาก https://www.theverge.com/news/650467/wikipedia-kaggle-partnership-ai-dataset-machine-learning

Read more

Perplexity ได้รับคำค้นหา 780 ล้านครั้งในเดือนที่แล้ว CEO กล่าว

news

Perplexity ได้รับคำค้นหา 780 ล้านครั้งในเดือนที่แล้ว CEO กล่าว

Perplexity เผยสถิติยอดค้นหาพุ่ง 780 ล้านครั้งในเดือนพฤษภาคม เติบโต 20% ต่อเดือน พร้อมเปิดตัวเบราว์เซอร์ Comet ที่จะปฏิวัติการใช้งาน AI ให้เป็นผู้ช่วยส่วนตัวในชีวิตประจำวัน

By
ซาอุดิอาระเบียมีความทะเยอทะยานด้าน AI สูง แต่อาจมาพร้อมกับต้นทุนด้านสิทธิมนุษยชนแลกมาด้วยสิทธิมนุษยชน

news

ซาอุดิอาระเบียมีความทะเยอทะยานด้าน AI สูง แต่อาจมาพร้อมกับต้นทุนด้านสิทธิมนุษยชนแลกมาด้วยสิทธิมนุษยชน

ซาอุดิอาระเบียทุ่มงบกว่า 4 หมื่นล้านดอลลาร์พัฒนา AI ผ่านบริษัท Humain และร่วมมือกับยักษ์ใหญ่อย่าง NVIDIA แต่นักวิเคราะห์กังวลว่าอาจถูกใช้เป็นเครื่องมือละเมิดสิทธิมนุษยชน

By
ซาอุดิอาระเบียมีความทะเยอทะยานด้าน AI สูง แต่อาจมาพร้อมกับต้นทุนด้านสิทธิมนุษยชนแลกมาด้วยสิทธิมนุษยชน

news

ซาอุดิอาระเบียมีความทะเยอทะยานด้าน AI สูง แต่อาจมาพร้อมกับต้นทุนด้านสิทธิมนุษยชนแลกมาด้วยสิทธิมนุษยชน

ซาอุดิอาระเบียทุ่มงบกว่า 4 หมื่นล้านดอลลาร์พัฒนา AI ผ่านบริษัท Humain และร่วมมือกับยักษ์ใหญ่อย่าง NVIDIA แต่นักวิเคราะห์กังวลว่าอาจถูกใช้เป็นเครื่องมือละเมิดสิทธิมนุษยชน

By
Apple กำลังพัฒนาเทคโนโลยีเชื่อมต่อสมองกับคอมพิวเตอร์

news

Apple กำลังพัฒนาเทคโนโลยีเชื่อมต่อสมองกับคอมพิวเตอร์

แอปเปิลจับมือ Synchron พัฒนาเทคโนโลยี BCI ช่วยผู้มีปัญหาด้านการเคลื่อนไหวควบคุม iPhone, iPad และ Vision Pro ผ่านสัญญาณประสาทจากอุปกรณ์ Stentrode ที่ฝังบนสมอง

By