Wikipedia มอบข้อมูลให้ผู้พัฒนา AI เพื่อป้องกันบอทคัดลอกข้อมูล

วิกิพีเดียจับมือ Kaggle เปิดตัวชุดข้อมูลภาษาอังกฤษและฝรั่งเศสสำหรับพัฒนา AI โดยเฉพาะ เพื่อป้องกันการสแกรปข้อมูลที่สร้างภาระให้เซิร์ฟเวอร์ ช่วยให้นักพัฒนาเข้าถึงข้อมูลได้สะดวกขึ้น

Wikipedia มอบข้อมูลให้ผู้พัฒนา AI เพื่อป้องกันบอทคัดลอกข้อมูล

Key takeaway

  • วิกิพีเดียร่วมมือกับ Kaggle เปิดตัวชุดข้อมูลที่ออกแบบมาเฉพาะสำหรับการเทรนโมเดล AI โดยมีเนื้อหาที่มีโครงสร้างในภาษาอังกฤษและฝรั่งเศส เพื่อป้องกันการสแกรปข้อมูลจากบอท AI ที่สร้างภาระให้กับเซิร์ฟเวอร์
  • ชุดข้อมูลนี้อยู่ในรูปแบบ JSON ที่มีโครงสร้างชัดเจน ประกอบด้วยบทสรุปงานวิจัย คำอธิบายสั้นๆ ลิงก์รูปภาพ ข้อมูล infobox และส่วนต่างๆ ของบทความ ซึ่งเหมาะสำหรับการนำไปใช้ในงาน machine learning
  • การร่วมมือครั้งนี้จะช่วยให้บริษัทขนาดเล็กและนักวิทยาศาสตร์ข้อมูลอิสระสามารถเข้าถึงข้อมูลได้ง่ายขึ้น โดยไม่ต้องพึ่งพาการสแกรปข้อมูลแบบดั้งเดิมที่อาจสร้างปัญหาให้กับระบบ

วิกิพีเดียกำลังดำเนินการยับยั้งนักพัฒนาปัญญาประดิษฐ์จากการสแกรปแพลตฟอร์มด้วยการเปิดตัวชุดข้อมูลที่ออกแบบมาโดยเฉพาะสำหรับการเทรนโมเดล AI มูลนิธิวิกิมีเดียได้ประกาศเมื่อวันพุธที่ผ่านมาว่า ได้ร่วมมือกับ Kaggle — แพลตฟอร์มชุมชนวิทยาศาสตร์ข้อมูลที่เป็นของ Google — เพื่อเผยแพร่ชุดข้อมูลเบต้าของ "เนื้อหาวิกิพีเดียที่มีโครงสร้างในภาษาอังกฤษและฝรั่งเศส"

ทางวิกิมีเดียระบุว่า ชุดข้อมูลที่โฮสต์โดย Kaggle นี้ได้รับการ "ออกแบบโดยคำนึงถึงเวิร์กโฟลว์ของ machine learning" ซึ่งช่วยให้นักพัฒนา AI สามารถเข้าถึงข้อมูลบทความที่เครื่องอ่านได้ เพื่อนำไปใช้ในการสร้างโมเดล, การ fine-tuning, การทำ benchmarking, การ alignment และการวิเคราะห์ได้สะดวกยิ่งขึ้น เนื้อหาในชุดข้อมูลนี้มีใบอนุญาตแบบเปิด และตั้งแต่วันที่ 15 เมษายน ได้รวมบทสรุปงานวิจัย, คำอธิบายสั้นๆ, ลิงก์รูปภาพ, ข้อมูล infobox และส่วนต่างๆ ของบทความ — โดยไม่รวมการอ้างอิงหรือองค์ประกอบที่ไม่ใช่ข้อความเขียน เช่น ไฟล์เสียง

วิกิมีเดียเชื่อว่า "การนำเสนอเนื้อหาวิกิพีเดียในรูปแบบ JSON ที่มีโครงสร้างชัดเจน" ที่มอบให้กับผู้ใช้ Kaggle นั้น จะเป็นทางเลือกที่น่าดึงดูดใจมากกว่า "การสแกรปหรือแยกวิเคราะห์ข้อความบทความดิบ" — ซึ่งปัญหาดังกล่าวกำลังสร้างความตึงเครียดให้กับเซิร์ฟเวอร์ของวิกิพีเดีย เนื่องจากบอท AI อัตโนมัติใช้แบนด์วิดท์ของแพลตฟอร์มอย่างต่อเนื่อง แม้ว่าวิกิมีเดียจะมีข้อตกลงการแบ่งปันเนื้อหากับ Google และ Internet Archive อยู่แล้ว แต่ความร่วมมือกับ Kaggle ครั้งนี้จะช่วยให้ข้อมูลเหล่านั้นเข้าถึงได้ง่ายขึ้นสำหรับบริษัทขนาดเล็กและนักวิทยาศาสตร์ข้อมูลอิสระ

Brenda Flynn หัวหน้าฝ่ายพันธมิตรของ Kaggle กล่าวว่า "ในฐานะที่เป็นแหล่งที่ชุมชน machine learning มาหาเครื่องมือและทดสอบ Kaggle รู้สึกตื่นเต้นอย่างมากที่ได้เป็นโฮสต์สำหรับข้อมูลของมูลนิธิวิกิมีเดีย Kaggle รู้สึกตื่นเต้นที่ได้มีส่วนร่วมในการรักษาให้ข้อมูลนี้สามารถเข้าถึงได้ พร้อมใช้งาน และมีประโยชน์"

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่สนใจด้านเทคโนโลยี AI และการพัฒนาโมเดล เพราะเป็นการเปลี่ยนแปลงครั้งสำคัญในวงการ AI ที่วิกิพีเดียได้เปิดให้เข้าถึงข้อมูลอย่างเป็นระบบผ่าน Kaggle แทนการสแกรปข้อมูลแบบเดิม ซึ่งจะช่วยให้นักพัฒนาทั้งรายใหญ่และรายย่อยสามารถนำข้อมูลไปใช้ได้อย่างมีประสิทธิภาพ ถูกต้องตามกฎหมาย และไม่สร้างภาระให้กับเซิร์ฟเวอร์ของวิกิพีเดีย

ข้อมูลอ้างอิงจาก https://www.theverge.com/news/650467/wikipedia-kaggle-partnership-ai-dataset-machine-learning

Read more

คนทำงานมากขึ้นใช้ AI แต่ไม่รู้ว่านายจ้างใช้ด้วยหรือไม่ - ทำไมนี่จึงเป็นปัญหา

news

คนทำงานมากขึ้นใช้ AI แต่ไม่รู้ว่านายจ้างใช้ด้วยหรือไม่ - ทำไมนี่จึงเป็นปัญหา

การสำรวจล่าสุดจาก Gallup พบว่า 45% ของคนทำงานใช้ AI อย่างน้อยปีละครั้ง แต่เกือบ 1 ใน 4 ไม่ทราบว่าองค์กรของตนมีการนำ AI มาใช้หรือไม่ สะท้อนช่องว่างการสื่อสารระหว่างผู้บริหารกับพนักงาน ขณะที่การใช้ AI ในแต่ละอุตสาหกรรมมีความแตกต่างกันอย่างชัดเจน

By
Nvidia เปิดตัวตระกูลโมเดล Nemotron-3 ขับเคลื่อนนวัตกรรม AI แบบโอเพนซอร์ส

news

Nvidia เปิดตัวตระกูลโมเดล Nemotron-3 ขับเคลื่อนนวัตกรรม AI แบบโอเพนซอร์ส

Nvidia เปิดตัวตระกูลโมเดล Nemotron-3 แบบโอเพนซอร์ส พร้อมเครื่องมือและข้อมูลสำหรับพัฒนา AI ที่มีประสิทธิภาพสูง รองรับบริบทยาว 1 ล้านโทเค็น และมาพร้อม Reinforcement Learning Gyms เพื่อสร้าง AI เฉพาะทาง

By
OpenAI ประกาศอัปเกรด ChatGPT Images ด้วย 'ความเร็วในการสร้างภาพเร็วขึ้น 4 เท่า'

news

OpenAI ประกาศอัปเกรด ChatGPT Images ด้วย 'ความเร็วในการสร้างภาพเร็วขึ้น 4 เท่า'

OpenAI ประกาศอัปเกรด ChatGPT Images ครั้งใหญ่ ด้วยความเร็วในการสร้างภาพเพิ่มขึ้น 4 เท่า พร้อมปรับปรุงความแม่นยำในการตอบสนองคำสั่งและการแก้ไขภาพ หลังจาก Sam Altman ประกาศสถานการณ์ "code red" เพื่อเร่งพัฒนาคุณภาพ

By
ส่วนขยายบราวเซอร์ Chrome ยอดนิยมถูกจับได้ว่าดักจับบทสนทนา AI ของผู้ใช้นับล้าน

news

ส่วนขยายบราวเซอร์ Chrome ยอดนิยมถูกจับได้ว่าดักจับบทสนทนา AI ของผู้ใช้นับล้าน

ส่วนขยาย Chrome ยอดนิยมอย่าง Urban VPN ถูกพบว่าแอบเก็บข้อมูลการสนทนาของผู้ใช้กับแชทบอท AI ชื่อดังทั้ง ChatGPT, Claude, Copilot และอื่นๆ โดยไม่ได้รับอนุญาต แม้จะอ้างว่าเป็นฟีเจอร์ "AI protection" แต่ข้อมูลถูกส่งไปยังบริษัทโฆษณา

By