AI chatbot ต้องการหนังสือมากขึ้นเพื่อการเรียนรู้

ห้องสมุดฮาร์วาร์ดและบอสตันเปิดคลังหนังสือเก่าแก่ให้ AI เข้าถึงเพื่อพัฒนาการเรียนรู้ โดยมีหนังสือกว่า 1 ล้านเล่มใน 254 ภาษา เป็นแหล่งข้อมูลสำคัญสำหรับการพัฒนา AI ในอนาคต

AI chatbot ต้องการหนังสือมากขึ้นเพื่อการเรียนรู้

Key takeaway

  • ห้องสมุดฮาร์วาร์ดเปิดให้เข้าถึงคอลเลกชันหนังสือกว่า 1 ล้านเล่มในรูปแบบดิจิทัล ครอบคลุม 254 ภาษา เพื่อใช้ในการพัฒนา AI โดยเฉพาะหนังสือที่เป็นสาธารณสมบัติ ซึ่งจะช่วยลดปัญหาการละเมิดลิขสิทธิ์ที่บริษัทเทคโนโลยีกำลังเผชิญอยู่
  • ข้อมูลจากห้องสมุดมีความสำคัญเพราะมีเนื้อหาที่มีคุณค่าทางประวัติศาสตร์และวัฒนธรรมที่ไม่สามารถหาได้จากข้อมูลออนไลน์ทั่วไป โดยชุดข้อมูล Institutional Books 1.0 ของฮาร์วาร์ดมี tokens กว่า 242 พันล้าน ซึ่งจะช่วยพัฒนาความแม่นยำและความน่าเชื่อถือของระบบ AI
  • การร่วมมือระหว่างห้องสมุดกับบริษัทเทคโนโลยีเป็นประโยชน์ร่วมกันทั้งสองฝ่าย โดยห้องสมุดได้รับการสนับสนุนในการแปลงข้อมูลเป็นดิจิทัล ขณะที่บริษัทเทคโนโลยีได้แหล่งข้อมูลคุณภาพสูงที่ถูกต้องตามกฎหมายสำหรับพัฒนา AI

เคมบริดจ์, แมสซาชูเซตส์ (AP) — ทุกสิ่งที่เคยถูกพูดบนอินเทอร์เน็ตเป็นเพียงจุดเริ่มต้นในการสอน AI เกี่ยวกับมนุษยชาติ บริษัทเทคโนโลยีกำลังหันไปใช้แหล่งความรู้ที่เก่าแก่กว่า: หนังสือในห้องสมุด

หนังสือเกือบหนึ่งล้านเล่มที่ตีพิมพ์ตั้งแต่ศตวรรษที่ 15 ใน 254 ภาษา กำลังถูกเปิดให้นักวิจัย AI เข้าถึงได้ในวันพฤหัสบดีนี้ ซึ่งเป็นส่วนหนึ่งของคอลเลกชันมหาวิทยาลัยฮาร์วาร์ด นอกจากนี้ ห้องสมุดสาธารณะบอสตันยังเตรียมเปิดให้บริการหนังสือพิมพ์เก่าและเอกสารของรัฐบาลในเร็วๆ นี้

การเปิดคลังหนังสือเก่าแก่หลายศตวรรษอาจเป็นแหล่งข้อมูลสำคัญสำหรับบริษัทเทคโนโลยีที่กำลังเผชิญกับคดีฟ้องร้องจากนักเขียน ศิลปิน และผู้สร้างสรรค์อื่นๆ ที่ผลงานถูกนำไปใช้โดยไม่ได้รับความยินยอมเพื่อฝึกฝน AI แชทบอท

"เป็นการตัดสินใจที่รอบคอบที่จะเริ่มต้นด้วยข้อมูลสาธารณะ เพราะมีความขัดแย้งน้อยกว่าเนื้อหาที่ยังอยู่ภายใต้ลิขสิทธิ์" เบอร์ตัน เดวิส รองที่ปรึกษาทั่วไปของไมโครซอฟท์กล่าว

เดวิสยังระบุว่าห้องสมุดเหล่านี้มี "ข้อมูลทางวัฒนธรรม ประวัติศาสตร์ และภาษาที่น่าสนใจจำนวนมาก" ที่ไม่มีอยู่ในความคิดเห็นออนไลน์ที่ AI แชทบอทส่วนใหญ่ได้เรียนรู้ในช่วงที่ผ่านมา ความกังวลเรื่องการขาดแคลนข้อมูลทำให้นักพัฒนา AI บางส่วนหันไปใช้ข้อมูล "สังเคราะห์" ที่สร้างโดยแชทบอทเอง ซึ่งมีคุณภาพด้อยกว่า

Institutional Data Initiative ที่ตั้งอยู่ที่ฮาร์วาร์ด ซึ่งได้รับการสนับสนุนจาก "ของขวัญที่ไม่มีข้อจำกัด" จากไมโครซอฟท์และ OpenAI ผู้สร้าง ChatGPT กำลังร่วมมือกับห้องสมุดและพิพิธภัณฑ์ทั่วโลกเพื่อทำให้คอลเลกชันประวัติศาสตร์พร้อมสำหรับการใช้งานกับ AI ในรูปแบบที่เป็นประโยชน์ต่อชุมชน

"เรากำลังพยายามโอนอำนาจบางส่วนจากยุค AI ปัจจุบันกลับไปยังสถาบันเหล่านี้" อริสตานา สคูร์ทาส ผู้จัดการงานวิจัยที่ห้องปฏิบัติการนวัตกรรมห้องสมุดของโรงเรียนกฎหมายฮาร์วาร์ดกล่าว "บรรณารักษ์เป็นผู้ดูแลข้อมูลและสารสนเทศมาตลอด"

ชุดข้อมูล Institutional Books 1.0 ของฮาร์วาร์ดที่เพิ่งเปิดตัวมีมากกว่า 394 ล้านหน้าที่สแกนจากกระดาษ หนึ่งในงานที่เก่าแก่ที่สุดมาจากศตวรรษที่ 15 เป็นบันทึกลายมือของจิตรกรชาวเกาหลีเกี่ยวกับการปลูกดอกไม้และต้นไม้ ผลงานส่วนใหญ่มาจากศตวรรษที่ 19 ครอบคลุมหัวข้อต่างๆ เช่น วรรณกรรม ปรัชญา กฎหมาย และการเกษตร ทั้งหมดได้รับการเก็บรักษาและจัดระเบียบอย่างพิถีพิถันโดยบรรณารักษ์หลายรุ่น

ชุดข้อมูลนี้มีศักยภาพอย่างมากสำหรับนักพัฒนา AI ที่ต้องการปรับปรุงความแม่นยำและความน่าเชื่อถือของระบบ

"ข้อมูลจำนวนมากที่ใช้ในการฝึกฝน AI ไม่ได้มาจากแหล่งที่มาดั้งเดิม" เกรก เลพเพิร์ต ผู้อำนวยการบริหารของ Data Initiative และหัวหน้าเทคโนโลยีที่ศูนย์ Berkman Klein Center for Internet & Society ของฮาร์วาร์ดกล่าว คอลเลกชันหนังสือนี้ย้อนกลับไป "ถึงสำเนาทางกายภาพที่ถูกสแกนโดยสถาบันที่เก็บรวบรวมรายการเหล่านั้นจริงๆ"

ก่อนที่ ChatGPT จะสร้างกระแสความนิยม AI เชิงพาณิชย์ นักวิจัย AI ส่วนใหญ่ไม่ได้คำนึงถึงแหล่งที่มาของข้อความที่พวกเขาดึงมาจาก Wikipedia, Reddit หรือแม้แต่คลังหนังสือละเมิดลิขสิทธิ์ พวกเขาเพียงต้องการ tokens จำนวนมาก ซึ่งเป็นหน่วยข้อมูลที่แต่ละหน่วยแทนส่วนของคำได้

คอลเลกชันการฝึกฝน AI ใหม่ของฮาร์วาร์ดมี tokens ประมาณ 242 พันล้าน ซึ่งเป็นจำนวนมหาศาล แต่ยังเป็นเพียงส่วนเล็กๆ ของสิ่งที่ถูกป้อนเข้าไปในระบบ AI ที่ล้ำสมัยที่สุด Meta ผู้ให้บริการ Facebook ได้กล่าวว่าโมเดลภาษาขนาดใหญ่ล่าสุดของพวกเขาได้รับการฝึกฝนด้วย tokens มากกว่า 30 ล้านล้านจากข้อความ รูปภาพ และวิดีโอ

Meta เองก็กำลังเผชิญกับคดีฟ้องร้องจากนักแสดงตลก Sarah Silverman และนักเขียนคนอื่นๆ ที่กล่าวหาว่าบริษัทขโมยหนังสือของพวกเขาจาก "ห้องสมุดเงา" ที่ละเมิดลิขสิทธิ์

ตอนนี้ ห้องสมุดจริงๆ กำลังเข้ามามีบทบาท แม้จะมีข้อจำกัดบางประการ

OpenAI ซึ่งกำลังต่อสู้กับคดีฟ้องร้องเรื่องลิขสิทธิ์หลายคดี บริจาคเงิน 50 ล้านดอลลาร์ในปีนี้ให้กับกลุ่มสถาบันวิจัยรวมถึงห้องสมุด Bodleian อายุ 400 ปีของมหาวิทยาลัยออกซ์ฟอร์ด ซึ่งกำลังแปลงข้อความหายากเป็นดิจิทัลและใช้ AI ช่วยในการถอดความ

เมื่อ OpenAI ติดต่อห้องสมุดสาธารณะบอสตัน ซึ่งเป็นหนึ่งในห้องสมุดที่ใหญ่ที่สุดในสหรัฐฯ ห้องสมุดได้กำหนดเงื่อนไขว่าข้อมูลที่แปลงเป็นดิจิทัลจะต้องเป็นประโยชน์กับทุกคน เจสสิก้า ชาเพล หัวหน้าฝ่ายบริการดิจิทัลและออนไลน์กล่าว

"OpenAI ต้องการข้อมูลการฝึกฝนจำนวนมาก เราต้องการวัตถุดิจิทัลจำนวนมาก นี่จึงเป็นกรณีที่ผลประโยชน์สอดคล้องกัน" ชาเพลกล่าว

การแปลงเป็นดิจิทัลมีค่าใช้จ่ายสูงและต้องใช้แรงงานมาก เช่น การสแกนหนังสือพิมพ์ภาษาฝรั่งเศสของนิวอิงแลนด์หลายสิบฉบับที่เป็นที่นิยมในหมู่ผู้อพยพชาวแคนาดาจากควิเบกในช่วงปลายศตวรรษที่ 19 และต้นศตวรรษที่ 20 ตอนนี้ข้อความเหล่านี้มีค่าในฐานะข้อมูลการฝึกฝน จึงช่วยสนับสนุนโครงการที่บรรณารักษ์ต้องการทำอยู่แล้ว

คอลเลกชันของฮาร์วาร์ดถูกแปลงเป็นดิจิทัลตั้งแต่ปี 2006 โดย Google ในโครงการที่มีการถกเถียงเพื่อสร้างห้องสมุดออนไลน์ที่ค้นหาได้ซึ่งมีหนังสือมากกว่า 20 ล้านเล่ม

Google ใช้เวลาหลายปีต่อสู้คดีกับนักเขียนเกี่ยวกับห้องสมุดหนังสือออนไลน์ ซึ่งรวมถึงผลงานที่ยังมีลิขสิทธิ์ ในที่สุดคดียุติในปี 2016 เมื่อศาลฎีกาสหรัฐฯ ยอมให้คำตัดสินของศาลล่างที่ปฏิเสธข้อกล่าวหาเรื่องการละเมิดลิขสิทธิ์มีผลบังคับใช้

ตอนนี้ เป็นครั้งแรกที่ Google ร่วมมือกับฮาร์วาร์ดเพื่อนำหนังสือที่เป็นสาธารณสมบัติจาก Google Books มาเผยแพร่ให้นักพัฒนา AI การคุ้มครองลิขสิทธิ์ในสหรัฐฯ โดยทั่วไปมีอายุ 95 ปี และนานกว่านั้นสำหรับการบันทึกเสียง

ความพยายามใหม่นี้ได้รับการชื่นชมจากกลุ่มนักเขียนที่เคยฟ้อง Google เกี่ยวกับโครงการหนังสือและล่าสุดได้ฟ้องบริษัท AI

"หนังสือเหล่านี้มีอยู่เฉพาะในห้องสมุดใหญ่ๆ และการสร้างและใช้ชุดข้อมูลนี้จะช่วยให้เข้าถึงหนังสือและความรู้ภายในได้มากขึ้น" แมรี่ ราเซนเบอร์เกอร์ ซีอีโอของ Authors Guild กล่าวในแถลงการณ์ "ที่สำคัญ การสร้างชุดข้อมูลการฝึกฝนขนาดใหญ่ที่ถูกกฎหมายจะทำให้การสร้างโมเดล AI ใหม่เป็นประชาธิปไตยมากขึ้น"

ยังไม่ชัดเจนว่าข้อมูลที่เผยแพร่บนแพลตฟอร์ม Hugging Face ในวันพฤหัสบดีจะมีประโยชน์มากเพียงใดสำหรับเครื่องมือ AI รุ่นต่อไป

คอลเลกชันหนังสือมีความหลากหลายทางภาษามากกว่าแหล่งข้อมูล AI ทั่วไป น้อยกว่าครึ่งของหนังสือเป็นภาษาอังกฤษ แม้ว่าภาษายุโรปยังเป็นหลัก โดยเฉพาะภาษาเยอรมัน ฝรั่งเศส อิตาลี สเปน และละติน

คอลเลกชันหนังสือที่เต็มไปด้วยความคิดในศตวรรษที่ 19 อาจ "มีความสำคัญอย่างยิ่ง" สำหรับความพยายามของอุตสาหกรรมเทคโนโลยีในการสร้างเอเจนต์ AI ที่สามารถวางแผนและให้เหตุผลได้ดีเท่ามนุษย์ เลพเพิร์ตกล่าว

"ในมหาวิทยาลัย คุณมีวิธีการสอนมากมายเกี่ยวกับความหมายของการให้เหตุผล คุณมีข้อมูลทางวิทยาศาสตร์มากมายเกี่ยวกับวิธีการดำเนินกระบวนการและวิธีการวิเคราะห์"

อย่างไรก็ตาม ก็มีข้อมูลที่ล้าสมัยมากมาย ตั้งแต่ทฤษฎีทางวิทยาศาสตร์และการแพทย์ที่ถูกหักล้างไปจนถึงเรื่องเล่าที่เกี่ยวกับการเหยียดเชื้อชาติและอาณานิคม

"เมื่อคุณจัดการกับชุดข้อมูลขนาดใหญ่มาก มีประเด็นที่ซับซ้อนบางประการเกี่ยวกับเนื้อหาและภาษาที่เป็นอันตราย" คริสตี มุคค์ ผู้ประสานงานที่ห้องปฏิบัติการนวัตกรรมห้องสมุดของฮาร์วาร์ดกล่าว โครงการนี้กำลังพยายามให้คำแนะนำเกี่ยวกับการลดความเสี่ยงของการใช้ข้อมูล เพื่อ "ช่วยให้ผู้ใช้ตัดสินใจอย่างมีข้อมูลและใช้ AI อย่างรับผิดชอบ"

The Associated Press และ OpenAI มีข้อตกลงด้านการอนุญาตและเทคโนโลยีที่อนุญาตให้ OpenAI เข้าถึงส่วนหนึ่งของคลังข้อความของ AP

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่สนใจพัฒนาการของ AI และผลกระทบต่ออนาคตของเทคโนโลยี เนื่องจากเป็นการเปิดเผยถึงความร่วมมือครั้งสำคัญระหว่างสถาบันการศึกษาชั้นนำอย่างฮาร์วาร์ดกับบริษัทเทคโนโลยียักษ์ใหญ่ ในการนำคลังความรู้กว่าล้านเล่มมาใช้พัฒนา AI ซึ่งจะช่วยยกระดับความสามารถของ AI ให้มีความเข้าใจที่ลึกซึ้งและหลากหลายมากขึ้น โดยเฉพาะในแง่มุมทางประวัติศาสตร์และวัฒนธรรม ที่สำคัญคือการดำเนินการนี้เป็นไปอย่างถูกกฎหมายและโปร่งใส

ข้อมูลอ้างอิงจาก https://apnews.com/article/ai-chatbot-training-data-libraries-idi-e096a81a4fceb2951f232a33ac767f53?utm_source=flipboard&utm_content=topic%2Fartificialintelligence

Read more

ผู้นำทีม Windows ของ Microsoft เผย Windows เวอร์ชันใหม่จะเปลี่ยนโฉมด้วย AI

news

ผู้นำทีม Windows ของ Microsoft เผย Windows เวอร์ชันใหม่จะเปลี่ยนโฉมด้วย AI

Microsoft เปิดเผยวิสัยทัศน์ Windows ยุคใหม่ที่จะปฏิวัติการใช้งานด้วย AI แบบแอมเบียนท์ เน้นการสั่งการด้วยเสียงและการรับรู้บริบทอัตโนมัติ พร้อมผสานการทำงานระหว่างระบบโลคัลและคลาวด์

By
OpenAI ระบุ ChatGPT เวอร์ชันอัปเกรดล่าสุด ก้าวหน้าขึ้นมาก แต่ยังไม่สามารถทำงานแทนมนุษย์ได้

news

OpenAI ระบุ ChatGPT เวอร์ชันอัปเกรดล่าสุด ก้าวหน้าขึ้นมาก แต่ยังไม่สามารถทำงานแทนมนุษย์ได้

OpenAI เปิดตัว ChatGPT รุ่นใหม่พร้อมโมเดล GPT-5 ที่มีความสามารถสูงขึ้นในการเขียนโค้ดและงานสร้างสรรค์ แม้จะเป็นก้าวสำคัญสู่ AGI แต่ Sam Altman ยอมรับว่ายังมีข้อจำกัดด้านการเรียนรู้ต่อเนื่อง

By
ไม่ใช่ทุกเครื่องมือ AI จะมีประโยชน์ - วิธีเลือกเครื่องมือที่จะเปลี่ยนแปลงธุรกิจของคุณได้จริง

news

ไม่ใช่ทุกเครื่องมือ AI จะมีประโยชน์ - วิธีเลือกเครื่องมือที่จะเปลี่ยนแปลงธุรกิจของคุณได้จริง

เรียนรู้วิธีเลือกเครื่องมือ AI ที่เหมาะกับธุรกิจของคุณ โดยเน้นที่การแก้ปัญหาจริง ไม่หลงกับคำโฆษณาเกินจริง และการประเมินคุณค่าที่วัดผลได้ พร้อมคำแนะนำจากผู้เชี่ยวชาญในการเลือกใช้ AI อย่างมีประสิทธิภาพ

By
AI องค์กรกำลังถึงจุดพลิกผัน นี่คือสิ่งที่จะเกิดขึ้นต่อไป

news

AI องค์กรกำลังถึงจุดพลิกผัน นี่คือสิ่งที่จะเกิดขึ้นต่อไป

สำรวจ 5 เทรนด์สำคัญที่กำลังเปลี่ยนโฉมหน้า AI ระดับองค์กร ตั้งแต่การปรับประสบการณ์ผู้ใช้ การพัฒนา AI Agents ไปจนถึงความท้าทายด้านความปลอดภัยและการกำกับดูแล พร้อมมุมมองจากผู้บริหารระดับสูง

By