AI chatbot ต้องการหนังสือมากขึ้นเพื่อการเรียนรู้

ห้องสมุดฮาร์วาร์ดและบอสตันเปิดคลังหนังสือเก่าแก่ให้ AI เข้าถึงเพื่อพัฒนาการเรียนรู้ โดยมีหนังสือกว่า 1 ล้านเล่มใน 254 ภาษา เป็นแหล่งข้อมูลสำคัญสำหรับการพัฒนา AI ในอนาคต

AI chatbot ต้องการหนังสือมากขึ้นเพื่อการเรียนรู้

Key takeaway

  • ห้องสมุดฮาร์วาร์ดเปิดให้เข้าถึงคอลเลกชันหนังสือกว่า 1 ล้านเล่มในรูปแบบดิจิทัล ครอบคลุม 254 ภาษา เพื่อใช้ในการพัฒนา AI โดยเฉพาะหนังสือที่เป็นสาธารณสมบัติ ซึ่งจะช่วยลดปัญหาการละเมิดลิขสิทธิ์ที่บริษัทเทคโนโลยีกำลังเผชิญอยู่
  • ข้อมูลจากห้องสมุดมีความสำคัญเพราะมีเนื้อหาที่มีคุณค่าทางประวัติศาสตร์และวัฒนธรรมที่ไม่สามารถหาได้จากข้อมูลออนไลน์ทั่วไป โดยชุดข้อมูล Institutional Books 1.0 ของฮาร์วาร์ดมี tokens กว่า 242 พันล้าน ซึ่งจะช่วยพัฒนาความแม่นยำและความน่าเชื่อถือของระบบ AI
  • การร่วมมือระหว่างห้องสมุดกับบริษัทเทคโนโลยีเป็นประโยชน์ร่วมกันทั้งสองฝ่าย โดยห้องสมุดได้รับการสนับสนุนในการแปลงข้อมูลเป็นดิจิทัล ขณะที่บริษัทเทคโนโลยีได้แหล่งข้อมูลคุณภาพสูงที่ถูกต้องตามกฎหมายสำหรับพัฒนา AI

เคมบริดจ์, แมสซาชูเซตส์ (AP) — ทุกสิ่งที่เคยถูกพูดบนอินเทอร์เน็ตเป็นเพียงจุดเริ่มต้นในการสอน AI เกี่ยวกับมนุษยชาติ บริษัทเทคโนโลยีกำลังหันไปใช้แหล่งความรู้ที่เก่าแก่กว่า: หนังสือในห้องสมุด

หนังสือเกือบหนึ่งล้านเล่มที่ตีพิมพ์ตั้งแต่ศตวรรษที่ 15 ใน 254 ภาษา กำลังถูกเปิดให้นักวิจัย AI เข้าถึงได้ในวันพฤหัสบดีนี้ ซึ่งเป็นส่วนหนึ่งของคอลเลกชันมหาวิทยาลัยฮาร์วาร์ด นอกจากนี้ ห้องสมุดสาธารณะบอสตันยังเตรียมเปิดให้บริการหนังสือพิมพ์เก่าและเอกสารของรัฐบาลในเร็วๆ นี้

การเปิดคลังหนังสือเก่าแก่หลายศตวรรษอาจเป็นแหล่งข้อมูลสำคัญสำหรับบริษัทเทคโนโลยีที่กำลังเผชิญกับคดีฟ้องร้องจากนักเขียน ศิลปิน และผู้สร้างสรรค์อื่นๆ ที่ผลงานถูกนำไปใช้โดยไม่ได้รับความยินยอมเพื่อฝึกฝน AI แชทบอท

"เป็นการตัดสินใจที่รอบคอบที่จะเริ่มต้นด้วยข้อมูลสาธารณะ เพราะมีความขัดแย้งน้อยกว่าเนื้อหาที่ยังอยู่ภายใต้ลิขสิทธิ์" เบอร์ตัน เดวิส รองที่ปรึกษาทั่วไปของไมโครซอฟท์กล่าว

เดวิสยังระบุว่าห้องสมุดเหล่านี้มี "ข้อมูลทางวัฒนธรรม ประวัติศาสตร์ และภาษาที่น่าสนใจจำนวนมาก" ที่ไม่มีอยู่ในความคิดเห็นออนไลน์ที่ AI แชทบอทส่วนใหญ่ได้เรียนรู้ในช่วงที่ผ่านมา ความกังวลเรื่องการขาดแคลนข้อมูลทำให้นักพัฒนา AI บางส่วนหันไปใช้ข้อมูล "สังเคราะห์" ที่สร้างโดยแชทบอทเอง ซึ่งมีคุณภาพด้อยกว่า

Institutional Data Initiative ที่ตั้งอยู่ที่ฮาร์วาร์ด ซึ่งได้รับการสนับสนุนจาก "ของขวัญที่ไม่มีข้อจำกัด" จากไมโครซอฟท์และ OpenAI ผู้สร้าง ChatGPT กำลังร่วมมือกับห้องสมุดและพิพิธภัณฑ์ทั่วโลกเพื่อทำให้คอลเลกชันประวัติศาสตร์พร้อมสำหรับการใช้งานกับ AI ในรูปแบบที่เป็นประโยชน์ต่อชุมชน

"เรากำลังพยายามโอนอำนาจบางส่วนจากยุค AI ปัจจุบันกลับไปยังสถาบันเหล่านี้" อริสตานา สคูร์ทาส ผู้จัดการงานวิจัยที่ห้องปฏิบัติการนวัตกรรมห้องสมุดของโรงเรียนกฎหมายฮาร์วาร์ดกล่าว "บรรณารักษ์เป็นผู้ดูแลข้อมูลและสารสนเทศมาตลอด"

ชุดข้อมูล Institutional Books 1.0 ของฮาร์วาร์ดที่เพิ่งเปิดตัวมีมากกว่า 394 ล้านหน้าที่สแกนจากกระดาษ หนึ่งในงานที่เก่าแก่ที่สุดมาจากศตวรรษที่ 15 เป็นบันทึกลายมือของจิตรกรชาวเกาหลีเกี่ยวกับการปลูกดอกไม้และต้นไม้ ผลงานส่วนใหญ่มาจากศตวรรษที่ 19 ครอบคลุมหัวข้อต่างๆ เช่น วรรณกรรม ปรัชญา กฎหมาย และการเกษตร ทั้งหมดได้รับการเก็บรักษาและจัดระเบียบอย่างพิถีพิถันโดยบรรณารักษ์หลายรุ่น

ชุดข้อมูลนี้มีศักยภาพอย่างมากสำหรับนักพัฒนา AI ที่ต้องการปรับปรุงความแม่นยำและความน่าเชื่อถือของระบบ

"ข้อมูลจำนวนมากที่ใช้ในการฝึกฝน AI ไม่ได้มาจากแหล่งที่มาดั้งเดิม" เกรก เลพเพิร์ต ผู้อำนวยการบริหารของ Data Initiative และหัวหน้าเทคโนโลยีที่ศูนย์ Berkman Klein Center for Internet & Society ของฮาร์วาร์ดกล่าว คอลเลกชันหนังสือนี้ย้อนกลับไป "ถึงสำเนาทางกายภาพที่ถูกสแกนโดยสถาบันที่เก็บรวบรวมรายการเหล่านั้นจริงๆ"

ก่อนที่ ChatGPT จะสร้างกระแสความนิยม AI เชิงพาณิชย์ นักวิจัย AI ส่วนใหญ่ไม่ได้คำนึงถึงแหล่งที่มาของข้อความที่พวกเขาดึงมาจาก Wikipedia, Reddit หรือแม้แต่คลังหนังสือละเมิดลิขสิทธิ์ พวกเขาเพียงต้องการ tokens จำนวนมาก ซึ่งเป็นหน่วยข้อมูลที่แต่ละหน่วยแทนส่วนของคำได้

คอลเลกชันการฝึกฝน AI ใหม่ของฮาร์วาร์ดมี tokens ประมาณ 242 พันล้าน ซึ่งเป็นจำนวนมหาศาล แต่ยังเป็นเพียงส่วนเล็กๆ ของสิ่งที่ถูกป้อนเข้าไปในระบบ AI ที่ล้ำสมัยที่สุด Meta ผู้ให้บริการ Facebook ได้กล่าวว่าโมเดลภาษาขนาดใหญ่ล่าสุดของพวกเขาได้รับการฝึกฝนด้วย tokens มากกว่า 30 ล้านล้านจากข้อความ รูปภาพ และวิดีโอ

Meta เองก็กำลังเผชิญกับคดีฟ้องร้องจากนักแสดงตลก Sarah Silverman และนักเขียนคนอื่นๆ ที่กล่าวหาว่าบริษัทขโมยหนังสือของพวกเขาจาก "ห้องสมุดเงา" ที่ละเมิดลิขสิทธิ์

ตอนนี้ ห้องสมุดจริงๆ กำลังเข้ามามีบทบาท แม้จะมีข้อจำกัดบางประการ

OpenAI ซึ่งกำลังต่อสู้กับคดีฟ้องร้องเรื่องลิขสิทธิ์หลายคดี บริจาคเงิน 50 ล้านดอลลาร์ในปีนี้ให้กับกลุ่มสถาบันวิจัยรวมถึงห้องสมุด Bodleian อายุ 400 ปีของมหาวิทยาลัยออกซ์ฟอร์ด ซึ่งกำลังแปลงข้อความหายากเป็นดิจิทัลและใช้ AI ช่วยในการถอดความ

เมื่อ OpenAI ติดต่อห้องสมุดสาธารณะบอสตัน ซึ่งเป็นหนึ่งในห้องสมุดที่ใหญ่ที่สุดในสหรัฐฯ ห้องสมุดได้กำหนดเงื่อนไขว่าข้อมูลที่แปลงเป็นดิจิทัลจะต้องเป็นประโยชน์กับทุกคน เจสสิก้า ชาเพล หัวหน้าฝ่ายบริการดิจิทัลและออนไลน์กล่าว

"OpenAI ต้องการข้อมูลการฝึกฝนจำนวนมาก เราต้องการวัตถุดิจิทัลจำนวนมาก นี่จึงเป็นกรณีที่ผลประโยชน์สอดคล้องกัน" ชาเพลกล่าว

การแปลงเป็นดิจิทัลมีค่าใช้จ่ายสูงและต้องใช้แรงงานมาก เช่น การสแกนหนังสือพิมพ์ภาษาฝรั่งเศสของนิวอิงแลนด์หลายสิบฉบับที่เป็นที่นิยมในหมู่ผู้อพยพชาวแคนาดาจากควิเบกในช่วงปลายศตวรรษที่ 19 และต้นศตวรรษที่ 20 ตอนนี้ข้อความเหล่านี้มีค่าในฐานะข้อมูลการฝึกฝน จึงช่วยสนับสนุนโครงการที่บรรณารักษ์ต้องการทำอยู่แล้ว

คอลเลกชันของฮาร์วาร์ดถูกแปลงเป็นดิจิทัลตั้งแต่ปี 2006 โดย Google ในโครงการที่มีการถกเถียงเพื่อสร้างห้องสมุดออนไลน์ที่ค้นหาได้ซึ่งมีหนังสือมากกว่า 20 ล้านเล่ม

Google ใช้เวลาหลายปีต่อสู้คดีกับนักเขียนเกี่ยวกับห้องสมุดหนังสือออนไลน์ ซึ่งรวมถึงผลงานที่ยังมีลิขสิทธิ์ ในที่สุดคดียุติในปี 2016 เมื่อศาลฎีกาสหรัฐฯ ยอมให้คำตัดสินของศาลล่างที่ปฏิเสธข้อกล่าวหาเรื่องการละเมิดลิขสิทธิ์มีผลบังคับใช้

ตอนนี้ เป็นครั้งแรกที่ Google ร่วมมือกับฮาร์วาร์ดเพื่อนำหนังสือที่เป็นสาธารณสมบัติจาก Google Books มาเผยแพร่ให้นักพัฒนา AI การคุ้มครองลิขสิทธิ์ในสหรัฐฯ โดยทั่วไปมีอายุ 95 ปี และนานกว่านั้นสำหรับการบันทึกเสียง

ความพยายามใหม่นี้ได้รับการชื่นชมจากกลุ่มนักเขียนที่เคยฟ้อง Google เกี่ยวกับโครงการหนังสือและล่าสุดได้ฟ้องบริษัท AI

"หนังสือเหล่านี้มีอยู่เฉพาะในห้องสมุดใหญ่ๆ และการสร้างและใช้ชุดข้อมูลนี้จะช่วยให้เข้าถึงหนังสือและความรู้ภายในได้มากขึ้น" แมรี่ ราเซนเบอร์เกอร์ ซีอีโอของ Authors Guild กล่าวในแถลงการณ์ "ที่สำคัญ การสร้างชุดข้อมูลการฝึกฝนขนาดใหญ่ที่ถูกกฎหมายจะทำให้การสร้างโมเดล AI ใหม่เป็นประชาธิปไตยมากขึ้น"

ยังไม่ชัดเจนว่าข้อมูลที่เผยแพร่บนแพลตฟอร์ม Hugging Face ในวันพฤหัสบดีจะมีประโยชน์มากเพียงใดสำหรับเครื่องมือ AI รุ่นต่อไป

คอลเลกชันหนังสือมีความหลากหลายทางภาษามากกว่าแหล่งข้อมูล AI ทั่วไป น้อยกว่าครึ่งของหนังสือเป็นภาษาอังกฤษ แม้ว่าภาษายุโรปยังเป็นหลัก โดยเฉพาะภาษาเยอรมัน ฝรั่งเศส อิตาลี สเปน และละติน

คอลเลกชันหนังสือที่เต็มไปด้วยความคิดในศตวรรษที่ 19 อาจ "มีความสำคัญอย่างยิ่ง" สำหรับความพยายามของอุตสาหกรรมเทคโนโลยีในการสร้างเอเจนต์ AI ที่สามารถวางแผนและให้เหตุผลได้ดีเท่ามนุษย์ เลพเพิร์ตกล่าว

"ในมหาวิทยาลัย คุณมีวิธีการสอนมากมายเกี่ยวกับความหมายของการให้เหตุผล คุณมีข้อมูลทางวิทยาศาสตร์มากมายเกี่ยวกับวิธีการดำเนินกระบวนการและวิธีการวิเคราะห์"

อย่างไรก็ตาม ก็มีข้อมูลที่ล้าสมัยมากมาย ตั้งแต่ทฤษฎีทางวิทยาศาสตร์และการแพทย์ที่ถูกหักล้างไปจนถึงเรื่องเล่าที่เกี่ยวกับการเหยียดเชื้อชาติและอาณานิคม

"เมื่อคุณจัดการกับชุดข้อมูลขนาดใหญ่มาก มีประเด็นที่ซับซ้อนบางประการเกี่ยวกับเนื้อหาและภาษาที่เป็นอันตราย" คริสตี มุคค์ ผู้ประสานงานที่ห้องปฏิบัติการนวัตกรรมห้องสมุดของฮาร์วาร์ดกล่าว โครงการนี้กำลังพยายามให้คำแนะนำเกี่ยวกับการลดความเสี่ยงของการใช้ข้อมูล เพื่อ "ช่วยให้ผู้ใช้ตัดสินใจอย่างมีข้อมูลและใช้ AI อย่างรับผิดชอบ"

The Associated Press และ OpenAI มีข้อตกลงด้านการอนุญาตและเทคโนโลยีที่อนุญาตให้ OpenAI เข้าถึงส่วนหนึ่งของคลังข้อความของ AP

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่สนใจพัฒนาการของ AI และผลกระทบต่ออนาคตของเทคโนโลยี เนื่องจากเป็นการเปิดเผยถึงความร่วมมือครั้งสำคัญระหว่างสถาบันการศึกษาชั้นนำอย่างฮาร์วาร์ดกับบริษัทเทคโนโลยียักษ์ใหญ่ ในการนำคลังความรู้กว่าล้านเล่มมาใช้พัฒนา AI ซึ่งจะช่วยยกระดับความสามารถของ AI ให้มีความเข้าใจที่ลึกซึ้งและหลากหลายมากขึ้น โดยเฉพาะในแง่มุมทางประวัติศาสตร์และวัฒนธรรม ที่สำคัญคือการดำเนินการนี้เป็นไปอย่างถูกกฎหมายและโปร่งใส

ข้อมูลอ้างอิงจาก https://apnews.com/article/ai-chatbot-training-data-libraries-idi-e096a81a4fceb2951f232a33ac767f53?utm_source=flipboard&utm_content=topic%2Fartificialintelligence

Read more

โฆษณาที่สร้างด้วย AI มูลค่า $2,000 ออกอากาศระหว่างรอบชิงชนะเลิศ NBA

news

โฆษณาที่สร้างด้วย AI มูลค่า $2,000 ออกอากาศระหว่างรอบชิงชนะเลิศ NBA

โฆษณาที่สร้างด้วย AI มูลค่าเพียง $2,000 ออกอากาศในรอบชิงชนะเลิศ NBA โดยใช้ Veo 3 จาก Google ผลิตในเวลาเพียง 2-3 วัน สะท้อนให้เห็นอนาคตของการผลิตสื่อโฆษณาที่กำลังเปลี่ยนแปลง

By
บริษัทผู้ผลิตบาร์บี้ Mattel จับมือกับ OpenAI พัฒนาของเล่นที่ขับเคลื่อนด้วย AI

news

บริษัทผู้ผลิตบาร์บี้ Mattel จับมือกับ OpenAI พัฒนาของเล่นที่ขับเคลื่อนด้วย AI

Mattel ประกาศจับมือ OpenAI พัฒนาของเล่นที่ขับเคลื่อนด้วย AI รวมถึงแบรนด์ดังอย่าง Barbie และ Hot Wheels โดยเน้นความปลอดภัยและความเหมาะสมกับวัย พร้อมเปิดตัวผลิตภัณฑ์แรกภายในปีนี้

By
CEO ของ Klarna เชื่อว่า AI จะแทนที่งานจำนวนมากจนเกิดภาวะเศรษฐกิจถดถอยครั้งใหญ่

news

CEO ของ Klarna เชื่อว่า AI จะแทนที่งานจำนวนมากจนเกิดภาวะเศรษฐกิจถดถอยครั้งใหญ่

CEO Klarna เผยมุมมองว่า AI จะแทนที่งานออฟฟิศจำนวนมาก ส่งผลให้เกิดภาวะเศรษฐกิจถดถอย แม้ก่อนหน้านี้บริษัทล้มเหลวในการใช้ AI แทนพนักงานบริการลูกค้า 700 ตำแหน่ง เนื่องจากคุณภาพงานต่ำกว่า

By
AI แนะนำให้ผู้ฟื้นตัวจากการติดยาเสพติดกลับไปเสพเมท เพื่อให้ "ทำงานได้"

news

AI แนะนำให้ผู้ฟื้นตัวจากการติดยาเสพติดกลับไปเสพเมท เพื่อให้ "ทำงานได้"

งานวิจัยเผยความเสี่ยงของ AI chatbot ที่แนะนำให้ผู้เลิกยาเสพติดกลับไปใช้เมทแอมเฟตามีน สะท้อนปัญหาการพัฒนา AI ที่เน้นการเติบโตมากกว่าความปลอดภัยของผู้ใช้

By