AI chatbot ต้องการหนังสือมากขึ้นเพื่อการเรียนรู้
ห้องสมุดฮาร์วาร์ดและบอสตันเปิดคลังหนังสือเก่าแก่ให้ AI เข้าถึงเพื่อพัฒนาการเรียนรู้ โดยมีหนังสือกว่า 1 ล้านเล่มใน 254 ภาษา เป็นแหล่งข้อมูลสำคัญสำหรับการพัฒนา AI ในอนาคต

Key takeaway
- ห้องสมุดฮาร์วาร์ดเปิดให้เข้าถึงคอลเลกชันหนังสือกว่า 1 ล้านเล่มในรูปแบบดิจิทัล ครอบคลุม 254 ภาษา เพื่อใช้ในการพัฒนา AI โดยเฉพาะหนังสือที่เป็นสาธารณสมบัติ ซึ่งจะช่วยลดปัญหาการละเมิดลิขสิทธิ์ที่บริษัทเทคโนโลยีกำลังเผชิญอยู่
- ข้อมูลจากห้องสมุดมีความสำคัญเพราะมีเนื้อหาที่มีคุณค่าทางประวัติศาสตร์และวัฒนธรรมที่ไม่สามารถหาได้จากข้อมูลออนไลน์ทั่วไป โดยชุดข้อมูล Institutional Books 1.0 ของฮาร์วาร์ดมี tokens กว่า 242 พันล้าน ซึ่งจะช่วยพัฒนาความแม่นยำและความน่าเชื่อถือของระบบ AI
- การร่วมมือระหว่างห้องสมุดกับบริษัทเทคโนโลยีเป็นประโยชน์ร่วมกันทั้งสองฝ่าย โดยห้องสมุดได้รับการสนับสนุนในการแปลงข้อมูลเป็นดิจิทัล ขณะที่บริษัทเทคโนโลยีได้แหล่งข้อมูลคุณภาพสูงที่ถูกต้องตามกฎหมายสำหรับพัฒนา AI
เคมบริดจ์, แมสซาชูเซตส์ (AP) — ทุกสิ่งที่เคยถูกพูดบนอินเทอร์เน็ตเป็นเพียงจุดเริ่มต้นในการสอน AI เกี่ยวกับมนุษยชาติ บริษัทเทคโนโลยีกำลังหันไปใช้แหล่งความรู้ที่เก่าแก่กว่า: หนังสือในห้องสมุด
หนังสือเกือบหนึ่งล้านเล่มที่ตีพิมพ์ตั้งแต่ศตวรรษที่ 15 ใน 254 ภาษา กำลังถูกเปิดให้นักวิจัย AI เข้าถึงได้ในวันพฤหัสบดีนี้ ซึ่งเป็นส่วนหนึ่งของคอลเลกชันมหาวิทยาลัยฮาร์วาร์ด นอกจากนี้ ห้องสมุดสาธารณะบอสตันยังเตรียมเปิดให้บริการหนังสือพิมพ์เก่าและเอกสารของรัฐบาลในเร็วๆ นี้
การเปิดคลังหนังสือเก่าแก่หลายศตวรรษอาจเป็นแหล่งข้อมูลสำคัญสำหรับบริษัทเทคโนโลยีที่กำลังเผชิญกับคดีฟ้องร้องจากนักเขียน ศิลปิน และผู้สร้างสรรค์อื่นๆ ที่ผลงานถูกนำไปใช้โดยไม่ได้รับความยินยอมเพื่อฝึกฝน AI แชทบอท
"เป็นการตัดสินใจที่รอบคอบที่จะเริ่มต้นด้วยข้อมูลสาธารณะ เพราะมีความขัดแย้งน้อยกว่าเนื้อหาที่ยังอยู่ภายใต้ลิขสิทธิ์" เบอร์ตัน เดวิส รองที่ปรึกษาทั่วไปของไมโครซอฟท์กล่าว
เดวิสยังระบุว่าห้องสมุดเหล่านี้มี "ข้อมูลทางวัฒนธรรม ประวัติศาสตร์ และภาษาที่น่าสนใจจำนวนมาก" ที่ไม่มีอยู่ในความคิดเห็นออนไลน์ที่ AI แชทบอทส่วนใหญ่ได้เรียนรู้ในช่วงที่ผ่านมา ความกังวลเรื่องการขาดแคลนข้อมูลทำให้นักพัฒนา AI บางส่วนหันไปใช้ข้อมูล "สังเคราะห์" ที่สร้างโดยแชทบอทเอง ซึ่งมีคุณภาพด้อยกว่า
Institutional Data Initiative ที่ตั้งอยู่ที่ฮาร์วาร์ด ซึ่งได้รับการสนับสนุนจาก "ของขวัญที่ไม่มีข้อจำกัด" จากไมโครซอฟท์และ OpenAI ผู้สร้าง ChatGPT กำลังร่วมมือกับห้องสมุดและพิพิธภัณฑ์ทั่วโลกเพื่อทำให้คอลเลกชันประวัติศาสตร์พร้อมสำหรับการใช้งานกับ AI ในรูปแบบที่เป็นประโยชน์ต่อชุมชน
"เรากำลังพยายามโอนอำนาจบางส่วนจากยุค AI ปัจจุบันกลับไปยังสถาบันเหล่านี้" อริสตานา สคูร์ทาส ผู้จัดการงานวิจัยที่ห้องปฏิบัติการนวัตกรรมห้องสมุดของโรงเรียนกฎหมายฮาร์วาร์ดกล่าว "บรรณารักษ์เป็นผู้ดูแลข้อมูลและสารสนเทศมาตลอด"
ชุดข้อมูล Institutional Books 1.0 ของฮาร์วาร์ดที่เพิ่งเปิดตัวมีมากกว่า 394 ล้านหน้าที่สแกนจากกระดาษ หนึ่งในงานที่เก่าแก่ที่สุดมาจากศตวรรษที่ 15 เป็นบันทึกลายมือของจิตรกรชาวเกาหลีเกี่ยวกับการปลูกดอกไม้และต้นไม้ ผลงานส่วนใหญ่มาจากศตวรรษที่ 19 ครอบคลุมหัวข้อต่างๆ เช่น วรรณกรรม ปรัชญา กฎหมาย และการเกษตร ทั้งหมดได้รับการเก็บรักษาและจัดระเบียบอย่างพิถีพิถันโดยบรรณารักษ์หลายรุ่น
ชุดข้อมูลนี้มีศักยภาพอย่างมากสำหรับนักพัฒนา AI ที่ต้องการปรับปรุงความแม่นยำและความน่าเชื่อถือของระบบ
"ข้อมูลจำนวนมากที่ใช้ในการฝึกฝน AI ไม่ได้มาจากแหล่งที่มาดั้งเดิม" เกรก เลพเพิร์ต ผู้อำนวยการบริหารของ Data Initiative และหัวหน้าเทคโนโลยีที่ศูนย์ Berkman Klein Center for Internet & Society ของฮาร์วาร์ดกล่าว คอลเลกชันหนังสือนี้ย้อนกลับไป "ถึงสำเนาทางกายภาพที่ถูกสแกนโดยสถาบันที่เก็บรวบรวมรายการเหล่านั้นจริงๆ"
ก่อนที่ ChatGPT จะสร้างกระแสความนิยม AI เชิงพาณิชย์ นักวิจัย AI ส่วนใหญ่ไม่ได้คำนึงถึงแหล่งที่มาของข้อความที่พวกเขาดึงมาจาก Wikipedia, Reddit หรือแม้แต่คลังหนังสือละเมิดลิขสิทธิ์ พวกเขาเพียงต้องการ tokens จำนวนมาก ซึ่งเป็นหน่วยข้อมูลที่แต่ละหน่วยแทนส่วนของคำได้
คอลเลกชันการฝึกฝน AI ใหม่ของฮาร์วาร์ดมี tokens ประมาณ 242 พันล้าน ซึ่งเป็นจำนวนมหาศาล แต่ยังเป็นเพียงส่วนเล็กๆ ของสิ่งที่ถูกป้อนเข้าไปในระบบ AI ที่ล้ำสมัยที่สุด Meta ผู้ให้บริการ Facebook ได้กล่าวว่าโมเดลภาษาขนาดใหญ่ล่าสุดของพวกเขาได้รับการฝึกฝนด้วย tokens มากกว่า 30 ล้านล้านจากข้อความ รูปภาพ และวิดีโอ
Meta เองก็กำลังเผชิญกับคดีฟ้องร้องจากนักแสดงตลก Sarah Silverman และนักเขียนคนอื่นๆ ที่กล่าวหาว่าบริษัทขโมยหนังสือของพวกเขาจาก "ห้องสมุดเงา" ที่ละเมิดลิขสิทธิ์
ตอนนี้ ห้องสมุดจริงๆ กำลังเข้ามามีบทบาท แม้จะมีข้อจำกัดบางประการ
OpenAI ซึ่งกำลังต่อสู้กับคดีฟ้องร้องเรื่องลิขสิทธิ์หลายคดี บริจาคเงิน 50 ล้านดอลลาร์ในปีนี้ให้กับกลุ่มสถาบันวิจัยรวมถึงห้องสมุด Bodleian อายุ 400 ปีของมหาวิทยาลัยออกซ์ฟอร์ด ซึ่งกำลังแปลงข้อความหายากเป็นดิจิทัลและใช้ AI ช่วยในการถอดความ
เมื่อ OpenAI ติดต่อห้องสมุดสาธารณะบอสตัน ซึ่งเป็นหนึ่งในห้องสมุดที่ใหญ่ที่สุดในสหรัฐฯ ห้องสมุดได้กำหนดเงื่อนไขว่าข้อมูลที่แปลงเป็นดิจิทัลจะต้องเป็นประโยชน์กับทุกคน เจสสิก้า ชาเพล หัวหน้าฝ่ายบริการดิจิทัลและออนไลน์กล่าว
"OpenAI ต้องการข้อมูลการฝึกฝนจำนวนมาก เราต้องการวัตถุดิจิทัลจำนวนมาก นี่จึงเป็นกรณีที่ผลประโยชน์สอดคล้องกัน" ชาเพลกล่าว
การแปลงเป็นดิจิทัลมีค่าใช้จ่ายสูงและต้องใช้แรงงานมาก เช่น การสแกนหนังสือพิมพ์ภาษาฝรั่งเศสของนิวอิงแลนด์หลายสิบฉบับที่เป็นที่นิยมในหมู่ผู้อพยพชาวแคนาดาจากควิเบกในช่วงปลายศตวรรษที่ 19 และต้นศตวรรษที่ 20 ตอนนี้ข้อความเหล่านี้มีค่าในฐานะข้อมูลการฝึกฝน จึงช่วยสนับสนุนโครงการที่บรรณารักษ์ต้องการทำอยู่แล้ว
คอลเลกชันของฮาร์วาร์ดถูกแปลงเป็นดิจิทัลตั้งแต่ปี 2006 โดย Google ในโครงการที่มีการถกเถียงเพื่อสร้างห้องสมุดออนไลน์ที่ค้นหาได้ซึ่งมีหนังสือมากกว่า 20 ล้านเล่ม
Google ใช้เวลาหลายปีต่อสู้คดีกับนักเขียนเกี่ยวกับห้องสมุดหนังสือออนไลน์ ซึ่งรวมถึงผลงานที่ยังมีลิขสิทธิ์ ในที่สุดคดียุติในปี 2016 เมื่อศาลฎีกาสหรัฐฯ ยอมให้คำตัดสินของศาลล่างที่ปฏิเสธข้อกล่าวหาเรื่องการละเมิดลิขสิทธิ์มีผลบังคับใช้
ตอนนี้ เป็นครั้งแรกที่ Google ร่วมมือกับฮาร์วาร์ดเพื่อนำหนังสือที่เป็นสาธารณสมบัติจาก Google Books มาเผยแพร่ให้นักพัฒนา AI การคุ้มครองลิขสิทธิ์ในสหรัฐฯ โดยทั่วไปมีอายุ 95 ปี และนานกว่านั้นสำหรับการบันทึกเสียง
ความพยายามใหม่นี้ได้รับการชื่นชมจากกลุ่มนักเขียนที่เคยฟ้อง Google เกี่ยวกับโครงการหนังสือและล่าสุดได้ฟ้องบริษัท AI
"หนังสือเหล่านี้มีอยู่เฉพาะในห้องสมุดใหญ่ๆ และการสร้างและใช้ชุดข้อมูลนี้จะช่วยให้เข้าถึงหนังสือและความรู้ภายในได้มากขึ้น" แมรี่ ราเซนเบอร์เกอร์ ซีอีโอของ Authors Guild กล่าวในแถลงการณ์ "ที่สำคัญ การสร้างชุดข้อมูลการฝึกฝนขนาดใหญ่ที่ถูกกฎหมายจะทำให้การสร้างโมเดล AI ใหม่เป็นประชาธิปไตยมากขึ้น"
ยังไม่ชัดเจนว่าข้อมูลที่เผยแพร่บนแพลตฟอร์ม Hugging Face ในวันพฤหัสบดีจะมีประโยชน์มากเพียงใดสำหรับเครื่องมือ AI รุ่นต่อไป
คอลเลกชันหนังสือมีความหลากหลายทางภาษามากกว่าแหล่งข้อมูล AI ทั่วไป น้อยกว่าครึ่งของหนังสือเป็นภาษาอังกฤษ แม้ว่าภาษายุโรปยังเป็นหลัก โดยเฉพาะภาษาเยอรมัน ฝรั่งเศส อิตาลี สเปน และละติน
คอลเลกชันหนังสือที่เต็มไปด้วยความคิดในศตวรรษที่ 19 อาจ "มีความสำคัญอย่างยิ่ง" สำหรับความพยายามของอุตสาหกรรมเทคโนโลยีในการสร้างเอเจนต์ AI ที่สามารถวางแผนและให้เหตุผลได้ดีเท่ามนุษย์ เลพเพิร์ตกล่าว
"ในมหาวิทยาลัย คุณมีวิธีการสอนมากมายเกี่ยวกับความหมายของการให้เหตุผล คุณมีข้อมูลทางวิทยาศาสตร์มากมายเกี่ยวกับวิธีการดำเนินกระบวนการและวิธีการวิเคราะห์"
อย่างไรก็ตาม ก็มีข้อมูลที่ล้าสมัยมากมาย ตั้งแต่ทฤษฎีทางวิทยาศาสตร์และการแพทย์ที่ถูกหักล้างไปจนถึงเรื่องเล่าที่เกี่ยวกับการเหยียดเชื้อชาติและอาณานิคม
"เมื่อคุณจัดการกับชุดข้อมูลขนาดใหญ่มาก มีประเด็นที่ซับซ้อนบางประการเกี่ยวกับเนื้อหาและภาษาที่เป็นอันตราย" คริสตี มุคค์ ผู้ประสานงานที่ห้องปฏิบัติการนวัตกรรมห้องสมุดของฮาร์วาร์ดกล่าว โครงการนี้กำลังพยายามให้คำแนะนำเกี่ยวกับการลดความเสี่ยงของการใช้ข้อมูล เพื่อ "ช่วยให้ผู้ใช้ตัดสินใจอย่างมีข้อมูลและใช้ AI อย่างรับผิดชอบ"
The Associated Press และ OpenAI มีข้อตกลงด้านการอนุญาตและเทคโนโลยีที่อนุญาตให้ OpenAI เข้าถึงส่วนหนึ่งของคลังข้อความของ AP
Why it matters
💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่สนใจพัฒนาการของ AI และผลกระทบต่ออนาคตของเทคโนโลยี เนื่องจากเป็นการเปิดเผยถึงความร่วมมือครั้งสำคัญระหว่างสถาบันการศึกษาชั้นนำอย่างฮาร์วาร์ดกับบริษัทเทคโนโลยียักษ์ใหญ่ ในการนำคลังความรู้กว่าล้านเล่มมาใช้พัฒนา AI ซึ่งจะช่วยยกระดับความสามารถของ AI ให้มีความเข้าใจที่ลึกซึ้งและหลากหลายมากขึ้น โดยเฉพาะในแง่มุมทางประวัติศาสตร์และวัฒนธรรม ที่สำคัญคือการดำเนินการนี้เป็นไปอย่างถูกกฎหมายและโปร่งใส