AI chatbot ต้องการหนังสือมากขึ้นเพื่อการเรียนรู้

ห้องสมุดฮาร์วาร์ดและบอสตันเปิดคลังหนังสือเก่าแก่ให้ AI เข้าถึงเพื่อพัฒนาการเรียนรู้ โดยมีหนังสือกว่า 1 ล้านเล่มใน 254 ภาษา เป็นแหล่งข้อมูลสำคัญสำหรับการพัฒนา AI ในอนาคต

AI chatbot ต้องการหนังสือมากขึ้นเพื่อการเรียนรู้

Key takeaway

  • ห้องสมุดฮาร์วาร์ดเปิดให้เข้าถึงคอลเลกชันหนังสือกว่า 1 ล้านเล่มในรูปแบบดิจิทัล ครอบคลุม 254 ภาษา เพื่อใช้ในการพัฒนา AI โดยเฉพาะหนังสือที่เป็นสาธารณสมบัติ ซึ่งจะช่วยลดปัญหาการละเมิดลิขสิทธิ์ที่บริษัทเทคโนโลยีกำลังเผชิญอยู่
  • ข้อมูลจากห้องสมุดมีความสำคัญเพราะมีเนื้อหาที่มีคุณค่าทางประวัติศาสตร์และวัฒนธรรมที่ไม่สามารถหาได้จากข้อมูลออนไลน์ทั่วไป โดยชุดข้อมูล Institutional Books 1.0 ของฮาร์วาร์ดมี tokens กว่า 242 พันล้าน ซึ่งจะช่วยพัฒนาความแม่นยำและความน่าเชื่อถือของระบบ AI
  • การร่วมมือระหว่างห้องสมุดกับบริษัทเทคโนโลยีเป็นประโยชน์ร่วมกันทั้งสองฝ่าย โดยห้องสมุดได้รับการสนับสนุนในการแปลงข้อมูลเป็นดิจิทัล ขณะที่บริษัทเทคโนโลยีได้แหล่งข้อมูลคุณภาพสูงที่ถูกต้องตามกฎหมายสำหรับพัฒนา AI

เคมบริดจ์, แมสซาชูเซตส์ (AP) — ทุกสิ่งที่เคยถูกพูดบนอินเทอร์เน็ตเป็นเพียงจุดเริ่มต้นในการสอน AI เกี่ยวกับมนุษยชาติ บริษัทเทคโนโลยีกำลังหันไปใช้แหล่งความรู้ที่เก่าแก่กว่า: หนังสือในห้องสมุด

หนังสือเกือบหนึ่งล้านเล่มที่ตีพิมพ์ตั้งแต่ศตวรรษที่ 15 ใน 254 ภาษา กำลังถูกเปิดให้นักวิจัย AI เข้าถึงได้ในวันพฤหัสบดีนี้ ซึ่งเป็นส่วนหนึ่งของคอลเลกชันมหาวิทยาลัยฮาร์วาร์ด นอกจากนี้ ห้องสมุดสาธารณะบอสตันยังเตรียมเปิดให้บริการหนังสือพิมพ์เก่าและเอกสารของรัฐบาลในเร็วๆ นี้

การเปิดคลังหนังสือเก่าแก่หลายศตวรรษอาจเป็นแหล่งข้อมูลสำคัญสำหรับบริษัทเทคโนโลยีที่กำลังเผชิญกับคดีฟ้องร้องจากนักเขียน ศิลปิน และผู้สร้างสรรค์อื่นๆ ที่ผลงานถูกนำไปใช้โดยไม่ได้รับความยินยอมเพื่อฝึกฝน AI แชทบอท

"เป็นการตัดสินใจที่รอบคอบที่จะเริ่มต้นด้วยข้อมูลสาธารณะ เพราะมีความขัดแย้งน้อยกว่าเนื้อหาที่ยังอยู่ภายใต้ลิขสิทธิ์" เบอร์ตัน เดวิส รองที่ปรึกษาทั่วไปของไมโครซอฟท์กล่าว

เดวิสยังระบุว่าห้องสมุดเหล่านี้มี "ข้อมูลทางวัฒนธรรม ประวัติศาสตร์ และภาษาที่น่าสนใจจำนวนมาก" ที่ไม่มีอยู่ในความคิดเห็นออนไลน์ที่ AI แชทบอทส่วนใหญ่ได้เรียนรู้ในช่วงที่ผ่านมา ความกังวลเรื่องการขาดแคลนข้อมูลทำให้นักพัฒนา AI บางส่วนหันไปใช้ข้อมูล "สังเคราะห์" ที่สร้างโดยแชทบอทเอง ซึ่งมีคุณภาพด้อยกว่า

Institutional Data Initiative ที่ตั้งอยู่ที่ฮาร์วาร์ด ซึ่งได้รับการสนับสนุนจาก "ของขวัญที่ไม่มีข้อจำกัด" จากไมโครซอฟท์และ OpenAI ผู้สร้าง ChatGPT กำลังร่วมมือกับห้องสมุดและพิพิธภัณฑ์ทั่วโลกเพื่อทำให้คอลเลกชันประวัติศาสตร์พร้อมสำหรับการใช้งานกับ AI ในรูปแบบที่เป็นประโยชน์ต่อชุมชน

"เรากำลังพยายามโอนอำนาจบางส่วนจากยุค AI ปัจจุบันกลับไปยังสถาบันเหล่านี้" อริสตานา สคูร์ทาส ผู้จัดการงานวิจัยที่ห้องปฏิบัติการนวัตกรรมห้องสมุดของโรงเรียนกฎหมายฮาร์วาร์ดกล่าว "บรรณารักษ์เป็นผู้ดูแลข้อมูลและสารสนเทศมาตลอด"

ชุดข้อมูล Institutional Books 1.0 ของฮาร์วาร์ดที่เพิ่งเปิดตัวมีมากกว่า 394 ล้านหน้าที่สแกนจากกระดาษ หนึ่งในงานที่เก่าแก่ที่สุดมาจากศตวรรษที่ 15 เป็นบันทึกลายมือของจิตรกรชาวเกาหลีเกี่ยวกับการปลูกดอกไม้และต้นไม้ ผลงานส่วนใหญ่มาจากศตวรรษที่ 19 ครอบคลุมหัวข้อต่างๆ เช่น วรรณกรรม ปรัชญา กฎหมาย และการเกษตร ทั้งหมดได้รับการเก็บรักษาและจัดระเบียบอย่างพิถีพิถันโดยบรรณารักษ์หลายรุ่น

ชุดข้อมูลนี้มีศักยภาพอย่างมากสำหรับนักพัฒนา AI ที่ต้องการปรับปรุงความแม่นยำและความน่าเชื่อถือของระบบ

"ข้อมูลจำนวนมากที่ใช้ในการฝึกฝน AI ไม่ได้มาจากแหล่งที่มาดั้งเดิม" เกรก เลพเพิร์ต ผู้อำนวยการบริหารของ Data Initiative และหัวหน้าเทคโนโลยีที่ศูนย์ Berkman Klein Center for Internet & Society ของฮาร์วาร์ดกล่าว คอลเลกชันหนังสือนี้ย้อนกลับไป "ถึงสำเนาทางกายภาพที่ถูกสแกนโดยสถาบันที่เก็บรวบรวมรายการเหล่านั้นจริงๆ"

ก่อนที่ ChatGPT จะสร้างกระแสความนิยม AI เชิงพาณิชย์ นักวิจัย AI ส่วนใหญ่ไม่ได้คำนึงถึงแหล่งที่มาของข้อความที่พวกเขาดึงมาจาก Wikipedia, Reddit หรือแม้แต่คลังหนังสือละเมิดลิขสิทธิ์ พวกเขาเพียงต้องการ tokens จำนวนมาก ซึ่งเป็นหน่วยข้อมูลที่แต่ละหน่วยแทนส่วนของคำได้

คอลเลกชันการฝึกฝน AI ใหม่ของฮาร์วาร์ดมี tokens ประมาณ 242 พันล้าน ซึ่งเป็นจำนวนมหาศาล แต่ยังเป็นเพียงส่วนเล็กๆ ของสิ่งที่ถูกป้อนเข้าไปในระบบ AI ที่ล้ำสมัยที่สุด Meta ผู้ให้บริการ Facebook ได้กล่าวว่าโมเดลภาษาขนาดใหญ่ล่าสุดของพวกเขาได้รับการฝึกฝนด้วย tokens มากกว่า 30 ล้านล้านจากข้อความ รูปภาพ และวิดีโอ

Meta เองก็กำลังเผชิญกับคดีฟ้องร้องจากนักแสดงตลก Sarah Silverman และนักเขียนคนอื่นๆ ที่กล่าวหาว่าบริษัทขโมยหนังสือของพวกเขาจาก "ห้องสมุดเงา" ที่ละเมิดลิขสิทธิ์

ตอนนี้ ห้องสมุดจริงๆ กำลังเข้ามามีบทบาท แม้จะมีข้อจำกัดบางประการ

OpenAI ซึ่งกำลังต่อสู้กับคดีฟ้องร้องเรื่องลิขสิทธิ์หลายคดี บริจาคเงิน 50 ล้านดอลลาร์ในปีนี้ให้กับกลุ่มสถาบันวิจัยรวมถึงห้องสมุด Bodleian อายุ 400 ปีของมหาวิทยาลัยออกซ์ฟอร์ด ซึ่งกำลังแปลงข้อความหายากเป็นดิจิทัลและใช้ AI ช่วยในการถอดความ

เมื่อ OpenAI ติดต่อห้องสมุดสาธารณะบอสตัน ซึ่งเป็นหนึ่งในห้องสมุดที่ใหญ่ที่สุดในสหรัฐฯ ห้องสมุดได้กำหนดเงื่อนไขว่าข้อมูลที่แปลงเป็นดิจิทัลจะต้องเป็นประโยชน์กับทุกคน เจสสิก้า ชาเพล หัวหน้าฝ่ายบริการดิจิทัลและออนไลน์กล่าว

"OpenAI ต้องการข้อมูลการฝึกฝนจำนวนมาก เราต้องการวัตถุดิจิทัลจำนวนมาก นี่จึงเป็นกรณีที่ผลประโยชน์สอดคล้องกัน" ชาเพลกล่าว

การแปลงเป็นดิจิทัลมีค่าใช้จ่ายสูงและต้องใช้แรงงานมาก เช่น การสแกนหนังสือพิมพ์ภาษาฝรั่งเศสของนิวอิงแลนด์หลายสิบฉบับที่เป็นที่นิยมในหมู่ผู้อพยพชาวแคนาดาจากควิเบกในช่วงปลายศตวรรษที่ 19 และต้นศตวรรษที่ 20 ตอนนี้ข้อความเหล่านี้มีค่าในฐานะข้อมูลการฝึกฝน จึงช่วยสนับสนุนโครงการที่บรรณารักษ์ต้องการทำอยู่แล้ว

คอลเลกชันของฮาร์วาร์ดถูกแปลงเป็นดิจิทัลตั้งแต่ปี 2006 โดย Google ในโครงการที่มีการถกเถียงเพื่อสร้างห้องสมุดออนไลน์ที่ค้นหาได้ซึ่งมีหนังสือมากกว่า 20 ล้านเล่ม

Google ใช้เวลาหลายปีต่อสู้คดีกับนักเขียนเกี่ยวกับห้องสมุดหนังสือออนไลน์ ซึ่งรวมถึงผลงานที่ยังมีลิขสิทธิ์ ในที่สุดคดียุติในปี 2016 เมื่อศาลฎีกาสหรัฐฯ ยอมให้คำตัดสินของศาลล่างที่ปฏิเสธข้อกล่าวหาเรื่องการละเมิดลิขสิทธิ์มีผลบังคับใช้

ตอนนี้ เป็นครั้งแรกที่ Google ร่วมมือกับฮาร์วาร์ดเพื่อนำหนังสือที่เป็นสาธารณสมบัติจาก Google Books มาเผยแพร่ให้นักพัฒนา AI การคุ้มครองลิขสิทธิ์ในสหรัฐฯ โดยทั่วไปมีอายุ 95 ปี และนานกว่านั้นสำหรับการบันทึกเสียง

ความพยายามใหม่นี้ได้รับการชื่นชมจากกลุ่มนักเขียนที่เคยฟ้อง Google เกี่ยวกับโครงการหนังสือและล่าสุดได้ฟ้องบริษัท AI

"หนังสือเหล่านี้มีอยู่เฉพาะในห้องสมุดใหญ่ๆ และการสร้างและใช้ชุดข้อมูลนี้จะช่วยให้เข้าถึงหนังสือและความรู้ภายในได้มากขึ้น" แมรี่ ราเซนเบอร์เกอร์ ซีอีโอของ Authors Guild กล่าวในแถลงการณ์ "ที่สำคัญ การสร้างชุดข้อมูลการฝึกฝนขนาดใหญ่ที่ถูกกฎหมายจะทำให้การสร้างโมเดล AI ใหม่เป็นประชาธิปไตยมากขึ้น"

ยังไม่ชัดเจนว่าข้อมูลที่เผยแพร่บนแพลตฟอร์ม Hugging Face ในวันพฤหัสบดีจะมีประโยชน์มากเพียงใดสำหรับเครื่องมือ AI รุ่นต่อไป

คอลเลกชันหนังสือมีความหลากหลายทางภาษามากกว่าแหล่งข้อมูล AI ทั่วไป น้อยกว่าครึ่งของหนังสือเป็นภาษาอังกฤษ แม้ว่าภาษายุโรปยังเป็นหลัก โดยเฉพาะภาษาเยอรมัน ฝรั่งเศส อิตาลี สเปน และละติน

คอลเลกชันหนังสือที่เต็มไปด้วยความคิดในศตวรรษที่ 19 อาจ "มีความสำคัญอย่างยิ่ง" สำหรับความพยายามของอุตสาหกรรมเทคโนโลยีในการสร้างเอเจนต์ AI ที่สามารถวางแผนและให้เหตุผลได้ดีเท่ามนุษย์ เลพเพิร์ตกล่าว

"ในมหาวิทยาลัย คุณมีวิธีการสอนมากมายเกี่ยวกับความหมายของการให้เหตุผล คุณมีข้อมูลทางวิทยาศาสตร์มากมายเกี่ยวกับวิธีการดำเนินกระบวนการและวิธีการวิเคราะห์"

อย่างไรก็ตาม ก็มีข้อมูลที่ล้าสมัยมากมาย ตั้งแต่ทฤษฎีทางวิทยาศาสตร์และการแพทย์ที่ถูกหักล้างไปจนถึงเรื่องเล่าที่เกี่ยวกับการเหยียดเชื้อชาติและอาณานิคม

"เมื่อคุณจัดการกับชุดข้อมูลขนาดใหญ่มาก มีประเด็นที่ซับซ้อนบางประการเกี่ยวกับเนื้อหาและภาษาที่เป็นอันตราย" คริสตี มุคค์ ผู้ประสานงานที่ห้องปฏิบัติการนวัตกรรมห้องสมุดของฮาร์วาร์ดกล่าว โครงการนี้กำลังพยายามให้คำแนะนำเกี่ยวกับการลดความเสี่ยงของการใช้ข้อมูล เพื่อ "ช่วยให้ผู้ใช้ตัดสินใจอย่างมีข้อมูลและใช้ AI อย่างรับผิดชอบ"

The Associated Press และ OpenAI มีข้อตกลงด้านการอนุญาตและเทคโนโลยีที่อนุญาตให้ OpenAI เข้าถึงส่วนหนึ่งของคลังข้อความของ AP

Why it matters

💡 ข่าวนี้มีความสำคัญอย่างยิ่งสำหรับผู้ที่สนใจพัฒนาการของ AI และผลกระทบต่ออนาคตของเทคโนโลยี เนื่องจากเป็นการเปิดเผยถึงความร่วมมือครั้งสำคัญระหว่างสถาบันการศึกษาชั้นนำอย่างฮาร์วาร์ดกับบริษัทเทคโนโลยียักษ์ใหญ่ ในการนำคลังความรู้กว่าล้านเล่มมาใช้พัฒนา AI ซึ่งจะช่วยยกระดับความสามารถของ AI ให้มีความเข้าใจที่ลึกซึ้งและหลากหลายมากขึ้น โดยเฉพาะในแง่มุมทางประวัติศาสตร์และวัฒนธรรม ที่สำคัญคือการดำเนินการนี้เป็นไปอย่างถูกกฎหมายและโปร่งใส

ข้อมูลอ้างอิงจาก https://apnews.com/article/ai-chatbot-training-data-libraries-idi-e096a81a4fceb2951f232a33ac767f53?utm_source=flipboard&utm_content=topic%2Fartificialintelligence

Read more

อเมซอนเปิดตัวต้นแบบแว่นตาอัจฉริยะ AI สำหรับพนักงานส่งของ

news

อเมซอนเปิดตัวต้นแบบแว่นตาอัจฉริยะ AI สำหรับพนักงานส่งของ

Amazon เปิดตัวแว่นตาอัจฉริยะ Amelia ที่ใช้ AI ช่วยพนักงานส่งของทำงานได้มีประสิทธิภาพมากขึ้น มาพร้อมกล้องและจอแสดงผลในตัว ทำงานร่วมกับเสื้อกั๊กพิเศษ กำลังทดสอบกับพันธมิตรหลายราย

By
Meta ปลดพนักงาน 600 ตำแหน่งในห้องปฏิบัติการ AI Superintelligence

news

Meta ปลดพนักงาน 600 ตำแหน่งในห้องปฏิบัติการ AI Superintelligence

Meta ประกาศปลดพนักงาน 600 ตำแหน่งในแผนก Superintelligence Labs เพื่อลดความซับซ้อนขององค์กร แต่ยืนยันว่ายังคงให้ความสำคัญกับการพัฒนา AI และจะเร่งจ้างนักวิจัยใหม่ในทีม TBD

By
Target ใช้ AI สร้างความแตกต่างในธุรกิจค้าปลีก

news

Target ใช้ AI สร้างความแตกต่างในธุรกิจค้าปลีก

Target เดินหน้าใช้ AI ปฏิวัติธุรกิจค้าปลีก ผ่านแพลตฟอร์ม Target Trend Brain วิเคราะห์เทรนด์ตลาด พร้อมพัฒนาระบบคัดกรองผู้ขายและยกระดับทักษะพนักงานทั่วองค์กร เพื่อสร้างความแตกต่างในตลาด

By
Claude เชื่อมต่อโดยตรงกับ Microsoft 365 แล้วตอนนี้

news

Claude เชื่อมต่อโดยตรงกับ Microsoft 365 แล้วตอนนี้

Claude AI จาก Anthropic เปิดตัวตัวเชื่อมต่อ Microsoft 365 ใหม่ ช่วยให้ผู้ใช้สามารถใช้งาน AI ร่วมกับแอปพลิเคชัน Microsoft ได้โดยตรง พร้อมฟีเจอร์ Enterprise Search สำหรับการค้นหาข้อมูลองค์กรแบบครบวงจร

By