Tolan สร้าง AI ที่ใช้เสียงเป็นหลักด้วย GPT-5.1

Tolan ใช้ GPT-5.1 พัฒนา AI companion ที่ขับเคลื่อนด้วยเสียง มุ่งเน้นการตอบสนองรวดเร็ว ความเข้าใจบริบทแม่นยำ และบุคลิกภาพที่คงเส้นคงวา ด้วยระบบความจำอัจฉริยะและการออกแบบตัวละครที่มีเอกลักษณ์

Tolan สร้าง AI ที่ใช้เสียงเป็นหลักด้วย GPT-5.1

Key takeaway

  • Tolan พัฒนา AI ที่ใช้เสียงเป็นหลักโดยใช้ GPT-5.1 ที่มีความล่าช้าต่ำ (latency ต่ำกว่า 0.7 วินาที) และมีระบบความจำอัจฉริยะที่ช่วยให้ AI รักษาบุคลิกภาพและบริบทการสนทนาได้อย่างต่อเนื่อง
  • สถาปัตยกรรมของ Tolan สร้าง context window ใหม่ในทุกรอบการสนทนาแทนการแคช prompt ทำให้สามารถปรับตัวได้ทันทีต่อการเปลี่ยนหัวข้อแบบฉับพลัน ซึ่งจำเป็นสำหรับการโต้ตอบด้วยเสียงที่เป็นธรรมชาติ
  • หลังจากเปิดตัวในกุมภาพันธ์ 2025 Tolan มีผู้ใช้งานประจำเดือนกว่า 200,000 คน ได้คะแนน 4.8 ดาวบน App Store และการเปลี่ยนไปใช้ GPT-5.1 ช่วยลดการพลาดการระลึกความจำลง 30% และเพิ่มอัตราการกลับมาใช้ของผู้ใช้ในวันถัดไปมากกว่า 20%

ด้วยการใช้ GPT-5.1 Tolan ได้พัฒนาแอปพลิเคชันที่ขับเคลื่อนด้วยเสียง ซึ่งมุ่งเน้นการตอบสนองที่รวดเร็ว (low latency) ความเข้าใจบริบทที่แม่นยำ และบุคลิกภาพที่คงเส้นคงวาตลอดการสนทนา

Tolan เป็น AI companion ที่ใช้เสียงเป็นหลัก ที่ผู้ใช้สามารถพูดคุยกับตัวละครแอนิเมชันแบบปรับแต่งได้ ซึ่งเรียนรู้จากการสนทนาอย่างต่อเนื่อง

พัฒนาโดย Portola ทีมผู้เชี่ยวชาญที่มากประสบการณ์ แอปนี้ถูกออกแบบมาสำหรับการสนทนาที่ต่อเนื่องและเปิดกว้าง มากกว่าการโต้ตอบแบบสั้นๆ "เราเห็นความสำเร็จของ ChatGPT และรู้ว่าเสียงคือพรมแดนถัดไป" Quinten Farmer ผู้ร่วมก่อตั้งและ CEO ของ Portola กล่าว "แต่เสียงยากกว่ามาก คุณไม่ได้แค่ตอบคำถาม แต่คุณกำลังมีส่วนร่วมในการสนทนาที่มีชีวิตชีวาและเปลี่ยนแปลงไปตลอดเวลา"

AI ที่ใช้เสียงเพิ่มความท้าทายด้านความล่าช้าและการจัดการบริบท แต่ก็เปิดโอกาสให้มีปฏิสัมพันธ์ที่เปิดกว้างและลึกซึ้งมากกว่าแบบข้อความ

ด้วย foundation models ที่เร็วขึ้น ราคาถูกลง และมีความสามารถมากขึ้น ทีมจึงมุ่งเน้นไปที่สองปัจจัยหลัก: ระบบความจำและการออกแบบตัวละคร Portola สร้างจักรวาลของตัวละครที่มีเอกลักษณ์ ออกแบบโดยนักแอนิเมชันที่ได้รับรางวัลและนักเขียนนิยายวิทยาศาสตร์ โดยใช้ระบบจัดการบริบทแบบเรียลไทม์เพื่อรักษาบุคลิกภาพและความทรงจำให้สอดคล้องกันตลอดการสนทนา

การเปิดตัวโมเดล GPT-5.1 เป็นจุดเปลี่ยนสำคัญ ที่มอบความสามารถในการควบคุมและความเร็วที่ดีขึ้นอย่างมาก ช่วยให้ประสบการณ์การใช้เสียงมีความตอบสนองและน่าสนใจมากขึ้น

"GPT-5.1 ให้ความสามารถในการควบคุมที่ทำให้เราสร้างตัวละครที่ต้องการได้อย่างแท้จริง มันไม่เพียงฉลาดขึ้นเท่านั้น แต่ยังซื่อสัตย์ต่อโทนและบุคลิกภาพที่เราต้องการสร้างมากขึ้น"

สถาปัตยกรรมของ Tolan ถูกออกแบบตามความต้องการของอินเทอร์เฟซเสียง ผู้ใช้เสียงคาดหวังการตอบสนองที่รวดเร็วและเป็นธรรมชาติ แม้ในขณะที่การสนทนาเปลี่ยนทิศทางกลางคัน Tolan ต้องตอบสนองอย่างรวดเร็ว ติดตามหัวข้อที่เปลี่ยนแปลง และรักษาบุคลิกภาพที่สม่ำเสมอโดยไม่มีความล่าช้าหรือการเปลี่ยนโทนเสียง

เพื่อให้รู้สึกเป็นธรรมชาติ การสนทนาต้องมีความล่าช้าน้อยที่สุด การนำ OpenAI GPT-5.1 และ Responses API มาใช้ช่วยลดเวลาในการเริ่มพูดลงต่ำกว่า 0.7 วินาที ซึ่งเพียงพอที่จะปรับปรุงความลื่นไหลของการสนทนาอย่างเห็นได้ชัด

สิ่งที่สำคัญไม่แพ้กันคือวิธีที่ระบบจัดการกับบริบท ต่างจาก agent อื่นๆ ที่แคช prompt ข้ามหลายรอบ Tolan สร้าง context window ใหม่จากศูนย์ในทุกรอบการสนทนา การสร้างบริบทใหม่แต่ละครั้งจะดึงข้อมูลสรุปของข้อความล่าสุด, persona card, ความทรงจำที่ดึงมาจาก vector, คำแนะนำเกี่ยวกับโทนเสียง และสัญญาณแอปแบบเรียลไทม์ สถาปัตยกรรมนี้ช่วยให้ Tolan ปรับตัวได้ทันทีต่อการเปลี่ยนหัวข้อแบบฉับพลัน ซึ่งเป็นสิ่งจำเป็นสำหรับการโต้ตอบด้วยเสียงที่เป็นธรรมชาติ

"เรารู้อย่างรวดเร็วว่าการแคช prompt ไม่เพียงพอ" Quinten กล่าว "ผู้ใช้เปลี่ยนหัวข้อตลอดเวลา เพื่อให้รู้สึกราบรื่น ระบบต้องปรับตัวได้ในระหว่างการสนทนา"

วิธีการสร้างบริบทใหม่แบบเรียลไทม์นี้ทั้งซับซ้อนทางเทคนิคและเป็นพื้นฐานสำคัญสำหรับความสำเร็จของ Tolan

การจัดการบริบทเป็นสิ่งสำคัญ แต่ยังไม่เพียงพอที่จะทำให้การสนทนารู้สึกเชื่อมโยงกันอย่างต่อเนื่อง เพื่อรองรับการสนทนาที่ยาวและไม่เป็นเส้นตรง Tolan ได้สร้างระบบความจำที่เก็บไม่เพียงแค่ข้อเท็จจริงและความชอบ แต่ยังรวมถึงสัญญาณ "vibe" ทางอารมณ์ ซึ่งเป็นเบาะแสที่ชี้นำวิธีที่ Tolan ควรตอบสนอง

ความทรงจำถูกฝังตัวโดยใช้โมเดล OpenAI text-embedding-3-large และเก็บไว้ใน Turbopuffer ฐานข้อมูล vector ความเร็วสูงที่ให้เวลาค้นหาต่ำกว่า 50ms ความเร็วนี้จำเป็นสำหรับการโต้ตอบด้วยเสียงแบบเรียลไทม์ ในแต่ละรอบ Tolan ใช้ข้อความล่าสุดของผู้ใช้และคำถามที่สังเคราะห์โดยระบบ (เช่น "ผู้ใช้แต่งงานกับใคร?") เพื่อกระตุ้นการระลึกความทรงจำ เพื่อรักษาคุณภาพของความจำให้สูง Tolan ทำงานบีบอัดข้อมูลในตอนกลางคืนที่ลบรายการที่มีคุณค่าต่ำหรือซ้ำซ้อน (เช่น "ผู้ใช้ดื่มกาแฟวันนี้") และแก้ไขข้อขัดแย้ง

บุคลิกภาพได้รับการจัดการอย่างพิถีพิถันเช่นกัน แต่ละ Tolan เริ่มต้นด้วยโครงร่างตัวละครที่เป็นเอกลักษณ์ เขียนโดยนักเขียนนิยายวิทยาศาสตร์ภายในทีมและปรับแต่งโดยนักวิจัยพฤติกรรม เมล็ดพันธุ์เหล่านี้ให้ความสม่ำเสมอกับ Tolan แต่ยังมีความยืดหยุ่นในการพัฒนาตลอดเวลา เติบโตไปพร้อมกับผู้ใช้

ระบบคู่ขนานตรวจสอบโทนทางอารมณ์ของการสนทนาและปรับการตอบสนองของ Tolan แบบไดนามิก ซึ่งช่วยให้ Tolan เปลี่ยนจากการเล่นสนุกเป็นจริงจังได้อย่างราบรื่นตามสัญญาณของผู้ใช้ โดยไม่สูญเสียบุคลิกภาพหลัก

การเปลี่ยนไปใช้ GPT-5.1 เป็นจุดเปลี่ยนสำคัญ ทันใดนั้น คำสั่ง prompt ที่ซับซ้อน—โครงสร้างโทนเสียง, การนำเข้าความทรงจำ, ลักษณะตัวละคร—ถูกปฏิบัติตามอย่างแม่นยำมากขึ้น Prompt ที่เคยต้องใช้วิธีแก้ปัญหาเฉพาะหน้าเริ่มทำงานได้ตามที่ตั้งใจ

"เป็นครั้งแรกที่ผู้เชี่ยวชาญของเรารู้สึกว่าโมเดลกำลังฟังอย่างแท้จริง" Quinten กล่าว "คำแนะนำยังคงมีผลตลอดการสนทนาที่ยาวนาน ลักษณะของตัวละครได้รับการเคารพ และเราพบการเบี่ยงเบนน้อยลงอย่างเห็นได้ชัด"

การเปลี่ยนแปลงเหล่านั้นรวมกันเป็นบุคลิกภาพที่สอดคล้องและน่าเชื่อถือมากขึ้น ซึ่งสร้างประสบการณ์ผู้ใช้ที่น่าประทับใจยิ่งขึ้น ทีม Tolan เห็นผลลัพธ์ที่ชัดเจนและวัดผลได้: การพลาดการระลึกความจำลดลง 30% (จากสัญญาณความคับข้องใจในผลิตภัณฑ์) และการกลับมาใช้ของผู้ใช้ในวันถัดไปเพิ่มขึ้นมากกว่า 20% หลังจากเปิดตัวตัวละครที่ขับเคลื่อนด้วย GPT-5.1

เมื่อ Tolan พัฒนาขึ้น หลักการสำคัญบางประการได้ปรากฏขึ้นซึ่งตอนนี้เป็นแนวทางในการสร้างและพัฒนาสถาปัตยกรรมเสียง:

  1. ออกแบบสำหรับความผันผวนของการสนทนา: การสนทนาด้วยเสียงเปลี่ยนกลางคันได้เสมอ ระบบต้องปรับเปลี่ยนอย่างรวดเร็วเพื่อให้รู้สึกเป็นธรรมชาติ
  2. ถือว่าความล่าช้าเป็นส่วนสำคัญของประสบการณ์ผลิตภัณฑ์: การตอบสนองที่เร็วกว่าหนึ่งวินาทีเป็นตัวกำหนดว่า AI เสียงจะรู้สึกเหมือนการสนทนาจริงหรือเป็นเพียงเครื่องจักร
  3. สร้างความจำเป็นระบบการเรียกคืน ไม่ใช่แค่บันทึก: การบีบอัดคุณภาพสูงและการค้นหา vector ที่รวดเร็วให้บุคลิกภาพที่สอดคล้องกันมากกว่าการใช้ context window ขนาดใหญ่
  4. สร้างบริบทใหม่ทุกรอบ: อย่าแก้ปัญหาการเบี่ยงเบนด้วย prompt ที่ใหญ่ขึ้น การสร้างบริบทใหม่ในแต่ละรอบช่วยให้ agent มีพื้นฐานที่มั่นคงขณะที่การสนทนาเปลี่ยนไป

บทเรียนเหล่านี้รวมกันเป็นพื้นฐานสำหรับนวัตกรรมระยะต่อไปของ Tolan และกำหนดทิศทางสำหรับอนาคตของ AI เสียง

นับตั้งแต่เปิดตัวในเดือนกุมภาพันธ์ 2025 Tolan เติบโตถึงกว่า 200,000 ผู้ใช้งานประจำเดือน คะแนน 4.8 ดาวและรีวิวใน App Store มากกว่า 100,000 รายการแสดงให้เห็นว่าระบบรักษาความสอดคล้องในการสนทนาที่ยาวและเปลี่ยนแปลงได้ดีเพียงใด ผู้รีวิวรายหนึ่งกล่าวว่า "พวกเขาจำสิ่งที่เราคุยกันเมื่อสองวันก่อนและนำกลับมาในการสนทนาที่เรากำลังมีวันนี้"

สัญญาณความสำเร็จเหล่านี้สอดคล้องโดยตรงกับสถาปัตยกรรมพื้นฐาน: การเรียกใช้โมเดลที่มีความล่าช้าต่ำ, การสร้างบริบทใหม่ในแต่ละรอบ, และระบบความจำและตัวละครแบบโมดูลาร์ ร่วมกันช่วยให้ Tolan ติดตามการเปลี่ยนแปลงหัวข้อ รักษาโทนเสียง และสร้างการตอบสนองที่มีความหมายโดยไม่ต้องพึ่งพา prompt ขนาดใหญ่ที่เปราะบาง

มองไปข้างหน้า Tolan วางแผนที่จะลงทุนเพิ่มเติมในการปรับแต่งและพัฒนาระบบความจำ โดยมุ่งเน้นไปที่การบีบอัดข้อมูลที่มีประสิทธิภาพยิ่งขึ้น ตรรกะการเรียกคืนที่ชาญฉลาดขึ้น และการปรับแต่งตัวละครที่หลากหลายมากขึ้น เป้าหมายระยะยาวคือการขยายขอบเขตของอินเทอร์เฟซเสียง: ไม่เพียงแค่ตอบสนอง แต่รับรู้บริบทและมีพลวัตในการสนทนาอย่างแท้จริง

"พรมแดนถัดไป" Quinten กล่าว "คือการสร้าง voice agent ที่ไม่เพียงแค่ตอบสนอง แต่เป็น multimodal อย่างแท้จริง สามารถผสานเสียง การมองเห็น และบริบทเข้าด้วยกันเป็นระบบเดียวที่ควบคุมได้อย่างสมบูรณ์"

Why it matters

💡 ข่าวนี้น่าสนใจอย่างยิ่งสำหรับผู้ที่ติดตามความก้าวหน้าด้าน AI เสียง เพราะ Tolan ได้พัฒนาแอปพลิเคชันที่ใช้ GPT-5.1 สร้างประสบการณ์สนทนาที่เป็นธรรมชาติมากขึ้น ด้วยความล่าช้าต่ำกว่า 0.7 วินาที และระบบความจำอัจฉริยะที่ช่วยให้ AI จดจำบทสนทนาได้อย่างต่อเนื่อง นวัตกรรมนี้แสดงให้เห็นถึงอนาคตของการโต้ตอบระหว่างมนุษย์กับ AI ที่ลื่นไหลและมีความหมายมากขึ้น ซึ่งจะเปลี่ยนวิธีที่เราใช้เทคโนโลยีในชีวิตประจำวัน

ข้อมูลอ้างอิงจาก https://openai.com/index/tolan

Read more

ส่วนขยายปลอม AI ของ Chrome ขโมยข้อมูลผู้ใช้กว่า 900,000 ราย

news

ส่วนขยายปลอม AI ของ Chrome ขโมยข้อมูลผู้ใช้กว่า 900,000 ราย

Ox Security เปิดโปงส่วนขยาย Chrome อันตรายที่ปลอมเป็น AI ขโมยข้อมูลสนทนา ChatGPT, DeepSeek และประวัติการท่องเว็บจากผู้ใช้กว่า 900,000 ราย ข้อมูลที่ถูกขโมยอาจถูกนำไปใช้ในการจารกรรม ฟิชชิ่ง หรือขายในตลาดมืด

By
ความเสี่ยงร้ายแรงจาก Executive Order ของ Trump ที่จำกัดการควบคุม AI โดยรัฐ

news

ความเสี่ยงร้ายแรงจาก Executive Order ของ Trump ที่จำกัดการควบคุม AI โดยรัฐ

ประธานาธิบดีทรัมป์ลงนามคำสั่งบริหารยกเลิกกฎหมาย AI ระดับรัฐที่มองว่าเป็นอุปสรรคต่อนวัตกรรม สั่งตั้งทีมคดีความท้าทายกฎหมายที่ไม่สอดคล้อง และระงับทุนจากรัฐที่ออกกฎหมาย "เป็นภาระ" ส่งผลกระทบต่อกฎหมาย AI ในโคโลราโด แคลิฟอร์เนีย เท็กซัส และยูทาห์

By
xAI ของ Elon Musk ระดมทุนได้ 20 พันล้านดอลลาร์ ท่ามกลางปัญหา Grok สร้างภาพ Deepfake ทางเพศ

news

xAI ของ Elon Musk ระดมทุนได้ 20 พันล้านดอลลาร์ ท่ามกลางปัญหา Grok สร้างภาพ Deepfake ทางเพศ

บริษัท xAI ของ Elon Musk ระดมทุนได้ 20 พันล้านดอลลาร์จากนักลงทุนชั้นนำ ท่ามกลางวิกฤตที่ Grok ถูกใช้สร้างภาพ deepfake ทางเพศโดยไม่ได้รับความยินยอม สร้างภาพลามกประมาณ 6,700 ภาพต่อชั่วโมง แม้เผชิญปัญหาแต่นักลงทุนยังคงเชื่อมั่น

By
ซัมซุงคาดการณ์กำไรทำลายสถิติจากความต้องการชิป AI ที่พุ่งสูงขึ้น

news

ซัมซุงคาดการณ์กำไรทำลายสถิติจากความต้องการชิป AI ที่พุ่งสูงขึ้น

ซัมซุงคาดการณ์กำไรทำลายสถิติที่ 20 ล้านล้านวอนในไตรมาส 4 เพิ่มขึ้นสามเท่าจากปีก่อน เนื่องจากความต้องการชิปหน่วยความจำสำหรับ AI พุ่งสูง ราคาชิป DRAM เพิ่มขึ้น 313% ขณะที่บริษัทเร่งขยายกำลังการผลิตเพื่อตอบสนองตลาดที่เติบโตอย่างรวดเร็ว

By