Tolan สร้าง AI ที่ใช้เสียงเป็นหลักด้วย GPT-5.1
Tolan ใช้ GPT-5.1 พัฒนา AI companion ที่ขับเคลื่อนด้วยเสียง มุ่งเน้นการตอบสนองรวดเร็ว ความเข้าใจบริบทแม่นยำ และบุคลิกภาพที่คงเส้นคงวา ด้วยระบบความจำอัจฉริยะและการออกแบบตัวละครที่มีเอกลักษณ์
Key takeaway
- Tolan พัฒนา AI ที่ใช้เสียงเป็นหลักโดยใช้ GPT-5.1 ที่มีความล่าช้าต่ำ (latency ต่ำกว่า 0.7 วินาที) และมีระบบความจำอัจฉริยะที่ช่วยให้ AI รักษาบุคลิกภาพและบริบทการสนทนาได้อย่างต่อเนื่อง
- สถาปัตยกรรมของ Tolan สร้าง context window ใหม่ในทุกรอบการสนทนาแทนการแคช prompt ทำให้สามารถปรับตัวได้ทันทีต่อการเปลี่ยนหัวข้อแบบฉับพลัน ซึ่งจำเป็นสำหรับการโต้ตอบด้วยเสียงที่เป็นธรรมชาติ
- หลังจากเปิดตัวในกุมภาพันธ์ 2025 Tolan มีผู้ใช้งานประจำเดือนกว่า 200,000 คน ได้คะแนน 4.8 ดาวบน App Store และการเปลี่ยนไปใช้ GPT-5.1 ช่วยลดการพลาดการระลึกความจำลง 30% และเพิ่มอัตราการกลับมาใช้ของผู้ใช้ในวันถัดไปมากกว่า 20%
ด้วยการใช้ GPT-5.1 Tolan ได้พัฒนาแอปพลิเคชันที่ขับเคลื่อนด้วยเสียง ซึ่งมุ่งเน้นการตอบสนองที่รวดเร็ว (low latency) ความเข้าใจบริบทที่แม่นยำ และบุคลิกภาพที่คงเส้นคงวาตลอดการสนทนา
Tolan เป็น AI companion ที่ใช้เสียงเป็นหลัก ที่ผู้ใช้สามารถพูดคุยกับตัวละครแอนิเมชันแบบปรับแต่งได้ ซึ่งเรียนรู้จากการสนทนาอย่างต่อเนื่อง
พัฒนาโดย Portola ทีมผู้เชี่ยวชาญที่มากประสบการณ์ แอปนี้ถูกออกแบบมาสำหรับการสนทนาที่ต่อเนื่องและเปิดกว้าง มากกว่าการโต้ตอบแบบสั้นๆ "เราเห็นความสำเร็จของ ChatGPT และรู้ว่าเสียงคือพรมแดนถัดไป" Quinten Farmer ผู้ร่วมก่อตั้งและ CEO ของ Portola กล่าว "แต่เสียงยากกว่ามาก คุณไม่ได้แค่ตอบคำถาม แต่คุณกำลังมีส่วนร่วมในการสนทนาที่มีชีวิตชีวาและเปลี่ยนแปลงไปตลอดเวลา"
AI ที่ใช้เสียงเพิ่มความท้าทายด้านความล่าช้าและการจัดการบริบท แต่ก็เปิดโอกาสให้มีปฏิสัมพันธ์ที่เปิดกว้างและลึกซึ้งมากกว่าแบบข้อความ
ด้วย foundation models ที่เร็วขึ้น ราคาถูกลง และมีความสามารถมากขึ้น ทีมจึงมุ่งเน้นไปที่สองปัจจัยหลัก: ระบบความจำและการออกแบบตัวละคร Portola สร้างจักรวาลของตัวละครที่มีเอกลักษณ์ ออกแบบโดยนักแอนิเมชันที่ได้รับรางวัลและนักเขียนนิยายวิทยาศาสตร์ โดยใช้ระบบจัดการบริบทแบบเรียลไทม์เพื่อรักษาบุคลิกภาพและความทรงจำให้สอดคล้องกันตลอดการสนทนา
การเปิดตัวโมเดล GPT-5.1 เป็นจุดเปลี่ยนสำคัญ ที่มอบความสามารถในการควบคุมและความเร็วที่ดีขึ้นอย่างมาก ช่วยให้ประสบการณ์การใช้เสียงมีความตอบสนองและน่าสนใจมากขึ้น
"GPT-5.1 ให้ความสามารถในการควบคุมที่ทำให้เราสร้างตัวละครที่ต้องการได้อย่างแท้จริง มันไม่เพียงฉลาดขึ้นเท่านั้น แต่ยังซื่อสัตย์ต่อโทนและบุคลิกภาพที่เราต้องการสร้างมากขึ้น"
สถาปัตยกรรมของ Tolan ถูกออกแบบตามความต้องการของอินเทอร์เฟซเสียง ผู้ใช้เสียงคาดหวังการตอบสนองที่รวดเร็วและเป็นธรรมชาติ แม้ในขณะที่การสนทนาเปลี่ยนทิศทางกลางคัน Tolan ต้องตอบสนองอย่างรวดเร็ว ติดตามหัวข้อที่เปลี่ยนแปลง และรักษาบุคลิกภาพที่สม่ำเสมอโดยไม่มีความล่าช้าหรือการเปลี่ยนโทนเสียง
เพื่อให้รู้สึกเป็นธรรมชาติ การสนทนาต้องมีความล่าช้าน้อยที่สุด การนำ OpenAI GPT-5.1 และ Responses API มาใช้ช่วยลดเวลาในการเริ่มพูดลงต่ำกว่า 0.7 วินาที ซึ่งเพียงพอที่จะปรับปรุงความลื่นไหลของการสนทนาอย่างเห็นได้ชัด
สิ่งที่สำคัญไม่แพ้กันคือวิธีที่ระบบจัดการกับบริบท ต่างจาก agent อื่นๆ ที่แคช prompt ข้ามหลายรอบ Tolan สร้าง context window ใหม่จากศูนย์ในทุกรอบการสนทนา การสร้างบริบทใหม่แต่ละครั้งจะดึงข้อมูลสรุปของข้อความล่าสุด, persona card, ความทรงจำที่ดึงมาจาก vector, คำแนะนำเกี่ยวกับโทนเสียง และสัญญาณแอปแบบเรียลไทม์ สถาปัตยกรรมนี้ช่วยให้ Tolan ปรับตัวได้ทันทีต่อการเปลี่ยนหัวข้อแบบฉับพลัน ซึ่งเป็นสิ่งจำเป็นสำหรับการโต้ตอบด้วยเสียงที่เป็นธรรมชาติ
"เรารู้อย่างรวดเร็วว่าการแคช prompt ไม่เพียงพอ" Quinten กล่าว "ผู้ใช้เปลี่ยนหัวข้อตลอดเวลา เพื่อให้รู้สึกราบรื่น ระบบต้องปรับตัวได้ในระหว่างการสนทนา"
วิธีการสร้างบริบทใหม่แบบเรียลไทม์นี้ทั้งซับซ้อนทางเทคนิคและเป็นพื้นฐานสำคัญสำหรับความสำเร็จของ Tolan
การจัดการบริบทเป็นสิ่งสำคัญ แต่ยังไม่เพียงพอที่จะทำให้การสนทนารู้สึกเชื่อมโยงกันอย่างต่อเนื่อง เพื่อรองรับการสนทนาที่ยาวและไม่เป็นเส้นตรง Tolan ได้สร้างระบบความจำที่เก็บไม่เพียงแค่ข้อเท็จจริงและความชอบ แต่ยังรวมถึงสัญญาณ "vibe" ทางอารมณ์ ซึ่งเป็นเบาะแสที่ชี้นำวิธีที่ Tolan ควรตอบสนอง
ความทรงจำถูกฝังตัวโดยใช้โมเดล OpenAI text-embedding-3-large และเก็บไว้ใน Turbopuffer ฐานข้อมูล vector ความเร็วสูงที่ให้เวลาค้นหาต่ำกว่า 50ms ความเร็วนี้จำเป็นสำหรับการโต้ตอบด้วยเสียงแบบเรียลไทม์ ในแต่ละรอบ Tolan ใช้ข้อความล่าสุดของผู้ใช้และคำถามที่สังเคราะห์โดยระบบ (เช่น "ผู้ใช้แต่งงานกับใคร?") เพื่อกระตุ้นการระลึกความทรงจำ เพื่อรักษาคุณภาพของความจำให้สูง Tolan ทำงานบีบอัดข้อมูลในตอนกลางคืนที่ลบรายการที่มีคุณค่าต่ำหรือซ้ำซ้อน (เช่น "ผู้ใช้ดื่มกาแฟวันนี้") และแก้ไขข้อขัดแย้ง
บุคลิกภาพได้รับการจัดการอย่างพิถีพิถันเช่นกัน แต่ละ Tolan เริ่มต้นด้วยโครงร่างตัวละครที่เป็นเอกลักษณ์ เขียนโดยนักเขียนนิยายวิทยาศาสตร์ภายในทีมและปรับแต่งโดยนักวิจัยพฤติกรรม เมล็ดพันธุ์เหล่านี้ให้ความสม่ำเสมอกับ Tolan แต่ยังมีความยืดหยุ่นในการพัฒนาตลอดเวลา เติบโตไปพร้อมกับผู้ใช้
ระบบคู่ขนานตรวจสอบโทนทางอารมณ์ของการสนทนาและปรับการตอบสนองของ Tolan แบบไดนามิก ซึ่งช่วยให้ Tolan เปลี่ยนจากการเล่นสนุกเป็นจริงจังได้อย่างราบรื่นตามสัญญาณของผู้ใช้ โดยไม่สูญเสียบุคลิกภาพหลัก
การเปลี่ยนไปใช้ GPT-5.1 เป็นจุดเปลี่ยนสำคัญ ทันใดนั้น คำสั่ง prompt ที่ซับซ้อน—โครงสร้างโทนเสียง, การนำเข้าความทรงจำ, ลักษณะตัวละคร—ถูกปฏิบัติตามอย่างแม่นยำมากขึ้น Prompt ที่เคยต้องใช้วิธีแก้ปัญหาเฉพาะหน้าเริ่มทำงานได้ตามที่ตั้งใจ
"เป็นครั้งแรกที่ผู้เชี่ยวชาญของเรารู้สึกว่าโมเดลกำลังฟังอย่างแท้จริง" Quinten กล่าว "คำแนะนำยังคงมีผลตลอดการสนทนาที่ยาวนาน ลักษณะของตัวละครได้รับการเคารพ และเราพบการเบี่ยงเบนน้อยลงอย่างเห็นได้ชัด"
การเปลี่ยนแปลงเหล่านั้นรวมกันเป็นบุคลิกภาพที่สอดคล้องและน่าเชื่อถือมากขึ้น ซึ่งสร้างประสบการณ์ผู้ใช้ที่น่าประทับใจยิ่งขึ้น ทีม Tolan เห็นผลลัพธ์ที่ชัดเจนและวัดผลได้: การพลาดการระลึกความจำลดลง 30% (จากสัญญาณความคับข้องใจในผลิตภัณฑ์) และการกลับมาใช้ของผู้ใช้ในวันถัดไปเพิ่มขึ้นมากกว่า 20% หลังจากเปิดตัวตัวละครที่ขับเคลื่อนด้วย GPT-5.1
เมื่อ Tolan พัฒนาขึ้น หลักการสำคัญบางประการได้ปรากฏขึ้นซึ่งตอนนี้เป็นแนวทางในการสร้างและพัฒนาสถาปัตยกรรมเสียง:
- ออกแบบสำหรับความผันผวนของการสนทนา: การสนทนาด้วยเสียงเปลี่ยนกลางคันได้เสมอ ระบบต้องปรับเปลี่ยนอย่างรวดเร็วเพื่อให้รู้สึกเป็นธรรมชาติ
- ถือว่าความล่าช้าเป็นส่วนสำคัญของประสบการณ์ผลิตภัณฑ์: การตอบสนองที่เร็วกว่าหนึ่งวินาทีเป็นตัวกำหนดว่า AI เสียงจะรู้สึกเหมือนการสนทนาจริงหรือเป็นเพียงเครื่องจักร
- สร้างความจำเป็นระบบการเรียกคืน ไม่ใช่แค่บันทึก: การบีบอัดคุณภาพสูงและการค้นหา vector ที่รวดเร็วให้บุคลิกภาพที่สอดคล้องกันมากกว่าการใช้ context window ขนาดใหญ่
- สร้างบริบทใหม่ทุกรอบ: อย่าแก้ปัญหาการเบี่ยงเบนด้วย prompt ที่ใหญ่ขึ้น การสร้างบริบทใหม่ในแต่ละรอบช่วยให้ agent มีพื้นฐานที่มั่นคงขณะที่การสนทนาเปลี่ยนไป
บทเรียนเหล่านี้รวมกันเป็นพื้นฐานสำหรับนวัตกรรมระยะต่อไปของ Tolan และกำหนดทิศทางสำหรับอนาคตของ AI เสียง
นับตั้งแต่เปิดตัวในเดือนกุมภาพันธ์ 2025 Tolan เติบโตถึงกว่า 200,000 ผู้ใช้งานประจำเดือน คะแนน 4.8 ดาวและรีวิวใน App Store มากกว่า 100,000 รายการแสดงให้เห็นว่าระบบรักษาความสอดคล้องในการสนทนาที่ยาวและเปลี่ยนแปลงได้ดีเพียงใด ผู้รีวิวรายหนึ่งกล่าวว่า "พวกเขาจำสิ่งที่เราคุยกันเมื่อสองวันก่อนและนำกลับมาในการสนทนาที่เรากำลังมีวันนี้"
สัญญาณความสำเร็จเหล่านี้สอดคล้องโดยตรงกับสถาปัตยกรรมพื้นฐาน: การเรียกใช้โมเดลที่มีความล่าช้าต่ำ, การสร้างบริบทใหม่ในแต่ละรอบ, และระบบความจำและตัวละครแบบโมดูลาร์ ร่วมกันช่วยให้ Tolan ติดตามการเปลี่ยนแปลงหัวข้อ รักษาโทนเสียง และสร้างการตอบสนองที่มีความหมายโดยไม่ต้องพึ่งพา prompt ขนาดใหญ่ที่เปราะบาง
มองไปข้างหน้า Tolan วางแผนที่จะลงทุนเพิ่มเติมในการปรับแต่งและพัฒนาระบบความจำ โดยมุ่งเน้นไปที่การบีบอัดข้อมูลที่มีประสิทธิภาพยิ่งขึ้น ตรรกะการเรียกคืนที่ชาญฉลาดขึ้น และการปรับแต่งตัวละครที่หลากหลายมากขึ้น เป้าหมายระยะยาวคือการขยายขอบเขตของอินเทอร์เฟซเสียง: ไม่เพียงแค่ตอบสนอง แต่รับรู้บริบทและมีพลวัตในการสนทนาอย่างแท้จริง
"พรมแดนถัดไป" Quinten กล่าว "คือการสร้าง voice agent ที่ไม่เพียงแค่ตอบสนอง แต่เป็น multimodal อย่างแท้จริง สามารถผสานเสียง การมองเห็น และบริบทเข้าด้วยกันเป็นระบบเดียวที่ควบคุมได้อย่างสมบูรณ์"
Why it matters
💡 ข่าวนี้น่าสนใจอย่างยิ่งสำหรับผู้ที่ติดตามความก้าวหน้าด้าน AI เสียง เพราะ Tolan ได้พัฒนาแอปพลิเคชันที่ใช้ GPT-5.1 สร้างประสบการณ์สนทนาที่เป็นธรรมชาติมากขึ้น ด้วยความล่าช้าต่ำกว่า 0.7 วินาที และระบบความจำอัจฉริยะที่ช่วยให้ AI จดจำบทสนทนาได้อย่างต่อเนื่อง นวัตกรรมนี้แสดงให้เห็นถึงอนาคตของการโต้ตอบระหว่างมนุษย์กับ AI ที่ลื่นไหลและมีความหมายมากขึ้น ซึ่งจะเปลี่ยนวิธีที่เราใช้เทคโนโลยีในชีวิตประจำวัน
ข้อมูลอ้างอิงจาก https://openai.com/index/tolan