Google AI Research เปิดตัว PaperOrchestra: ระบบ Multi-Agent Framework สำหรับการเขียน AI Research Paper แบบอัตโนมัติ
Google Cloud AI Research เปิดตัว PaperOrchestra ระบบ Multi-Agent 5 ตัวที่แปลงข้อมูลดิบเป็นงานวิจัยพร้อม Submit พร้อม Citation เฉลี่ย 45-48 รายการ และ Acceptance Rate สูงถึง 84% บน CVPR
Key takeaway
- PaperOrchestra ใช้สถาปัตยกรรม Multi-Agent Framework ที่ประกอบด้วย 5 Specialized Agents ทำงานแบบ Sequential และ Parallel เพื่อแปลง Raw Materials อย่าง Idea Summary และ Experimental Logs ให้กลายเป็น LaTeX Manuscript ที่พร้อม Submit ได้ทันที โดยใช้เวลาเฉลี่ยเพียง 39.6 นาทีต่อ Paper และ LLM API Calls เพียง 60–70 Calls ซึ่งถือว่ามีประสิทธิภาพสูงมากเมื่อเทียบกับความซับซ้อนของงาน
- จุดแข็งที่แท้จริงของ PaperOrchestra อยู่ที่ Citation Quality โดยสามารถสร้างได้เฉลี่ย 45–48 Citations ต่อ Paper ซึ่งใกล้เคียงกับมาตรฐาน Human-written Papers ที่ ~59 Citations มากกว่า AI Baselines ทั่วไปที่ทำได้เพียง 9–14 Citations อย่างมีนัยสำคัญ และยังปรับปรุง P1 Recall ขึ้นถึง 12–13% เหนือ Strongest Baselines ซึ่งสะท้อนความลึกทางวิชาการที่แท้จริง
- ผลจาก Ablation Studies ยืนยันชัดเจนว่า Iterative Peer-review Loop ผ่าน Content Refinement Agent คือองค์ประกอบวิกฤตของระบบ โดย Refined Manuscripts เอาชนะ Unrefined Drafts ถึง 79–81% ในการเปรียบเทียบแบบ Side-by-side พร้อม Simulated Acceptance Rates ที่เพิ่มขึ้น +19% บน CVPR และ +22% บน ICLR
ทีมนักวิจัยจาก Google Cloud AI Research ได้เผยโฉม PaperOrchestra ระบบ Multi-Agent System ที่สามารถแปลงวัสดุเบื้องต้นที่ยังไม่มีโครงสร้าง ไม่ว่าจะเป็น Idea Summary คร่าวๆ และ Raw Experimental Logs ให้กลายเป็น LaTeX Manuscript ที่พร้อม Submit ได้ทันที พร้อมด้วย Literature Review, Generated Figures และ API-verified Citations ที่ครบครัน
ปัญหาที่ PaperOrchestra เข้ามาแก้ไข
ระบบ Automated Writing รุ่นก่อนหน้าอย่าง PaperRobot แม้จะสามารถสร้าง Text Sequences แบบ Incremental ได้ แต่ยังไม่สามารถรองรับความซับซ้อนของ Data-driven Scientific Narrative ได้อย่างครบถ้วน ขณะที่ End-to-end Autonomous Research Frameworks อย่าง AI Scientist-v1 และ AI Scientist-v2 นั้น Writing Modules ถูก Tightly Coupled อยู่กับ Internal Experimental Pipelines ของตัวเอง จึงไม่สามารถรับ Raw Data จากภายนอกเพื่อสร้าง Paper ได้โดยตรง
นอกจากนี้ ระบบเฉพาะทางด้าน Literature Review อย่าง AutoSurvey2 และ LiRA ยังขาด Contextual Awareness ในการเขียน Targeted Related Work Section ส่วน CycleResearcher ก็ยังต้องการ Pre-existing Structured BibTeX Reference List เป็น Input ซึ่งหาได้ยากในทางปฏิบัติ
ช่องว่างเหล่านี้ทำให้ยังไม่มีเครื่องมือใดสามารถรับ Unconstrained Human-provided Materials แล้วสร้าง Complete Rigorous Manuscript ได้อย่างสมบูรณ์ PaperOrchestra จึงถูกออกแบบมาโดยเฉพาะเพื่อเติมเต็มช่องว่างดังกล่าว
การทำงานของ Pipeline
PaperOrchestra ประสานงาน 5 Specialized Agents ที่ทำงานตามลำดับขั้นตอน โดยมี 2 Agent ที่สามารถทำงานแบบ Parallel ได้พร้อมกัน ดังนี้
Step 1 — Outline Agent: อ่านและประมวลผล Idea Summary, Experimental Log, LaTeX Conference Template และ Conference Guidelines จากนั้นสร้าง Structured JSON Outline ที่ครอบคลุมทั้ง Visualization Plan, Literature Search Strategy แบบ Two-tier ซึ่งแบ่งเป็น Macro-level สำหรับ Introduction และ Micro-level Methodology Clusters สำหรับ Related Work รวมถึง Section-level Writing Plan พร้อม Citation Hints
Steps 2 & 3 — Plotting Agent และ Literature Review Agent (Parallel):
- Plotting Agent ดำเนินการตาม Visualization Plan ผ่าน PaperBanana ซึ่งใช้ Vision-Language Model (VLM) Critic ในการประเมินและปรับปรุง Generated Images แบบ Iterative
- Literature Review Agent ดำเนินการ Two-phase Citation Pipeline โดยใช้ LLM ที่มี Web Search เพื่อระบุ Candidate Papers จากนั้น Verify แต่ละรายการผ่าน Semantic Scholar API ด้วย Fuzzy Title Matching โดยใช้ Levenshtein Distance พร้อม Temporal Cutoff ตาม Conference Submission Deadline ทั้งนี้ References ที่เป็น Hallucinated หรือไม่สามารถยืนยันได้จะถูก Discard ทันที
Step 4 — Section Writing Agent: นำ Outline, Verified Citations และ Generated Figures มาเขียน Sections ที่เหลือ ได้แก่ Abstract, Methodology, Experiments และ Conclusion โดย Extract ค่าตัวเลขจาก Experimental Log เพื่อสร้าง Tables และ Integrate Generated Figures เข้าสู่ LaTeX Source
Step 5 — Content Refinement Agent: ใช้ AgentReview ซึ่งเป็น Simulated Peer-review System ทำการ Optimize Manuscript แบบ Iterative โดย Manuscript จะได้รับการยอมรับเฉพาะเมื่อ Overall AgentReview Score เพิ่มขึ้น หรือเสมอกันโดยมี Net Non-negative Sub-axis Gains หาก Score ลดลงระบบจะ Revert และหยุดการทำงานทันที
Pipeline ทั้งหมดใช้ LLM API Calls ประมาณ 60–70 Calls และใช้เวลาเฉลี่ย 39.6 นาทีต่อ Paper ซึ่งนานกว่า AI Scientist-v2 เพียง 4.5 นาที แม้จะใช้จำนวน LLM Calls มากกว่าอย่างมีนัยสำคัญก็ตาม
Benchmark: PaperWritingBench
ควบคู่กับการเปิดตัว PaperOrchestra ทีมวิจัยยังได้เผยโฉม PaperWritingBench ซึ่งเป็น Standardized Benchmark แรกที่ออกแบบมาสำหรับการทดสอบ AI Research Paper Writing โดยเฉพาะ ประกอบด้วย Accepted Papers จำนวน 200 ฉบับ จาก CVPR 2025 และ ICLR 2025 (ฉบับละ 100 เรื่อง) เพื่อทดสอบความสามารถในการปรับตัวให้เข้ากับ Conference Formats ที่แตกต่างกัน
สำหรับแต่ละ Paper ระบบจะใช้ LLM ในการ Reverse-engineer ออกมาเป็น 2 รูปแบบ ได้แก่ Sparse Idea Summary (High-level Conceptual Description ที่ไม่มี Math หรือ LaTeX) และ Dense Idea Summary (ที่มี Formal Definitions, Loss Functions และ LaTeX Equations) พร้อม Experimental Log ที่ Extract ข้อมูลตัวเลขทั้งหมดและแปลง Figure Insights เป็น Standalone Factual Observations โดย Materials ทั้งหมดผ่านการ Anonymize อย่างสมบูรณ์
ผลการทดสอบพบว่า สำหรับ Overall Paper Quality การใช้ Dense Idea Setting ให้ผลดีกว่า Sparse อย่างชัดเจน โดยมี Win Rate อยู่ที่ 43%–56% เทียบกับ 18%–24% อย่างไรก็ตาม สำหรับ Literature Review Quality นั้น ทั้งสอง Setting ให้ผลลัพธ์ใกล้เคียงกัน โดย Sparse อยู่ที่ 32%–40% และ Dense อยู่ที่ 28%–39%
ผลลัพธ์จากการประเมิน
ในการประเมินแบบ Automated Side-by-side (SxS) โดยใช้ Gemini-2.5-Pro และ GPT-4o เป็น Judge Models พบว่า PaperOrchestra ครองความเหนือกว่าในด้าน Literature Review Quality ด้วย Absolute Win Margins สูงถึง 88%–99% เหนือ AI Baselines ส่วนด้าน Overall Paper Quality นั้น PaperOrchestra เหนือกว่า AI Scientist-v2 ถึง 39%–86% และเหนือกว่า Single Agent ถึง 52%–88%
Human Evaluation ที่ดำเนินการโดย AI Researchers 11 คน ผ่าน Paired Manuscript Comparisons จำนวน 180 คู่ ได้ยืนยันผลลัพธ์ดังกล่าว โดย PaperOrchestra บรรลุ Absolute Win Rate Margins 50%–68% เหนือ AI Baselines ในด้าน Literature Review Quality และ 14%–38% ในด้าน Overall Manuscript Quality
ด้าน Citation Coverage พบว่า AI Baselines เฉลี่ยสร้างได้เพียง 9.75–14.18 Citations ต่อ Paper ขณะที่ PaperOrchestra สามารถสร้างได้เฉลี่ยถึง 45.73–47.98 Citations ซึ่งใกล้เคียงกับมาตรฐาน ~59 Citations ในงานเขียนของมนุษย์ และปรับปรุง P1 Recall (Good-to-cite References) ขึ้น 12.59%–13.75% เหนือ Strongest Baselines
ภายใต้ ScholarPeer Evaluation Framework PaperOrchestra บรรลุ Simulated Acceptance Rates 84% บน CVPR และ 81% บน ICLR เทียบกับ Human-authored Ground Truth ที่ 86% และ 94% ตามลำดับ
Why it matters
💡 Google Cloud AI Research เพิ่งเปิดตัว PaperOrchestra ระบบ Multi-Agent Framework ที่สามารถแปลง Idea Summary และ Raw Experimental Logs ให้กลายเป็น LaTeX Manuscript ที่พร้อม Submit ได้ภายในเวลาเฉลี่ยเพียง 39.6 นาที ด้วย Citation Coverage สูงถึง 45-48 รายการต่อ Paper ซึ่งใกล้เคียงมาตรฐานของมนุษย์ นักวิจัยและ AI Engineer ทุกคนควรติดตามเพราะนี่คือจุดเปลี่ยนสำคัญของวงการ Automated Scientific Writing ที่พิสูจน์แล้วว่า Multi-agent Specialization เหนือกว่า Single-agent Prompting อย่างมีนัยสำคัญ