- ครีเอเตอร์สามารถควบคุมเวิร์กโฟลว์งานสร้างสรรค์ได้ครบวงจร พร้อมความสามารถในการปรับแต่งทุกองค์ประกอบของวิดีโอด้วยคำสั่งภาษาธรรมชาติ
- ผู้ใช้สามารถสร้างผลงานคุณภาพระดับผู้กำกับได้ ด้วยการสร้างสตอรี่บอร์ดที่สมบูรณ์แบบด้วยคำสั่งเพียงครั้งเดียว
อาลีบาบา เปิดตัว Video Wan2.7 โมเดลสร้างวิดีโอครบวงจรที่ช่วยยกระดับคุณภาพผลงานและประสิทธิภาพการสร้างสรรค์อย่างก้าวกระโดด สำหรับทั้งครีเอเตอร์รายบุคคลและการใช้งานระดับอุตสาหกรรม

Wan2.7-Video ยกระดับจากการใช้ AI สร้างเพียงองค์ประกอบย่อย ไปสู่การใช้ AI สร้างภาพยนตร์ที่สมบูรณ์แบบ เป็นการช่วยให้ผู้สร้างสรรค์งานสามารถควบคุมกระบวนการทำงานทั้งหมดได้เสมือนเป็นผู้กำกับ และยังช่วยบริหารจัดการเนื้อหาที่ซับซ้อนและงานเบื้องหลังได้ด้วยความแม่นยำอย่างที่ไม่เคยมีมาก่อน
การเปิดตัวโมเดลสร้างวิดีโอนี้เกิดขึ้นเพียงไม่กี่วัน หลังการเปิดตัว Wan2.7-Image ซึ่งเป็นโมเดลสร้างสรรค์ภาพเวอร์ชันล่าสุด การเปิดตัวอย่างต่อเนื่องนี้สะท้อนให้เห็นถึงการขยายขีดความสามารถด้าน AI มัลติมีเดียของอาลีบาบา อย่างรวดเร็วและเป็นระบบ
ครอบคลุมทุกขั้นตอนการสร้างสรรค์อย่างมืออาชีพWan2.7-Video ประกอบด้วย 4 โมเดล ได้แก่ Wan2.7-t2v (โมเดลสร้างวิดีโอจากข้อความ) Wan2.7-i2v (โมเดลสร้างวิดีโอจากภาพ) Wan2.7-r2v (โมเดลสร้างวิดีโอจากวิดีโออ้างอิง) และ Wan2.7-videoedit (โมเดลตัดต่อวิดีโอ) โดยผสานอินพุตจากข้อความ ภาพ วิดีโอ และเสียงไว้ในระบบเดียวกัน ครอบคลุมตั้งแต่การสร้าง แก้ไข ทำซ้ำ ปรับรูปแบบ ต่อยอดเนื้อหา ไปจนถึงการอ้างอิง
ชุดเครื่องมือที่ครอบคลุมนี้ช่วยแก้ปัญหาช่องว่างสำคัญด้านความต่อเนื่องของการเล่าเรื่อง และความสอดคล้องกันของภาพหลายช็อต (multi-shot consistency) ช่วยให้ผู้ใช้งานสามารถจัดการเวิร์กโฟลว์ที่หลากหลายได้อย่างง่ายดาย ตั้งแต่การป้อนสคริปต์ไปจนถึงการควบคุมภาพ
Wan2.7-Video รองรับการสร้างวิดีโอที่ยืดหยุ่นได้ตั้งแต่ 2 ถึง 15 วินาที ให้ผลลัพธ์ที่มีความละเอียด 720p และ 1080p นอกจากนี้ยังมี APIs ที่รองรับงานระดับองค์กร เพื่อให้สามารถประมวลผลแบบกลุ่ม (batch procession) และปรับแต่งเวิร์กโฟลว์ได้ตามความต้องการของแต่ละองค์กร
การตัดต่อและควบคุมระดับการทำงานของผู้กำกับซีรีส์ Wan2.7-Video นำระบบสั่งการด้วยภาษาธรรมชาติที่ใช้งานง่ายมาใช้เพื่อแก้ปัญหาต้นทุนที่สูงของการทำงานเบื้องหลังตามรูปแบบเดิม ช่วยให้ครีเอเตอร์สามารถปรับเปลี่ยนวิดีโอได้ครบทุกมิติ ไม่ว่าจะเป็นการกระทำของตัวละคร บทสนทนา รูปลักษณ์ ฉาก สไตล์ ไปจนถึงวิธีการถ่ายทำ นอกจากนี้ ผู้ใช้ยังสามารถกำหนดรูปแบบหรือกำกับภาพได้อย่างรวดเร็วด้วยการเคลื่อนกล้องทั้งแบบพื้นฐานและแบบซับซ้อนหลายสิบรูปแบบ โดยที่ยังรักษาความสม่ำเสมอของแสงได้อย่างสมบูรณ์แบบ
โมเดลนี้สามารถแก้ไขบทสนทนาได้แบบไดนามิก ด้วยการซิงก์การขยับริมฝีปากโดยอัตโนมัติ พร้อมยังคงเอกลักษณ์ของน้ำเสียงเดิมไว้ได้แม้มีการปรับบทใหม่ การรองรับอินพุตแบบ multimodal ยังช่วยควบคุมรายละเอียดได้อย่างแม่นยำ เช่น การใช้คลิปเสียงเพื่อเปลี่ยนสภาพอากาศ หรือการใช้ภาพแบบหลายเฟรมเพื่อกำหนดทิศทางเรื่อง การจัดองค์ประกอบภาพ และการตั้งค่าตัวละคร
ระบบยังสามารถรักษาความต่อเนื่องของตัวละครที่แตกต่างกันในแต่ละวิดีโอได้สูงสุดถึง 5 ตัวละคร ด้วยการปรับแต่งโทนเสียงและอัตลักษณ์ภาพเฉพาะตัวให้กับแต่ละตัวละครท่ามกลางการดำเนินเรื่องที่ซับซ้อน นอกจากนี้โมเดลยังรองรับการผสมผสานสไตล์นับพันรูปแบบ และการแสดงอารมณ์ที่ละเอียดอ่อนมากกว่า 50 รูปแบบเพื่อผลลัพธ์การแสดงที่สมจริง
การเล่าเรื่องผ่านภาพยนตร์อย่างอัจฉริยะกลไกการเล่าเรื่อง (narrative engine) ของโมเดลนี้ เปลี่ยนอินพุตธรรมดา ๆ ให้กลายเป็นโครงเรื่องที่น่าตื่นตาและร้อยเรียงสอดประสานกันผ่านการจัดลำดับงานอัจฉริยะ โดยใช้คำสั่งเพียงคำสั่งเดียว (a single prompt) ก็สามารถสร้างสตอรี่บอร์ดที่สมบูรณ์พร้อม ทั้งโครงสร้างและองค์ประกอบงานระดับมืออาชีพ การเปลี่ยนผ่านฉากที่แม่นยำ รวมถึงการเคลื่อนกล้องแบบ FPV (first-person view) drone dives, การถ่ายภาพแบบหมุนรอบตัว (orbital shots) 360 องศา และการจัดแสงที่ปรับตามบริบทในฉาก
Wan2.7-Video ได้รับการเทรนด้วยชุดข้อมูลการตัดต่อวิดีโอที่มีความสอดคล้องกัน และใช้สถาปัตยกรรมแบบ end-to-end รูปแบบใหม่ ช่วยให้เนื้อหาที่สร้างขึ้นใหม่มีความแม่นยำสูง ผ่านการสั่งงานด้วยภาษาธรรมชาติ และภาพอ้างอิง นอกจากนี้กลไกการสร้างส่วนต่อขยายวิดีโอ (video continuation) ยังช่วยให้ผู้ใช้กำหนดเฟรมสุดท้ายได้เอง เพื่อให้การเปลี่ยนภาพเป็นไปอย่างลื่นไหล และลดปัญหาภาพสะดุดหรือหยุดชะงักอย่างกะทันหัน
Wan2.7-Image ยกระดับการปรับแต่งแเบบเฉพาะเจาะจงและความแม่นยำของสี เพียงไม่นานก่อนการเปิดตัวโมเดล Wan2.7-Video นี้ อาลีบาบาได้เปิดตัว Wan2.7-Image ซึ่งเป็นเครื่องมือสร้างภาพที่เปลี่ยนกฎเกณฑ์การสร้างภาพด้วย AI โดยออกแบบมาเพื่อแก้ปัญหางานศิลป์ที่ดูซ้ำซาก และการแสดงผลสีที่ไม่แม่นยำ ซึ่งเป็นปัญหาที่เรื้อรังมานานของภาพที่สร้างด้วย AI ความสามารถในการปรับแต่งแบบเฉพาะเจาะจงและความแม่นยำระดับมืออาชีพอย่างที่ไม่เคยมีมาก่อน ส่งให้โมเดลนี้มีประสิทธิภาพเหนือกว่าคู่แข่งชั้นนำในอุตสาหกรรมจากการประเมินโดยมนุษย์ในรูปแบบ blind test ทั้งในด้านความสมจริงของภาพ การแสดงผลตัวอักษร และการเข้าใจแนวคิด
นวัตกรรมที่สำคัญประกอบด้วยกลไกการปรับแต่งแบบเฉพาะเจาะจงเชิงลึกที่ช่วยให้ผู้ใช้สามารถปรับรายละเอียดเฉพาะของตัวละครได้ถึงระดับโครงสร้างกระดูกและรูปทรงดวงตา ควบคู่ไปกับฟีเจอร์ ‘จานสี’ (color palette) ที่เป็นเอกลักษณ์ สามารถจับคู่รหัสได้อย่างแม่นยำเพื่อให้สอดคล้องกับแบรนด์ นอกจากนี้ โมเดลดังกล่าวยังประสบความสำเร็จครั้งใหญ่ในการแสดงผลตัวอักษร (text rendering) โดยการใช้หน้าต่างบริบท (context window) ขนาด 3,000 โทเคน สร้างข้อความทางวิชาการคุณภาพระดับงานพิมพ์ สูตรคำนวณที่ซับซ้อน และตารางใน 12 ภาษา นับเป็นการเชื่อมช่องว่างระหว่างความต้องการทางภาษาและการแสดงผลออกมาเป็นภาพได้อย่างมีประสิทธิภาพ
Wan2.7-Image รองรับเวิร์กโฟลว์ปริมาณมาก เพื่อเพิ่มประสิทธิภาพสูงสุดให้แก่ผู้สร้างสรรค์ โดยสามารถประมวลผลภาพอ้างอิงได้สูงสุดถึงเก้าภาพ และสร้างผลลัพธ์ที่แตกต่างกันได้ 12 รูปแบบในการประมวลผลเพียงครั้งเดียว ซึ่งช่วยลดความยุ่งยากในการผลิตสตอรี่บอร์ดและแคมเปญอีคอมเมิร์ซ พลังในการสร้างสรรค์นี้ยังมาพร้อมกับอินเทอร์เฟซแบบ ‘คลิกเพื่อแก้ไข’ (click-to-edit) ที่ใช้งานง่าย ช่วยให้สามารถควบคุมการเพิ่ม เคลื่อนย้าย หรือจัดวางองค์ประกอบต่าง ๆ ได้อย่างแม่นยำดีเยี่ยมในระดับพิกเซล นอกจากนี้ อาลีบาบายังได้เปิดตัว Wan2.7-Image-Pro ซึ่งเป็นเวอร์ชันอัปเกรดที่โดดเด่นด้วยการตีความคำสั่ง (prompt) ได้อย่างเฉียบคมขึ้น การจัดวางองค์ประกอบภาพที่เสถียรกว่าเดิม และมอบเอาต์พุตความละเอียดสูงระดับ 4K
โมเดล Wan2.7-Video และ Wan2.7-Image พร้อมให้ใช้งานแล้วบน Model Studio ของอาลีบาบา คลาวด์ และเว็บไซต์ทางการของ Wan รวมถึงผสานอยู่ใน Qwen App ซึ่งนับเป็นอีกก้าวสำคัญของความมุ่งมั่นของ Wan series ในการนำเสนอโซลูชันมัลติมีเดียที่ใช้งานง่าย ประสิทธิภาพสูง ให้กับเหล่าครีเอเตอร์
—————————————-
About Alibaba GroupAlibaba Group is a global technology company focused on e-commerce and cloud computing. We enable merchants, brands and retailers to market, sell and engage with consumers by providing digital and logistics infrastructure, efficiency tools and vast marketing reach. We empower enterprises with our leading cloud infrastructure, services and work collaboration capabilities to facilitate their digital transformation and grow their businesses.

