สรุปเครื่องมือ AI ใหม่ จากงาน Google I/O 2025 อัปเกรด Gemini เจ๋งขึ้น! “Veo 3” และ Imagen 4” โมเดลการสร้างวิดีโอและรูปภาพใหม่ “Lyria 2” สำหรับแต่งเพลง และ “”Flow” เครื่องมือสร้างภาพยนตร์ด้วย AI
ในงาน Google I/O 2025 ซึ่งเป็นการประชุมนักพัฒนาประจำปี ได้เปิดตัวเทคโนโลยีสุดล้ำ ตั้งแต่ความก้าวหน้าในโมเดล Gemini 2.5 ไปจนถึงการเปิดตัวโหมด AI เพื่อค้นหา และสร้างสรรค์สื่อ ไม่ว่าจะเป็นผู้สร้างภาพยนตร์ นักดนตรี ศิลปิน หรือครีเอเตอร์ YouTube เพื่อช่วยให้สร้างโมเดลและผลิตภัณฑ์อย่างมีความรับผิดชอบ
สำหรับไฮไลต์ที่น่าสนใจในงาน Google I/O 2025 มีดังนี้
Veo 3 การสร้างวิดีโอที่มีเสียง
Veo 3 เป็นโมเดลการสร้างวิดีโอที่ล้ำสมัยใหม่ล่าสุด โดยสามารถสร้างวิดีโอที่มีเสียงเป็นครั้งแรก เช่น เสียงรถในฉากถนนในเมือง เสียงนกร้องในสวนสาธารณะ หรือแม้แต่บทสนทนาระหว่างตัวละคร ผู้ใช้สามารถเล่าเรื่องราวสั้น ๆ ด้วยการเขียน Prompt แบบข้อความและรูปภาพ แล้วโมเดลก็จะสร้างคลิปที่ถ่ายทอดเรื่องราวนั้นออกมาให้
อัปเดตคุณสมบัติใหม่บน Veo 2
Veo 2 เป็นโมเดลการสร้างวิดีโอรุ่นยอดนิยม โดยใช้ข้อมูลที่ได้รับจากการร่วมงานกับครีเอเตอร์และผู้สร้างภาพยนตร์ โดยสิ่งที่เพิ่มขึ้นมาได้แก่
• การควบคุมกล้องช่วยให้ผู้ใช้กำหนดการเคลื่อนไหวของกล้องได้อย่างแม่นยำ ไม่ว่าจะเป็นการหมุน การเลื่อน และซูม เพื่อให้ได้ช็อตที่สมบูรณ์แบบ
• การขยายขอบเขตการแสดงผล สามารถขยายเฟรมได้ ซึ่งจะเปลี่ยนวิดีโอจากแนวตั้งให้เป็นแนวนอนและปรับให้พอดีกับหน้าจอทุกขนาด
• สามารถเพิ่มหรือลบวัตถุออกจากวิดีโอได้ โดย Veo เข้าใจเรื่องขนาด การโต้ตอบ และแสงเงา และใช้ความเข้าใจ เพื่อสร้างฉากที่ดูเป็นธรรมชาติสมจริง
Flow เครื่องมือสร้างภาพยนตร์ด้วย AI
สร้างคลิปที่มีสไตล์แบบภาพยนตร์ ฉาก และเรื่องราวต่าง ๆ ได้อย่างราบรื่นด้วยการรวมโมเดลที่ล้ำสมัยที่สุดของ Google DeepMind ไว้ด้วยกัน ได้แก่ Veo, Imagen และ Gemini
โดยผู้ใช้สามารถใช้เพียงภาษาพูดทั่วไปเพื่ออธิบายช็อตที่ต้องการเพื่อให้ Flow จัดการองค์ประกอบต่าง ๆ ของเรื่องราว ไม่ว่าจะเป็นนักแสดง สถานที่ วัตถุ และสไตล์ ให้ครบจบในที่เดียว และใช้ Flow เพื่อถักทอการเล่าเรื่องให้กลายเป็นฉากที่สวยงาม

สร้างรูปภาพที่ซับซ้อนแต่ก็ยังคมชัดด้วย Imagen 4
Imagen 4 โมเดลสร้างภาพล่าสุด มีความคมชัดที่โดดเด่นในรายละเอียดเล็ก ๆ น้อย ๆ เช่น ผ้าที่มีลวดลายซับซ้อน หยดน้ำ และขนสัตว์ รวมไปถึงสไตล์นามธรรมและสมจริง
Imagen 4 สามารถสร้างรูปภาพในอัตราส่วนต่าง ๆ และความละเอียดสูงสุด 2K ซึ่งเหมาะสำหรับการพิมพ์หรืองานนำเสนอ เครื่องมือนี้ยังช่วยเรื่องตัวสะกดและการออกแบบตัวอักษรได้ดีขึ้น ทำให้ผู้ใช้สามารถสร้างการ์ดอวยพร โปสเตอร์ หรือแม้แต่การ์ตูนได้ง่ายขึ้น

Lyria 2 การสร้างสรรค์ทางดนตรีที่ทรงพลัง
Google ขยายสิทธิ์เข้าถึง Music AI Sandbox ซึ่งขับเคลื่อนโดย Lyria 2 Music AI Sandbox มอบชุดเครื่องมือเวอร์ชันทดลองสำหรับนักดนตรี โปรดิวเซอร์ และนักแต่งเพลง ซึ่งสามารถจุดประกายความเป็นไปได้ใหม่ ๆ ในการสร้างสรรค์และช่วยให้ศิลปินสำรวจแนวคิดทางดนตรีที่ไม่เหมือนใคร
นอกจากนี้ ยังมี Lyria RealTime ซึ่งเป็นโมเดลการสร้างเพลงแบบอินเทอร์แอ็กทิฟที่ขับเคลื่อน MusicFX DJ โดยโมเดลนี้พร้อมใช้งานผ่าน API และใน AI Studio Lyria RealTime ช่วยให้ทุกคนสามารถโต้ตอบ สร้างสรรค์ ควบคุม และแสดงดนตรีที่สร้างสรรค์ด้วย Generative AI ได้แบบเรียลไทม์
อย่างไรก็ตาม การใช้ AI ต้องมาพร้อมกับความรับผิดชอบ โดย Google ได้ใส่ลายน้ำ SynthID ในรูปภาพ วิดีโอ ไฟล์เสียง และข้อความกว่า 10,000 ล้านรายการ ซึ่งช่วยให้สามารถระบุได้ว่าเนื้อหาดังกล่าวเป็นข้อมูลที่ AI สร้างขึ้น และลดโอกาสในการให้ข้อมูลที่ไม่ถูกต้องและการระบุแหล่งที่มาที่ไม่ถูกต้อง โดยเนื้อหาที่สร้างขึ้นด้วย Veo 3, Imagen 4 และ Lyria 2 จะมาพร้อมลายน้ำ SynthID
และผู้ใช้ยังสามารถตรวจสอบได้ว่า ไฟล์หรือเนื้อหาที่สร้างขึ้นทั้งหมดหรือบางส่วนมี SynthID อยู่หรือไม่ ด้วยการอัปโหลดเนื้อหาลงไปใน SynthID Detector
AI Overviews
AI in Search ช่วยให้การถามคำถาม กับ Google และรับคำตอบที่เป็นประโยชน์ได้ง่ายขึ้นด้วยลิงก์ไปยังเว็บไซต์
โดยใช้เทคนิคกระจายคำถามโดยแบ่งคำถามออกเป็นหัวข้อย่อยและออกคำถามหลายข้อพร้อมกัน วิธีนี้ทำให้ Search สามารถเจาะลึกเข้าไปในเว็บได้มากกว่าการค้นหาแบบเดิมบน Google ช่วยให้ค้นพบสิ่งที่เว็บมีให้มากขึ้น และค้นหาเนื้อหาที่น่าทึ่งและเกี่ยวข้องอย่างยิ่งที่ตรงกับคำถามของคุณ
Search Live
การนำความสามารถของ Project Astra มาใช้กับการค้นหา ด้วย Search Live ผู้ใช้สามารถพูดคุยกับ Search เกี่ยวกับสิ่งที่เห็นแบบเรียลไทม์โดยใช้กล้องของตัวเอง
ตัวอย่างเช่น หากรู้สึกสับสนกับโปรเจกต์หนึ่งและต้องการความช่วยเหลือ เพียงแตะไอคอน "Live" ในโหมด AI หรือใน Lens จากนั้นเล็งกล้องไปที่ต้องการแล้วถามคำถาม เพียงเท่านี้ Search ก็จะกลายเป็นเพื่อนเรียนรู้ที่สามารถมองเห็นสิ่งที่คุณเห็นได้ โดยจะอธิบายแนวคิดที่ซับซ้อนและเสนอคำแนะนำไปตลอดทาง รวมถึงลิงก์ไปยังแหล่งข้อมูลต่างๆ ที่ผู้ใช้สามารถสำรวจได้ เช่น เว็บไซต์ วิดีโอ และอื่น ๆ

และนี่ก็เป็นเครื่องมือบางส่วนที่น่าสนใจในงาน Google I/O 2025
อัปเดตข้อมูลแวดวงวิทยาศาสตร์ เทคโนโลยี รู้ทันโลกไอที และโซเชียลฯ ในรูปแบบ Audio จาก AI เสียงผู้ประกาศของไทยพีบีเอส ได้ที่ Thai PBS
“รอบรู้ ดูกระแส ก้าวทันโลก” ไปกับ Thai PBS Sci & Tech