เพียง 30 วินาที ก็ถูกขโมยเสียงได้ รู้ทันภัยใหม่จาก Voice Cloning

เสียงปลายสายที่คุ้นหูโทรเข้ามา อาจทำให้เรารู้สึกวางใจในทันที แต่เมื่อฟังเนื้อหาการพูด กลับพบว่าไม่น่าจะใช่คนที่คุ้นเคย จนเกิดคำถามขึ้นในใจว่า "นี่คือเสียงของคนที่เรารู้จักจริงหรือ?"

ปัจจุบันเริ่มมีหลายกรณีที่มิจฉาชีพนำเทคโนโลยี AI มาใช้ปลอมเสียงของบุคคลใกล้ชิด เพื่อหลอกลวงให้โอนเงินหรือให้ความช่วยเหลือทางการเงิน ส่งผลให้มีผู้ตกเป็นเหยื่อเพิ่มขึ้นอย่างต่อเนื่อง ซึ่งการใช้ AI เลียนเสียง เรียกว่า Voice Cloning

Thai PBS Verify ชวนพูดคุยกับ สถาพน พัฒนะคูหา ประธานบริษัท Guardian AI ผู้เชี่ยวชาญด้านเทคโนโลยีบล็อกเชน สินทรัพย์ดิจิทัล และสมาร์ทคอนแทรกท์ ที่ให้ข้อมูลว่าเทคโนโลยี Voice Cloning หรือการเลียนเสียงด้วย AI นั้นมีความแม่นยำสูงขึ้นอย่างรวดเร็ว จนสามารถลอกเลียนเสียงคนรู้จักได้อย่างแนบเนียนในเวลาไม่กี่นาที โดยอาศัยเพียงข้อมูลเสียงจากคลิปวิดีโอสั้น ๆ ที่เผยแพร่ในโลกออนไลน์

Voice Cloning คืออะไร

Voice Cloning หรือการเลียนเสียง คือการใช้เทคโนโลยี AI มาวิเคราะห์เสียงของคนคนหนึ่ง แล้วสร้างแบบจำลองเสียงของคนนั้นขึ้นมา เรียกว่า Voice Model จากนั้น AI ก็สามารถใช้โมเดลนี้ในการ พูดแทนคน ๆ นั้นได้ ด้วยน้ำเสียงและสำเนียงที่เหมือนกับเจ้าของเสียง

การจะเลียนเสียงใครซักคนด้วย AI ต้องมี เสียงต้นฉบับของคนนั้นให้ AI เรียนรู้ก่อน ซึ่งความยาวของเสียงต้นฉบับที่ต้องใช้ ขึ้นอยู่กับว่าใช้ AI แบบไหน

บางระบบใช้แค่เสียงพูดสั้น ๆ ประมาณ 30 วินาที ก็สามารถสร้างเสียงเลียนแบบได้แล้ว แต่ถ้าอยากได้เสียงที่คุณภาพสูง พูดได้เป็นธรรมชาติ อาจต้องใช้ไฟล์เสียงที่ ชัดเจนและยาวขึ้น ประมาณ 15-30 นาที

การสร้างเสียงใหม่ ส่วนใหญ่จะมีสองรูปแบบหลัก :

1) พิมพ์คำสั่งข้อความแล้วให้ AI อ่านออกเสียงเป็นเสียงของเสียงต้นฉบับ หรือ Text-to-Speech, TTS (รูปแบบที่ใช้จำลองเสียง เช่น Tacotron 2, WaveNet, HiFi-GAN)

2) ใส่ไฟล์เสียงใครก็ได้เข้าไป แล้ว AI แปลงให้ออกมาเป็นเสียงของคนที่ต้องการ หรือ Voice Conversion, VC (รูปแบบที่ใช้จำลองเสียง เช่น RVC, So-VITS-SVC, DiffSinger)

รูปแบบจำลองเสียงสำเร็จรูป เช่น Microsoft, Google, Elevenlab

เราจะสังเกตได้อย่างไรว่าเสียงที่เราได้ยินนั้นจำลองมาจาก AI

สำหรับเจ้าของเสียง ถ้าเป็นบุคคลสาธารณะ อาจจะป้องกันการถูกเอาไปโคลนยากมาก เพราะใช้คลิปไม่กี่นาที ก็เอาไปโคลนได้แล้ว

ปัจจุบันการสังเกตว่าเสียงที่เราได้ยินเป็นเสียงจริงหรือเสียงจาก AI ทำได้ยากขึ้นเรื่อย ๆ เพราะเทคโนโลยี Voice Cloning สามารถเลียนแบบเสียงได้สมจริงมาก โดยเฉพาะภาษาหลักของโลก อย่างภาษาอังกฤษ ส่วนภาษาไทย แม้ว่าในปัจจุบัน จะยังเลียนแบบได้ไม่ดีนัก แต่ก็ดีขึ้น เนียนขึ้นอย่างน่าตกใจ

วิธีป้องตัวจากมิจฉาชีพที่ฉวยโอกาสเทคโนโลยีเลียนเสียง

สำหรับการป้องกันไม่ให้ตัวเองตกเป็นเหยื่อ เบื้องต้นต้องอาศัยการวิเคราะห์แยกแยะและการสังเกต ดังนี้

เสียงผิดธรรมชาติ เช่น เสียงราบเรียบเกินไปสม่ำเสมอเกินไป ไม่มีเสียงหายใจ เสียงลมหายใจดูไม่สมจริง การเน้นคำหรือจังหวะการพูดไม่เป็นธรรมชาติ รวมไปถึงการออกเสียงคำเฉพาะบางคำผิด

อารมณ์สม่ำเสมอเกินไป ไม่เปลี่ยนตามเรื่องที่พูด เช่น พูดเรื่องเศร้าแต่เสียงไม่เปลี่ยนเลย หรือไม่มีอารมณ์ในเสียงเลย

มีเสียง background ที่สม่ำเสมอจนผิดปกติ หรือเงียบผิดปกติ

บริบทน่าสงสัย เช่น โทรมาขอเงิน รหัส OTP หรือขอข้อมูลส่วนตัวแบบเร่งด่วน

เนื้อหาน่าสงสัย เช่น ผู้มีชื่อเสียงด้านการลงทุนไม่น่าจะมาชักชวนลงทุน

ซึ่งอาจจะไม่สามารถจับผิดได้ 100% แต่เมื่อนำหลาย ๆ ข้อสังเกตข้างต้นมารวมกัน ก็จะช่วยลดความเสี่ยงลงได้มาก

อีกทั้ง สถาพน พัฒนะคูหา ยังแนะนำวิธีการสังเกตร่วมกับมาตรการป้องกันอื่นๆ เช่น

ตั้งคำถามลับระหว่างครอบครัวและคนสนิท ที่ใช้ยืนยันตัวตนหากมีเหตุฉุกเฉิน เช่น คำถามส่วนตัวที่ AI เดาไม่ได้
ถามคำถามเฉพาะที่ AI ไม่รู้แน่ เช่น สัปดาห์ที่แล้วเราไปกินอะไรกันมา
อย่าเชื่อเสียงเพียงอย่างเดียว หากสงสัย ให้ติดต่อกลับไปหาเจ้าตัวจริงผ่านทางช่องทางอื่น

สำหรับองค์กรหรือธุรกิจที่ต้องการความปลอดภัยสูง มักจะใช้วิธี ยืนยันตัวตนหลายขั้นตอน (ที่เรียกว่า Multi-factor Authentication) เพื่อให้แน่ใจว่าผู้ที่ติดต่อเข้ามาเป็นตัวจริง

อย่าง Speaker Verification และ Biometric Voice Authentication คือเทคโนโลยีที่ช่วย ตรวจสอบตัวตนของผู้พูดจากเสียงของเขา โดยใช้ ลักษณะเฉพาะของเสียงแต่ละคน ซึ่งมีความเป็นเอกลักษณ์เหมือนลายนิ้วมือ

องค์กรธุรกิจที่ต้องการความปลอดภัยสูง เช่น ธนาคาร, บริษัทประกัน หรือหน่วยงานภาครัฐ อาจนำเทคโนโลยีเหล่านี้มาใช้ในขั้นตอนการยืนยันตัวตนของลูกค้า เพื่อป้องกันไม่ให้มิจฉาชีพปลอมเสียงเข้ามาหลอกลวงหรือเข้าถึงข้อมูลสำคัญได้ง่าย ๆ เทคโนโลยีเหล่านี้มักถูกนำมาใช้ร่วมกับระบบ Multi-factor Authentication (MFA) ซึ่งเป็นการยืนยันตัวตนหลายขั้นตอน เช่น:

ขั้นแรก รหัสผ่าน หรือรหัส OTP
ขั้นสอง โทรศัพท์หรืออุปกรณ์ที่ลงทะเบียนไว้
ขั้นสาม ลายนิ้วมือ ใบหน้า หรือ เสียง

เช่น ในระบบโทรศัพท์อัตโนมัติของธนาคาร บางแห่งจะให้ลูกค้าพูดประโยคเฉพาะ เช่น “เสียงของฉันคือรหัสผ่านของฉัน” จากนั้นระบบจะตรวจสอบว่าเสียงที่ได้ตรงกับข้อมูลเสียงที่บันทึกไว้หรือไม่

แต่สิ่งที่สำคัญที่สุดในการรู้เท่าทันภัยจากการใช้ AI เหล่านี้ คือการสร้างความตระหนักและให้ความรู้กับคนรอบตัว โดยฉพาะผู้สูงอายุ ซึ่งมักเป็นกลุ่มเป้าหมายของมิจฉาชีพ

อย่างไรก็ตาม แม้ว่าเทคโนโลยี Voice Cloning จะถูกฉวยโอกาสนำไปใช้ในทางที่ผิด แต่ขณะเดียวกันยังถูกนำไปใช้ในทางสร้างสรรค์ได้ เช่น การสร้างเสียงจำลองสำหรับผู้พิการ, การบริการด้านข่าวสารด้วยเสียงของ Thai PBS (Text to Speech) เป็นต้น