AI Watermark กับความรับผิดชอบต่อการใช้ AI

เมื่อคืนนั่งดู Google I/O 2024 มาสะดุดเอ๊ะเรื่องนึงที่เราคิดว่า น่าสนใจมาก และหลาย ๆ คนไม่ให้ความสำคัญกันมากนัก ประกอบกับก่อนหน้านี้ที่มีรูปที่ Generate จาก AI ขึ้น และเกิดเสียงวิพากษ์วิจารย์เป็นวงกว้างถึงความสามารถในการเท่าทันภาพลักษณะนี้ ทำให้เกิดเทคโนโลยีมากมายสำหรับการระบุ Content ที่เกิดจากการ Generate โดยใช้ AI

ปล. Thumbnail พอจะสู้บุคลากรกลุ่มสาระคอมพิวเตอร์ได้มั้ยครับ

การทำ Watermarking คืออะไร ?

การทำ Watermark หรือ การใส่ลายน้ำ เป็นวิธีการแสดงความเป็นเจ้าของหรือกรรมสิทธิ์ในข้อมูลนั้น ๆ เราอาจจะคุ้นเคยกับการใส่ ลายเซ็นต์ ลงไปบนรูปภาพสมัยก่อน หรือให้แนบเนียนขึ้น เป็นการที่ศิลปินใส่รายละเอียดเล็ก ๆ เข้าไป

พอมาในยุคที่ข้อมูลเป็น Digital การทำ Watermarking ยิ่งเป็นเนื่องสำคัญมากกว่าเดิมมาก ๆ เพราะ ข้อมูลที่มันไหลไปได้เร็วขึ้น มากขึ้น ไกลขึ้น ย่อมทำให้โอกาสที่จะถูกขโมยความเป็นเจ้าของ หรือ การนำไปใช้งานโดยไม่ได้รับอนุญาติมากขึ้น ตัวอย่างที่เราพึ่งเจอใน Facebook สด ๆ ร้อน ๆ คือ ช่างภาพที่โดนขโมยภาพไปใช้ใน Facebook โดยไม่ได้รับอนุญาติ พอทักไปมันก็ปากดีใส่อีกนะว่า ไปจดไว้เมื่อไหร่อะไรพวกนั้น

ถามว่า เหตุผลของการทำ Watermark มันคืออะไร เราขอแบ่งออกเป็น 4 เหตุผลใหญ่ ๆ ด้วยกัน

เหตุที่ 1 คือ การป้องกันการละเมิดสิขสิทธิ์ (Copyright Protection) ตัวอย่างชัด ๆ ก็คือเคสขโมยรูปไปใช้โดยไม่ได้รับอนุญาติใน Facebook ที่เล่าไปเมื่อกี้ หากมีการใส่ลายน้ำไว้ ก็จะทำให้การเอารูปไปใช้ทำได้ยากมากขึ้น ตัวอย่างที่เห็นว่าใส่ลายน้ำชัด ๆ คือพวกเว็บ Stock Image ทั้งหลาย ที่เวลาเราเข้าดูในหน้าเว็บ มันจะมีการใส่ลายน้ำไว้ทั้งรูปเลย คือถ้าจะก๊อป ต้องเอามา Retouch ลบออกยากมาก ๆ

เหตุที่ 2 คือ การตรวจสอบการเปลี่ยนแปลง (Tamper Detection) ไม่รู้ว่าภาษาไทยเรียกอะไรเหมือนกัน) บางครั้ง เราจำเป็นต้องการันตีว่า ข้อมูลที่เราส่งไป หรือเผยแพร่ไปนั้นมันมีการถูกปลอมแปลง แก้ไข หรือเปลี่ยนแปลงอะไรมั้ย การใช้ Watermarking ก็เป็นอีกวิธีที่ช่วยได้

เหตุที่ 3 คือ การตามรอย (Tracing) คือ เราสามารถใช้ Watermark ที่อาจจะมีความแตกต่างกัน มีความหมายในตัวของมัน เพื่อที่จะตามรอยข้อมูลนั้น ๆ ได้ ตัวอย่างที่เห็นได้ชัด ๆ คือ พวกธนบัตรต่าง ๆ ที่เขาจะมีลายน้ำพิเศษเอาไว้ พร้อมกับรหัสหรือลักษณะบางอย่างที่หากตรวจสอบดี ๆ จะทราบทันทีว่า เงินนี้มันมาจากไหน ออกจากโรงพิมพ์วันไหน ล๊อตไหนอย่างใด หรือถ้าเอาในฝั่งสื่อ ส่วนใหญ่จะเจอกับสำนักข่าวต่าง ๆ ก็มี

เหตุที่ 4 คือ Branding อันนี้ไม่ต้องพูดเยอะเลย เราเห็นได้จากพวก ภาพจากงานต่าง ๆ เขาจะใส่ Logo ของงานเอาไว้ด้วย หากเราเอาไปลงต่อ เห้ย ภาพถ่ายจากงานนี้เหรอวะ ดี ๆ ก็ถือว่าเป็นการสร้าง Awareness และ Branding ของงานหรือที่นั้น ๆ ด้วย

พอมันมาเป็นงานทางด้าน AI มันทำให้เกิด ผู้สร้าง Content ขึ้นมาอีกกลุ่มนอกจาก มนุษย์ ดังนั้น มันควรจะมีอะไรบางอย่างมาบอกว่า อันนี้มันคือ Content จาก คน หรือ เครื่อง เรามองว่าในปัจจุบัน Model ทุก ๆ ตัวที่ออกมา ยังไม่สามารถสังเคราะห์ วิเคราะห์ เหตุผลอะไรได้ทั้งสิ้น ดังนั้น สิ่งที่มันสังเคราะห์หรือทำออกมา มันอาจจะไม่ได้สะท้อนความเป็นจริง แต่มันดันเหมือนจริงมาก ๆ จนคนบางคนแยกไม่ออก เหมือนเคส เด็กนักเรียนแกะสลักผลไม้ ที่แว่บแรกบอกลยว่า เหมือนนะ แต่พอมาดูในรายละเอียดคือ อ่อเลย คนบ้าอะไรนิ้วเป็นแบบนั้น แต่เชื่อสิว่า คนแก่ คนที่ไม่สังเกตอะไรมาก ดูผ่าน ๆ เขาดูไม่ออกหรอก จนมันอาจจะกลายเป็นเครื่องมือที่เอาไปทำอะไรไม่ดีได้ ดังนั้น การทำ Watermarking เรามองว่า เป็นวิธีการที่ดี ในอนาคตอันใกล้นี้ AI Generated Content อาจจะมีบางส่วนที่แปะบอกหน่อย มันจะทำให้หลาย ๆ อย่างง่ายขึ้นเยอะ เราเรียกว่า มันเป็นความรับผิดชอบละกัน เหมือนกับ เวลาเราตัดต่อพันธุกรรมพืชบางอย่าง เราจะใส่ Fingerprint เข้าไป หากเกิดอะไรขึ้น เราจะได้รู้ว่าที่มีปัญหามันคือ ต้นเราจริง ๆ เหรอ

Watermark ที่ดีควรมีคุณสมบัติอย่างไร ?

ทำให้เกิดคำถามต่อไปว่า แล้ว Watermark ที่ดีควรมีคุณสมบัติอย่างไรบ้าง เราขอแบ่งออก เป็น 3 เรื่องใหญ่ ๆ

คุณสมบัติที่ 1 คือ Visibility หรือการมองเห็น มันน่าจะดีกว่าถ้าการใส่ Watermark นั้นไม่ส่งผลกระทบต่อการดู Content เลย เช่น สมมุติว่าพวก Stock Photo ใช้ Watermark แบบมองไม่เห็น แต่สามารถตรวจสอบได้ มันน่าจะทำให้ผู้ที่ซื้อบริการเอาไว้ เลือกรูปไปใช้ได้ง่ายขึ้นเยอะ หรือถ้าจะใส่ ก็อาจจะมีการใส่ในความเข้มที่น้อย แต่ยังตรวจสอบได้ โดยเฉพาะใส่ในจุดที่เนียน ๆ มองเห็นได้ยาก แล้วพวกที่ชอบก๊อปมันไม่สังเกต แล้วเอาไปใช้ ก็คือ หลักฐานคาบ้าน ได้เลยนะ ขุนให้อ้วน แล้วฟ้องแมร่งทีเดียว ฉ่ำ แน่นอน

คุณสมบัติที่ 2 คือ Uniqueness หรือ ความมีเอกลักษณ์ คือ Watermark ที่ดีควรเป็นตัวที่ สามารถระบุความเป็นเจ้าของได้ดี หากเราใช้ตัวที่มันไม่ชัดมาก ซ้ำกับคนอื่นได้ง่าย เราก็อาจจะโดนเคลมโดยคนอื่นได้ว่า อ้าว เราก็ใช้แบบนี้เหมือนกัน มันต้องเป็นงานเราสิ ดังนั้นจึงต้องออกแบบมาให้มันมีความเป็นเอกลักษณ์เฉพาะตัว แต่ก็ยังแนบเนียนอยู่นั่นเอง

คุณสมบัติที่ 3 คือ Resilience หรือความทนทาน แน่นอนว่า เมื่อเราใส่ Watermark เข้าไป คนมันจะเอา ก็คือจะเอา ดังนั้น มันจะพยายามไปเอาลายน้ำออกแน่นอน เหมือนใน Stock Image ที่คนก๊อปมา แล้วพยายามเอาลายน้ำออกด้วยการค่อย ๆ ไปไล่ลบไปเรื่อย ๆ หรือ Watermark บางตัวที่ฝังในรูป แค่เอาไปเซฟใหม่ก็หายแล้ว พวกนี้คือถอดได้ง่ายเกิน ดังนั้น Watermark ที่ดีส่วนหนึ่งคือ ความคงทน ทนทาน ต่อการเอาออก หรือ สามารถเอาออกโดยไม่ได้รับอนุญาติได้ยาก

ความสนุกหลังจากได้มา Research เรื่องนี้คือ Content แต่ละประเภทมันมีความต่างกันในเทคนิคการทำ Watermark เราจะมาเล่าให้อ่านกันทีละแบบ

Image & Video Watermarking

เริ่มจาก Content ที่เข้าใจง่ายที่สุด อย่าง รูปภาพ โดยทั่ว ๆ ไป เราคิดว่า รูปแบบที่ง่ายที่สุดอย่างการใส่ Logo เข้าไป หรือการอัดลายน้ำไปทั่ว ๆ ไปภาพ พวกนี้เราไม่ขอพูดถึงละกัน

พอมายุคต่อมา เริ่มมีการ Encode Watermark เข้าไปในภาพ หากต้องการไปหาอ่าน ลองหา Keyword ว่า Visual Cryptography ทำได้ตั้งแต่งานที่เป็น การซ่อนข้อมูลเข้าไป จนกระทั่งสามารถใช้เป็นภาชนะสำหรับใส่ Payload สำหรับการโจมตีได้เลย

แต่ตัวที่เราเริ่มมีการใช้งานมากขึ้น โดยเฉพาะในยุคที่ภาพเราอาจจะโดนไปใช้เป็น Training Data สำหรับ AI ได้ คือการทำ Data Poisoning หรือการสอดอะไรบางอย่างเข้าไปในภาพ เพื่อให้ Algorithm ที่ใช้อ่านภาพ หรือ ทำให้ Model ไม่มันโดนสอนอะไรผิด ๆ เข้าไป ทำให้ Model มันแตก โดยที่คนจะไม่เห็นการเปลี่ยนแปลงอะไรเลย แต่เครื่องมองเห็น โดยในปัจจุบันมี Software ที่ใช้ทำ เช่น Nightshade และ Fawkes

ส่วนวีดีโอ จริง ๆ แล้วมันคือ Sequence of Images หรือการเอาภาพมาต่อ ๆ กันไปเรื่อย ๆ ทำให้ส่วนใหญ่เขาจะทำการ Encode หรือแทรก Watermark หรือ Poison ลงไปใน แต่ละภาพ (Frame) ได้เลย ข้อดีของการทำแบบนี้คือ ไม่ว่าวีดีโอจะโดนตัดต่อ โดนตัดมาใช้เพียงเสี้ยวเดียว ก็สามารถหาเจอได้เลยว่า โดนตัดเข้ามา แต่ข้อเสียคือมันจำเป็นต้องแปะในทุก ๆ Frame ซึ่งมันช้า กินเครื่องสูงมาก ทำให้บางตัว อาจจะเลือกใช้การแปะลงในส่วนอื่น ๆ ของไฟล์เช่น Video Container จะเป็นการแก้ปัญหาเรื่อง Performance ได้ แต่ หากมีการโดนตัดไปอะไรพวกนั้นก็คือ จบเลย

Audio Watermarking

เสียงเอง ก็เป็นสื่ออีกตัวที่มีการทำ Watermark เยอะ และทำมานาน มีเทคโนโลยีจำนวนมาก เริ่มตั้งแต่ เก่าสุด ๆ คือการเพิ่มเสียงที่มนุษย์ได้ยินได้เข้าไป เช่น เพลงที่มีคลื่น หรือมีเสียงบางอย่างแทรกเข้ามาด้วย

เมื่อเทคโนโลยีพัฒนามากขึ้น เราเริ่มใส่เสียงที่ มันแนบเนียนมากขึ้น คือ เสียงที่ใส่เข้าไปมันจะ Encode จากเสียงตรงนั้น คิดภาพง่าย ๆ เหมือนเราจะแต้มลายน้ำลงไปในภาพ แทนที่เราจะแต้มสีสักสีเข้าไป เราผสมสีให้ใกล้เคียงกับบริเวณที่เราจะลงลายน้ำแล้วแต้มลงไป เราเห็นความแตกต่าง แต่มันก็เนียนจนไม่ได้ส่งผลกระทบใด ๆ ซึ่งการทำแบบนี้ มีข้อดีคือ หากมีการดูดเสียงเราไปใช้ เพียงช่วงใดช่วงหนึ่ง เราสามารถจับได้ทันทีเลยว่า มันเอามาจากตรงไหน โดยเฉพาะพวกที่ชอบเอาเสียงจากหลาย ๆ แหล่งมาต่อรวมกัน ทำเป็นคำพูดนั่นนี่ หากเรามีการทำ Watermark ไว้ มันจะรู้หมดเลย โดย Software ที่เราใช้งานกันเยอะน่าจะเป็น AudioSeal

Text Watermarking

ใน 3 สื่อที่เราเล่าในวันนี้ เราว่า ข้อความ นี่แหละเป็นอะไรที่ใส่ Watermark ให้เนียนได้มาก มันเป็นข้อความ เราจะใส่อะไรลงไป ยังไงเราย่อมต้องเห็นแน่นอน ยิ่งตอนนี้เรามี LLM ที่ Generate ข้อความได้มหาศาลมาก ๆ เราจะแยกมันออกมาจากข้อความที่มนุษย์สร้างได้อย่างไรละ

แต่หลังจากเราดู Google I/O 24' มา เขาพูดถึง SynthID ซึ่งเป็น Watermarking Tool สำหรับใส่กับพวก AI Generated Content ได้ทุกตัว แต่ตัวที่เกี่ยวข้องคือ การใส่กับข้อความ

เวลา LLM มัน Generate ข้อความออกมา เทคนิคที่เราใช้กันคือ การค่อย ๆ Generate คำต่อไปโดยอ้างอิงจากคำก่อนหน้า หรือก็คือมันจะต้อง Generate เป็น Sequence ออกมานั่นเอง ซึ่ง ในการ Generate มันจะมีคำที่คิดว่าน่าจะใช่ แล้วมันจะเลือกคำที่น่าจะใช่ที่สุดใส่เข้ามาให้เรา แล้วทำแบบนี้ไปเรื่อย ๆ

วิธีการที่เขาใช้ เหมือนกับย้อนการทำงานของ Model คือ การหาความน่าจะเป็นของคำต่อไปในแต่ละคำ และนำไปเทียบกับของฝั่ง Model ว่า ถ้า Model จะต้อง Generate ประโยคนี้ขึ้นมา มันจะมีโอกาสความน่าจะเป็นเหมือนกับสิ่งที่เกิดขึ้นจริงในข้อความหรือไม่ ถ้าใช่ ก็คือ น่าจะเป็นข้อความที่เครื่อง Generate ขึ้นมานั่นเอง

ดังนั้นหากมีการ เอาข้อความที่ Generate จาก Model ไปใช้ผสม ๆ กับงานเขียนจากคนบางส่วนไปใช้งาน ระบบก็สามารถที่จะหาได้ว่าข้อความส่วนใดที่คนเขียนหรือส่วนใดที่เครื่องเขียนออกมาให้

สรุป

AI Model ที่มีการเปิดออกมาให้ใช้งานกัน ณ วันที่เขียนตอนนี้ ยังขาดกลไกการเข้าใจ เหตุผล และการวิเคราะห์ข้อมูลอย่างที่มนุษย์ทำ ทำให้เราเห็น Content แปลก ๆ ที่หลุดจากความเป็นจริง เช่น ม้าลายสีรุ้ง หนักกว่านั้นคือ Content บางตัวหากเราเขียน Prompt ดี ๆ หน่อย ทำออกมาเหมือนของจริงมาก ๆ มากจนคนบางคนมองไม่ออก ทำให้สามารถใช้เป็นเครื่องมือในการบิดเบือนความจริงได้ ดังนั้น การทำ Watermark กับ Content เหล่านี้ จึงเป็นเรื่องสำคัญมาก ๆ และเรามองว่ามันเป็นความรับผิดชอบต่อการใช้ AI กับสังคมด้วย