Technology

ทำยังไงถึงจะประหยัดค่า AI ในการทำงานได้

By Arnon Puitrakul - 04 กรกฎาคม 2026

เมื่อหลายปีก่อน เราพูดบ่อยมาก ๆ ว่าเราน่าจะประหยัด Token ในการใช้ AI แต่คนก็บอกว่า นี่ เราจะต้องยัด Token เข้าไปเยอะ ๆ ใช้ Reasoning เยอะ ๆ สิมันจะได้ฉลาด แต่วันนี้ราคา Token นับวันยิ่งแพงขึ้นเรื่อย ๆ ทำยังไงกันละ เราถึงจะได้ความฉลาดเท่าเดิม แต่ประหยัดเงินในกระเป๋าของเราได้

Token คืออะไร ?

เวลาเราพูดถึงการคิดราคาค่าใช้งาน AI น่าจะเคยได้ยินคำว่า Token กันมาบ้าง บางคนคิดว่า 1 Token เท่ากับ 1 คำ ความเชื่อนี้อาจเป็นจริงในบางกรณี แต่ในหลาย ๆ กรณีความเชื่อนี้ไม่ได้เป็นจริงสักเท่าไหร่

Token คือ หน่วยย่อยที่สุดของ LLM ที่จะ Generate ออกมาได้ เมื่อก่อน ถ้าเราพูดถึง Model ขนาดเล็กสมัยก่อน มันจริง ที่ 1 Token เท่า 1 คำจริง ๆ เพราะ Word Embedding Model สมัยก่อนทำงานแบบนั้น แต่ปัจจุบันมันไม่ได้เป็นแบบนั้นแล้ว บางที 1 คำที่เราเห็น อาจจะประกอบด้วย 2-4 Token เช่น เมื่อก่อน เรา Embedded คำว่า Unbelievable เป็น 1 Token แต่ ตอนนี้ เพื่อความ Flexible ของ Model เพิ่มมากขึ้น เราอาจจะถอดมันออกมาเป็น 3 Token คือ un-, Believe, -able หรือก็คือ การแบ่งตามส่วนประกอบของคำ ทำให้เราถึงบอกว่า 1 คำ อาจจะไม่ได้แปลว่า 1 Token เสมอไป ซึ่งเวลาเขาคิดค่า Token จะแบ่ง Token ออกเป็น 2 ส่วนใหญ่ ๆ คือ Input และ Output Token

Input Token ตามชื่อของมันคือ Token ที่เรา Input เข้าไปให้ Model หรือก็คือ ส่วนที่เรา Prompt เข้าไปทั้งหลาย รวมไปถึง เวลาเรา Chat คุยกับมัน เหตุที่มันรู้ว่าก่อนหน้านี้ เราคุยอะไรกันไว้ ประติดประต่อเรื่องราวได้ เพราะโปรแกรม มันเอา Chat ที่เราคุยกับ Model ก่อนหน้านี้โยนเข้าไปใน Model ก็จะนับเป็น Input Token ด้วย เช่น ก่อนหน้านี้ เราคุยกับมันมา 50k Token แล้ว รอบนี้ เราโยนของใหม่เข้าไปอีก 100 Token ทำให้ในการคุยครั้งนี้ เราจะโยนเข้าไป 50,100 Token นั่นเอง

Output Token ตามชื่ออีกเหมือนกันคือ Token ที่ Model ตอบเรากลับมา อย่างที่เห็นว่า Model ให้คำตอบอะไรเรากลับมา นั่นนับเข้าไปใน Output แน่นอน แต่อีกอันที่หลายคนอาจไม่เห็นคือ เมื่อเราใช้งาน Model ที่มีความสามารถ Reasoning เวลามันพ่น Reasoning Block ออกมา Token ที่เกิดขึ้นในส่วนนั้น ก็จะถูกนับเข้าไปใน Output Token ด้วยเช่นกัน หนักกว่านั้นคือ เมื่อมัน Reasoning เสร็จ 1 ครั้ง มันก็จะโยน Reasoning Tokens ทั้งหมดที่คิดรอบนั้นบวกกับบทสนทนาก่อนหน้านี้กลับเข้าไปเป็น Input Token เพื่อคิดต่อ นี่คือเหตุผลที่ทำให้เมื่อเราเปิดใช้งาน Reasoning หรือ Agentic ที่คิดย้ำ ๆ ต่อกันไปเรื่อย ๆ เลยกิน Token ดุดันไม่เกรงใจใครมาก ๆ

เมื่อก่อน เวลาผู้ให้บริการคิดราคาใช้งาน เขาจะไม่ได้สนใจว่า จะเป็น Input หรือ Output Token คือ คิดราคาทั้งสองส่วนนี้เท่ากันหมด แต่ด้วยความที่เราใช้ Reasoning และ Agentic Feature มากขึ้น คิดแบบนั้น ผู้ใช้กำหมัดแน่นอน เพราะ Input Token เขาจะเยอะแบบ น่ากลัวมาก ๆ และจริง ๆ Input Token เยอะมันไม่ได้ส่งผลให้ผู้ให้บริการต้องใช้ Compute Power มากขึ้นขนาดนั้น เลยทำให้ในปัจจุบันมีการปรับราคา ให้ Input และ Output Token มีราคาแยกกันนั่นเอง

ผู้ให้บริการ AI เขาคิดราคาอย่างไรบ้าง

สำหรับการคิดราคา มีอยู่หลากหลายรูปแบบมาก ๆ สำหรับผู้ใช้งานทั่ว ๆ ไปอย่างเรา จะพบเจอได้อยู่ทั้งหมด 2 แบบด้วยกัน คือ Pay-as-you-go และ Subscription-Based

เริ่มจากรูปแบบที่คนทั่วไปคุ้นเคยที่สุดคือ Subscription-Based คือ ก็คือจ่ายรายเดือน พวกนี้ จะมีการกำหนดจำนวนที่เราสามารถใช้งานได้อยู่ แต่อาจจะไม่ได้บอกจำนวนในการใช้งานที่ชัดเจน เช่น Claude Pro เขาจะไม่ได้บอกว่า ใช้งานได้มากกว่า คือมากกว่าเท่าไหร่ หรือจ่ายแพงสุดเลย ได้เพิ่มขึ้น 20 เท่า เราก็ไม่รู้ว่ามันคือเท่าไหร่ ฝั่ง Google Gemini ก็ไม่ต่างกัน จะบอกเป็นจำนวนเท่าเมื่อเทียบกับตัวฟรี เมื่อเราใช้งานไปถึงจุดหนึ่งมันเต็ม มันจะโดนติด Limit ก็แค่รอเวลาที่มัน Reset เราก็จะกลับมาใช้งานได้อีกครั้ง การใช้งานลักษณะนี้ จะเหมาะกับการใช้งานทั่ว ๆ ไป เน้นงาน Chat เป็นหลัก และบางเจ้าอาจจะห้ามเอา API Key ไปใช้งานกับ Service อื่น ๆ ด้วย ใช้งานได้แค่ใน Service ที่เขากำหนดให้เท่านั้น

และอีกรูปแบบคือ Pay-as-you-go หรือ ใช้เท่าไหร่จ่ายเท่านั้น การใช้งานลักษณะนี้ จะเป็นการให้ API Key ออกไปใช้งานได้ตามใจชอบ อยากจะเอาไปใช้กับ Service อะไรได้หมดเลย แต่เขาจะคิดเงินตามจำนวนที่เราใช้งาน ส่วนใหญ่นับตามจำนวน Token เช่น GPT-5.6 Sol คิดอยู่ที่ 5 USD/1M Tokens พวกนี้ส่วนใหญ่ เรามักจะเอาไปใช้งานกับพวก Agent Harness ต่าง ๆ กันซะเยอะ หรือจะเป็นนักพัฒนาที่เอามาพัฒนา Application และที่เราเห็นกันดีจากพวก Service ที่มัดรวม AI จากหลาย ๆ เจ้า ก็มาจากตรงนี้แหละ เขามีการซื้อ API เข้ามา แล้วทำหน้า Chat รวมกันให้เราเข้าไปใช้งานได้

ขอแถมอีกแบบ ที่เราจะไม่ได้เห็นกันได้บ่อย ๆ คือ Provisioned Throughput (PT) พวกนี้จะใช้งานกันในระบบขนาดใหญ่โตมาก ๆ มีการใช้งานจำนวนมาก เพราะการใช้งานลักษณะนี้คือ การเช่า ความสามารถของโครงสร้างพื้นฐานของผู้ให้บริการมาจำนวนหนึ่งโดยเขาจะการันตีว่า เราจะสามารถเรียกใช้งานตามจำนวนที่เราซื้อไว้ได้ตลอดเวลา แล้วคิดเป็นช่วงเวลาที่เราเช่าไป ทำให้การจะใช้งานรูปแบบนี้ให้คุ้มค่าคือ เราจะต้องมั่นใจว่า มีโหลดการใช้งานเต็มที่เราซื้อเอาไว้ตลอดเวลานั่นเอง

ยิ่ง Model เก่งมากเท่าไหร่ ก็ยิ่งมีราคาต่อ Token ที่สูงมากขึ้นเท่านั้น และมีแนวโน้มที่จะสูงมากขึ้นเรื่อย ๆ ด้วย เช่น Fable 5 ราคาบอกเลยว่า ดุดันไม่เกรงใจใครมาก ๆ ถ้าใช้กันหนัก ๆ ลย เดือนนึงอาจจะโดนกันไป 3,000 USD ต่อเดือนได้เลย ดังนั้น เราจำเป็นต้องหาวิธีการที่จะทำให้เราใช้งาน Token น้อยลงกันได้

เราจะประหยัดค่า Token ได้อย่างไร

วิธีการจริง ๆ มันมีหลากหลายวิธีมาก ๆ ทุกวิธีพุ่งเป้าไปที่ การลด Cost จากการใช้งาน และ Maximise Productivity ให้ได้มากที่สุด สำหรับเรา จะเลือกใช้ 3 วิธีการง่าย ๆ

อย่างแรกคือ การ Prompt ให้กระชับที่สุด ตัดพวกคำที่ไม่จำเป็นออกไป เช่น "ขออนุญาติ" และ "รบกวน" เน้นการสั่งมันไปตรง ๆ อย่าคิดว่ามันเป็นคนต้องขอความเห็นใจ อยากได้อะไรออกมาสั่งมันไปเลย เช่น "รวบกวนช่วยเขียน Python Script สำหรับตรวจสอบข้อมูลให้หน่อย" ให้เปลี่ยนเป็น "เขียน Python Script ตรวจสอบข้อมูล" อาจจะดูน้อย ๆ แต่อย่าลืมนะว่า เวลาเราคุยกับมันไปเรื่อย ๆ มันจะโดนโยนกลับไปหา Model ทุกครั้งคิดเป็น Input Token มันก็จะคูณกันไปเรื่อย ๆ ออกมาจริง ๆ มันก็ไม่น้อยเลย

อย่างที่ 2 เราจะพยายามไปลด Output Token ที่ราคาแพง ด้วยการบังคับ Output Format ให้ออกมาเป็นแบบที่ต้องการ แทนที่จะให้มันเลือกเขียนบรรยายออกมาอย่างอิสระ เพราะหลาย ๆ ครั้งมันพยายามจะเขียนออกมาให้ดูเป็นบทความและ Paragraph แต่ผลมันกิน Output Token เยอะมาก บางครั้งการ Prompt บังคับให้มันเป็น Output ออกมาเป็นตาราง หรือ JSON มันก็จะทำให้เราใช้ Output Token น้อยลงเยอะมาก ๆ ซึ่งช่วยลดทั้ง Output Token และ Input Token ที่จะต้องโดนโยนกลับไปในบทสนทนาถัดไป

อย่างที่ 3 คือ การเลือกใช้ Model ให้เหมาะกับงาน อย่างที่เล่าไปว่า ยิ่ง Model เก่งมากเท่าไหร่ ยิ่งแพงมากเท่านั้น เช่น เราเอา Fable 5 ไปเทียบกับ Sonnet 5 ใช่ จริงที่ Fable 5 เก่งกว่า แต่มันก็พร้อมกับราคาที่สูงขึ้นเช่นกัน แต่บางงาน เราไม่ได้ต้องการความฉลาดมากขนาดนั้น เช่น เวลาเราเขียนโปรแกรม เราอาจจะต้องการ Model เก่ง ๆ สำหรับการวางแผน แต่ในการเขียน Code จริง ๆ เราไม่ได้ต้องการ Model ที่เก่งมากขนาดนั้น วิธีการแก้ปัญหาคือ เราแค่ใช้ Model ให้เหมาะสม เวลา Planning เราใช้ Fable 5 ได้ และเมื่อเขียนงาน เราใช้ Sonnet 5 ก็เพียงพอแล้ว

สรุป : นอกจากจะเขียน Prompt ได้ ต้องมีประสิทธิภาพด้วย

เราคิดว่านอกจากที่เราจะเขียน Prompt ได้แล้ว เราจะต้องเข้าใจวิธีการที่เราจะทำให้เราประหยัดเงินในกระเป๋าเราด้วย เพราะราคา AI ในตอนนี้มีแนวโน้มที่จะสูงมากขึ้นเรื่อย ๆ เหมือนมาล่อให้เราติดแล้ว อัพราคาใส่ซะเลย แต่อีกมุมนึงก็เข้าใจได้ ว่า Model มีขนาดใหญ่ขึ้นกิน Compute มากขึ้น ย่อมต้องมีต้นทุนสูงขึ้นเป็นเงาตามตัว และเราอยากบอกเลยว่า ณ วันนี้ ราคาที่เราเห็นยังไม่ได้บอกมูลค่าที่แท้จริงของต้นทุนด้วยซ้ำ เรียกว่า ห่างไกลแบบลิบเลยละ แต่ถ้าเอามาคิด ณ วันนี้บอกเลยว่า ไม่มีใครกล้าจ่ายแน่นอน เราเลยมองว่า ในอนาคต พวกที่บอกว่า เอามาทำ Subagent มาเป็นพนักงานในบริษัทงาน Admin ทั้งหลาย บอกเลยว่า แตกยับ ไม่น่าคุ้มแล้วละในอนาคต

Token คืออะไร ?

ผู้ให้บริการ AI เขาคิดราคาอย่างไรบ้าง

เราจะประหยัดค่า Token ได้อย่างไร

สรุป : นอกจากจะเขียน Prompt ได้ ต้องมีประสิทธิภาพด้วย

Related Posts

Agent Harness คืออะไร ทำไมถึงเป็นจุดเปลี่ยนสำคัญใน Modern AI

วิศวกร Safeguard ป้องกัน LLM จากการโดน Jailbreak อย่างไร

ทำยังไงถึงจะประหยัดค่า AI ในการทำงานได้

รู้จักกับ NVFP4 มาตรฐานการ Quantised จาก Nvidia