ทำไมการตัดคำไทยในประโยคถึงมีความสำคัญนัก ?

ความสำคัญของการตัดคำไทยอยู่ตรงที่ปัจจุบันธุรกิจมีการรับข้อมูลจากลูกค้าในหลายรูปแบบ อาจจะเป็นข้อความ text, message หรือข้อความใน Social Media ข้อความที่ถูกแปลงมาจากเสียง Call Center ซึ่งเราคงไม่สามารถให้คนมานั่งอ่านและแปลความหมายได้ทั้งหมด เนื่องจากปริมาณข้อมูลที่เข้ามาในปัจจุบันมีมหาศาล หรือที่ชอบเรียกกันว่า Big Data นั่นแหละครับ เราจึงสามารถให้เครื่องทำการตัดคำและนำคำที่ได้รวมถึงจำนวนคำและตำแหน่งที่คำปรากฏในประโยคมาทำการวิเคราะห์เพื่อเข้าใจบริบทของข้อความนั้นๆ ซึ่งการที่เราสามารถให้คอมพิวเตอร์เข้าใจและแปลผลออกมาได้เองนั้นมีความสำคัญอย่างยิ่งยวดในการหา Insight ที่เป็นประโยชน์กับธุรกิจ หรือในทุกๆ วงการเลยก็ว่าได้

ตั้งแต่อดีตที่ผ่านมา การตัดคำไทยเป็นเรื่องที่ยากเย็นเมื่อเทียบกับหลายๆ ภาษา (ง่ายสุดอาจจะเป็นภาษาอังกฤษ) เนื่องจากความซับซ้อนของไวยากรณ์ สระ และลักษณะการต่อคำแบบไม่มีช่องไฟ เช่น

นั่งตากลม >> “นั่ง” “ตาก” “ลม”

อาจจะถูกตัดออกเป็น

นั่งตากลม >> “นั่ง” “ตา” “กลม”

ความยากนี้คงได้รับการแก้ไขไปแล้ว ถ้าภาษาไทยเป็นภาษาที่มีคนนิยมใช้ทั่วโลก แต่เนื่องจากมันไม่ใช่ คนที่ให้ความสำคัญกับการตัดคำไทยจึงมักเป็นคนไทยเรานี่แหละ แต่เนื่องด้วยขีดจำกัดทางความสามารถ จึงทำให้ปัญหายังไม่ถูกแก้ไขได้เสียที จนช่วงหลังที่เรื่อง Machine Learning ที่สามารถทำความเข้าใจเชิงลึกได้ (Deep Learning) เข้ามามีบทบาทมากขึ้น Google ได้ทำการเปิด Library (เครื่องมือที่นักพัฒนาเอาไปใช้ต่อยอดได้) ที่ชื่อว่า Tensorflow ออกมา นักพัฒนาจึงสามารถต่อยอดจนเกิดการนำ Deep Learning ไปใช้แก้ปัญหาในหลากหลายรูปแบบ

ซึ่งล่าสุดนักวิทยาศาสตร์ข้อมูล (Data Scientist) จาก True คุณ Rakpong Kittinaradorn ก็ได้ทำการคิดค้น Library ที่ต่อยอดจากการใช้งาน TensorFlow ในชื่อ Deepcut และเปิดให้คนทั่วไปใช้ได้ ดูรายละเอียดเพิ่มเติมที่นี่ครับ วันนี้เลยเอามาลองตัดคำเล่นดูตามภาพด้านล่างครับ

ซึ่งถ้าดูคร่าวๆ แล้วผลก็เป็นที่น่าพอใจมากที่เดียว มีบางจุดที่เค้ายังไม่ได้ cover เช่นภาษาวิบัติ “ก็” >> “ก้อ” ซึ่งเชื่อว่า Algorithm คงมีวิวัฒนาการไปพร้อมกับภาษาอยู่แล้ว ซึ่งถือเป็นนิมิตรหมายที่ดีในการใช้ประโยชน์ของศาสตร์ด้าน Machine Learning กับภาษามนุษย์ครับ

 

Comments

comments

Leave a Comment

Your email address will not be published. Required fields are marked *