การ ศึกษา Data Mining มุ่งเน้นเกี่ยวกับข้อมูลที่มีโครงสร้างชัดเจน (Structured Data) แต่อย่างไรก็ตามข้อมูลสารสนเทศที่เก็บอยู่บางส่วนจะอยู่ใน Text Database หรือ Document Database ได้แก่ ิเอกสารบทความ ข่าว เอกสารวิชาการ เป็นต้น ข้อมูลที่เก็บอยู่ใน Document Database จะเป็นข้อมูลที่มีลักษณะโครงสร้างไม่ชัดเจน (Semi-Structured Data) ลักษณะโครงสร้างข้อมูลแบบ Semi-Structured Data คือโครงสร้างข้อมูลที่ประกอบด้วย Structured data รวมอยู่กับ Unsturctured Data เช่น Title, Author, Publication_date เป็น Structured data ส่วน Abstract และ Body หรือ contents จัดเป็น Unstructured Data ซึ่งปัจจุบันมีข้อมูลที่เป็น Textual Information หรือ Document Data เพิ่มมากเป็นปริมาณมหาศาล จึงได้มีการพัฒนาโปรเซสที่จะสามารถวิเคราะห์ข้อมูลเหล่านี้ นั้นคือ Text Mining ในวิธีการต่างๆของ Text Mining อาจมาจาก Statistical Methodology หรือ Machine Learning Algorithms
Text Mining คือขบวนการทำงานที่เรียกว่า process ที่สกัดข้อมูล (Extract data) จากฐานข้อมูลขนาดใหญ่ (Large Textual Information) เพื่อให้ได้สารสนเทศ (Usefull Textual Information) โดยข้อมูลที่ถูกนำมา Mining เป็นข้อมูลที่มีลักษณะเป็น Text data sets
Text Mining สามารถเรียกสั้นๆว่า TM โดยมี operation ในการทำ Text Mining หลายแบบ เช่น Document Clustering, Document Classification , Summarizing Text เป็นต้น แต่ละ Text Mining Operation จะมีอัลกอริทึมส์ให้เลือกใช้ เช่น การทำ Document Clustering อาจใช้ Hierarchical Clustering Algorithms หรืออาจใช้ Unsupervised Learning Neural Networks เช่น โมเดล Kohonen Self-Organizing Map Neural Net ส่วนการทำ Summarizing Text เป็นการลดความซับซ้อนและขนาดของข้อมูลเอกสารโดยไม่ทำให้ความหมายหรือสาระ สำคัญของข้อมูลเอกสารสูญเสียไป