Text mining geralmente é definido como um processo que utiliza métodos para navegar, organizar, achar e descobrir informação em bases textuais escritas em linguagem natural. Com text mining é possível manipular mais facilmente informações não estruturadas como notícias, textos em websites, blogs e documentos em geral.
Históricamente a importância do text mining ganhou impulso a partir da década de 90, com o crescimento do armazenamento digital e da Internet (web mining). Ao mesmo tempo, analistas começaram a perceber a ausência de ferramentas de text mining para lidar com o ambiente de informações desestruturadas.
Parte importante do processo de text mining é a preparação textual, cujo objetivo é armazenar um texto não estruturado em uma base de dados estruturada. Essa operação é necessária para que um algoritmo computacional possa ser aplicado.
O desafio do desenvolvimento de tecnologias de text mining vem da necessidade de se ter conhecimentos específicos sobre áreas distintas como estatística, ciência da computação, lingüística e ciência cognitiva.
O segredo de um solução de text mining completa é combinar técnicas de Engenharia de Software, Machine Learning, Information Retrieval e Data Mining.