320 likes | 434 Views
Metodologias e Ferramentas. Profa. Dra. Solange O. Rezende Universidade de São Paulo - São Carlos Departamento de Ciências de Computação Laboratório de Inteligência Computacional – LABIC solange@icmc.sc.usp.br. Aspectos importantes para empresas e organizações. Inteligência Competitiva
E N D
Metodologias e Ferramentas Profa. Dra. Solange O. Rezende Universidade de São Paulo - São Carlos Departamento de Ciências de Computação Laboratório de Inteligência Computacional – LABIC solange@icmc.sc.usp.br II Workshop Brasileiro de Inteligência Competitiva e Gestão do Conhecimento
Aspectos importantes para empresas e organizações • Inteligência Competitiva Visa conhecer concorrentes e seus produtos • Business Intelligence • Objetiva a melhora da qualidade dos processos internos; • Aumentar a satisfação dos clientes com produtos e atendimento.
Aspectos importantes para empresas e organizações (cont.) • Gestão de conhecimento • Melhor alocação de Recursos Humanos; • Identificar idéias implementadas com sucesso; • Identificar necessidade de capacitação/ adequação dos RH’s existentes.
Text Mining aplicado a Inteligência Competitiva
Motivação para o uso de Text Mining • Grande disponibilidade de informações interessantes sobre produtos e/ou tecnologia em textos. • Acesso rápido e fácil a informações presentes em textos disponíveis na Internet. • Técnicas utilizadas em Data Mining tem sido úteis no processo de tomada de decisão.
Que tipos de textos são usados? • Qualquer tipo de texto que contenha informações relevantes a aplicação. • Exemplos: • E-mails • Textos livres resultantes de pesquisas • Arquivos eletrônicos (TXT, DOC, PDF, HTML) • Campos textuais em Bancos de Dados • Documentos eletrônicos, digitalizados a partir de papéis
As ferramentas de Text Mining podem ajudar a melhorar o negócio através da análise de informações textuais, oferecendo conhecimento novo e útil Organizações e pessoas acumulam grandes volumes de informações textuais e não sabem como gerenciá-las de forma eficiente, perdendo tempo e conhecimento O que Text Mining pode fazer pelas Empresas ?
O que Text Mining pode fazer pelas Empresas ? • Inteligência Competitiva • Contando com textos resultantes de pesquisas, o Text Mining pode ser útil para identificar padrões que favorecem os concorrentes. • Contando com textos disponíveis pelo concorrente (ou descrição de produtos), pode-se avaliar a tecnologia em uso.
O que Text Mining pode fazer pelas Empresas ? • Business Intelligence • Utilizando e-mails de clientes, pode-se utilizar um processo de classificação para identificar os principais motivos das reclamações. • O Text Mining também pode ser útil para processar respostas automáticas dos e-mails dos clientes, baseados em casos semelhantes
O que Text Mining pode fazer pelas Empresas ? • Gestão de Conhecimento • Contando com documentos sobre avaliação dos funcionários, pode-se identificar aqueles que necessitam de cursos de atualização, etc.; • O processo de Text Mining também pode ser útil para automatizar análise de curriculos, para facilitar a identificação do perfil dos funcionários.
Mas como analisar automaticamente tais informações em textos que podem ser não estruturados?
Uma área interdisciplinar • Text mining pode envolver: • Estratégias lingüísticas • Aspectos estatísticos comumente usados em Recuperação de Informação • Métodos de Aprendizado de Máquina
Preparação dos textos Fase necessária para estruturação dos textos num formato compatível com os métodos utilizados em Data Mining.
Identificação dos atributos • Caracteriza-se por identificar as palavras ou termos que são relevantes para caracterizar o contexto de um documento. • Pode envolver técnicas dependentes do idioma
Identificação dos atributos cont. • Remoção de termos pouco significativos (stopwords); • Normalização das palavras para seus respectivos stems/forma canônica; • Uso de um dicionário de termos do domínio da aplicação
Ferramentas • InQuizit • search engine,que utiliza Processamento de Língua Natural para possibilitar que as consultas sejam representadas em língua natural e que os termos sejam interpretados. • Disponível para o inglês. • FOCI • Flexible Organizer for Competitive Intelligence. • Software de apoio a processos de inteligência competitiva, fornece um meio de busca de resultados e informações competitivas organizadas através de uma plataforma. • Disponível para o inglês e chinês.
Ferramentas (cont.) • Scatter/Gatter • Sistema de busca de documentos baseado em clustering. Através de uma abordagem híbrida, combina a eficiência do algoritmo K-means e a qualidade dos resultados providos peloalgoritmo de clustering hierárquico. • Disponível para o inglês. • TextSmart -versão 1.0. • Faz análise de informações textuais dispostas na forma de questionários com perguntas e uma série de respostas e indica as categorias presentes através da identificação de clusters. • Disponível para o inglês
Ferramentas (cont.) • Intelligent Miner for Text - versão 2.3 • Conjunto de quatro componentes principais: Text Analysis Tools, Text Search Engine, Web Crawler e NetQuestion Solution. • Text Analysis Tools constituído porferramentas que podem ser aplicadas à realização de mineração detexto: Language Identification (suporte para 16 idiomas); FeatureExtraction (inglês); Clustering; Classification/Categorization; Summarization.
Ferramentas (cont.) • TextAnalyst -versão 2.0 • Auxilia a encontrar de forma mais rápida e eficaz os principais conceitos presentes em um documento ou uma coleção de documentos. • Disponível para o inglês. • SVMligth • Implementação do algoritmo Support Vector Machines para o problema de reconhecimento de padrões para classificação. • Independe de idioma, pois o documento deve já ter sido pré-processado.
Ferramentas (cont.) • TextAnalyst -versão 2.0 • Auxilia a encontrar de forma mais rápida e eficaz os principais conceitos presentes em um documento ou uma coleção de documentos. • Disponível para o inglês. • SVMligth • Implementação do algoritmo Support Vector Machines para o problema de reconhecimento de padrões para classificação. • Independe de idioma, pois o documento deve já ter sido pré-processado.
Ferramentas (cont.) • Kea • provê a extração de palavras-chave. • Faz uso da análise léxica para identificar as palavras-chave candidatas e atribuir valores às mesmas. • Faz uso de Naive Bayes, para construção do modelo que classifica as possíveis chaves. • Em geral: • Estão disponíveis para o idioma inglês. • Não cobrem todas as etapas do processo de Text Mining
Módulo de pré-processamento para textos em português • Construção de: • scripts para identificação de atributos; • scripts para atribuição de pesos; • scripts para redução de atributos • Integrado ao Ambiente Computacional para descoberta de conhecimento em dados e textos, chamado Discover em desenvolvimento no LABIC.
Algoritmos de Extração de Padrões ou Modelos C1 if ... then ... C2 Ck if ... then ... if ... then ... Classificador if ... then ... Base de Regras Ci Cj Avaliação de Precisão de Classificação Avaliação Individual de Regras Avaliação de outras Formas de Conhecimento Mesclagem de Regras Avaliação e Interpretação de Clusters Métodos de Pré-processamento de Dados Amostras Métodos de Pré-processamento de Textos Dados Pré-processados if ... then ... if ... then ... if ... then ... if ... then ... Base de Dados Base de Textos
Scripts para identificação de atributos • Construção de uma lista de stopwords • Investigação de diferentes estratégias de normalização: • Algoritmo de stemming baseado em Porter (OpenMuscat). • Analisador Léxico e Sintático (Etiquetador – NILC-USP). • Investigação de diferentes estratégias para construção de um atributo • Atributos formados por apenas uma palavra • Atributos formados por mais que um termo (atributos compostos)
Validação do módulo de pré-processamento de textos • Estudo de Casos: • Categorização de textos em português pertencentes ao domínio de Aquisição de Conhecimento e de Redes Neurais; • Extração de regras de associação de documentos de patentes farmoquímicas (INPI)
Resultados da categorização de textos sobre AC e RN • Foram realizados 128 experimentos, com representações contendo desde 1.956 até 77.271 atributos. • Os resultados mostraram que: • Houve aumento pouco significativo de eficiência com o uso de atributos compostos • Em geral o uso de stems proporcionou melhores resultados que utilizando a forma canônica.
Resultados da análise de patentes • Das representações formadas por atributos extraídos apenas dos campos textuais, foram extraídas regras que indicam a co-ocorrência de termos. • Composto -> hidrogênio and peptide • Das representações híbridas, foram extraídas regras que associam tratamentos e técnicas a países, período de pedido de patentes, empresas, etc. • Astra Aktiebolog -> doença_sistema_imunológico
Materiais Utilizados • Cristiane Y. Imamura, Pré-processamento para extração de conhecimento de bases textuais – Dissertação de Mfestrado – ICMC – USP, 2001. • Material sobre Text Mining - http://atlas.ucpel.tche.br/~loh/disc_si.htm
Conclusões • Text mining pode ser muito útil para apoiar processos de tomada de decisão. • A presença de um especialista é fundamental para obtenção de resultados mais expressivos. • As pesquisas em text mining são recentes, e o interesse em sua realização tem sido cada vez maior.