790 likes | 951 Views
Mineração de Dados na Web. Sistemas de recomendação. Lais Varejão ( lvv ) Paulo Oliveira ( phslf o ) Victor Lorena ( vlfs ) Victor Acioli (vaca). Equipe. Introdução Coleta de Informações Estratégias Técnicas Arquitetura Passo a Passo Aplicações Conclusão. Roteiro. Introdução.
E N D
Mineração de Dados na Web Sistemas de recomendação
Lais Varejão (lvv) Paulo Oliveira (phslfo) Victor Lorena (vlfs) Victor Acioli (vaca) Equipe
Introdução Coleta de Informações Estratégias Técnicas Arquitetura Passo a Passo Aplicações Conclusão Roteiro
A Era da Inteligência Coletiva Motivação
Sob o aspecto tecnológico, Inteligência Coletiva é o conjunto de comportamentos, preferências e ideiasde um grupo de pessoas para criar novas introspecções. Motivação
Atualmente existe uma grande quantidade de informaçãodisponibilizada de forma facilitada. Motivação
Motivação Ao mesmo tempo...
Motivação • O usuário tem dificuldade de encontrar informaçõesque são relevantes para ele.
Como identificar quais conteúdos são relevantes para cada usuário em meio a um mar de informação? Problema
Sistemas de recomendação realizam a filtragem da informação para recomendar itens, que possam ser interessantes para o usuário. Sistemas de Recomendação
Sistemas de Recomendação Que filme eu devo ver? Para onde eu devo sair? Qual livro eu devo ler?
“Muitas vezes as pessoas só sabem o que queremdepois que você mostraa elas.” Steve Jobs Sistemas de Recomendação
Existem empresas que investem em sistemas de recomendação? Sistemas de recomendação
Netflix • É uma locadora de DVDs online, com entrega a domicílio, que recomenda filmes de acordo com locações prévias dos clientes. • Dos filmes alugados, 60%vêm de recomendações. • Em 2006, ela anunciou o prêmio de 1 milhãopara a primeira pessoa que melhorasse a precisão do seu sistema de recomendação em 10%. Desafio Netflix
Nos anos 90, foi desenvolvido o Tapestry. • Um sistema de emailque avaliava a relevância dos documentos recebidos. • Em 1996, oMy Yahoosurgiu. • O primeiro website a utilizar recomendação em grandes proporções. • A técnica customização era utilizada. Quem foram os pioneiros?
É indispensável conhecer quem éo usuário. Coleta de informações
O usuário deve ser identificado no momento em que ele acessa o sistema. • Identificação no servidor • É necessário fazer um cadastro. • Provê maior precisão. • Identificação no cliente • Utiliza cookies para identificar a máquina. • Menos confiável. Coleta de informações
As informações podem ser coletadas de forma explícitaou implícita. Coleta de informações
Coleta Explícita • O usuário indicao que lhe interessa. Coleta de informações
Coleta Implícita • A partir do comportamento do usuário, infere-se suas necessidadese preferências. Coleta de informações TURISMO
Informações do usuário são coletadase armazenadassem que ele perceba. Existem empresas que vendem esses dados. Problemas de privacidade
É uma exigência legal que as políticas de privacidade dos sites sejam disponibilizadas. • Aumenta a proteção do usuário. Políticas de privacidade
Algumas organizações propõem selos que regulam a política de privacidade de um website. Políticas de privacidade
Diferentes estratégiaspodem ser usadas para personalizarofertas para o usuário. • Listas de Recomendação • Avaliação de Usuários • Suas Recomendações • Produtos Similares (X Y) • Associação por Conteúdo Estratégias
Listas de Recomendação • São mantidas listas de itens organizadas por tipos de interesse. Estratégias
Avaliação de Usuários • Além de comprar, o usuário deixa sua avaliaçãosob o item adquirido. • É importante que haja veracidadena opinião. Estratégias
Itens são oferecidos de acordo com o interesse do usuário. Suas recomendações
Indica itens similares ao que está sendo comprado no momento. Produtos similares (X Y)
São utilizados os dados dos próprios produtos e não do usuário. • Exemplo: • Autor • Editora • Tema • Assunto Associação por conteúdo
É o nome utilizado para descrever uma variedade de processos que envolvem a entrega de informaçãopara as pessoas que realmente necessitam delas. BelvinandCroft- 1992 FILTRAGEM DE INFORMAÇÃO
É a forma mais simplesde recomendação Considera que usuários sempre gostaram de coisas que gostaram no passado. Analisa apenas os itens e o perfil do usuário. Filtragem baseada em conteúdo
Funcionamento: • Usuários devem avaliar itens de acordo com seu interesse. • O sistema correlaciona os itens em sua base de dados, considerando características de cada item. • E indica novos itens que apresentem alto grau de similaridade. Filtragem baseada em conteúdo
Exemplo sim(REC, Exoc) Gostei Recomendado Usuário Atual
Filtragem baseada em conteúdo • Dificuldades: • Cálculo da similaridade • Análise dos dados restrita • Super Especialização • Efeito Portfólio
Fechar as lacunas que a filtragem baseada em conteúdo não soluciona. Não exige a extração de características dos itens. O sistema se baseia na troca de experiências entre usuários com gostos similares. Filtragem colaborativa
Funcionamento: • Usuários devem avaliar itens de acordo com seu interesse. • O sistema descobre usuários com padrões similares de comportamento ao do usuário atual. • Processa as avaliações feitas por esse subconjunto de usuários. • E recomenda itens que o usuário atual ainda não avaliou. Filtragem colaborativa
Exemplo Gosta: Filme A Filme B Filme C Gosta: Filme A Filme B Filme C Similares Usuário Atual Usuário X Usuário Y
Dificuldades: • Necessita de vasta base de dados • Escalabilidade/estabilidade • Partida fria (Usuários e itens novos) • Popularidade • Ovelha negra • Demonstração Facebook Filtragem colaborativa
Combina as duas técnicas, para obter um sistema mais eficiente. Filtragem híbrida
Solicitada ou espontânea? Rodar online ou offline? Recomendar tudo ou filtrar? Só itens novos? Explicar o motivo da escolha? Necessidade ou interesse? Cuidados
Exemplo • Recommender Server • Utilizado para dar acesso aos SessionsControllerse às rotinas de recomendações.
Exemplo • SessionController • Ao entrar no site as informações do usuário são armazenadas sobre sua interação atual. • E comparadas com o seu histórico dentro do site.