490 likes | 582 Views
Sistemas de Recomendação. Carlos Castor Naiane Nascimento. Roteiro. Motivação Coleta de informações Privacidade Estratégias Técnicas Arquitetura Aplicações Estudo de Caso Mestrado Conclusão. Motivação. Era da Inteligência Coletiva
E N D
Sistemas de Recomendação Carlos Castor NaianeNascimento
Roteiro • Motivação • Coleta de informações • Privacidade • Estratégias • Técnicas • Arquitetura • Aplicações • Estudo de Caso • Mestrado • Conclusão
Motivação • Era da Inteligência Coletiva • A capacidade de novasmídiasparaarmazenar e recuperarinformaçõesfacilmente, principalmenteem bases de dados e na Internet, permitequeelassejamcompartilhadassemdificuldade. Assim, através da interação com novas mídias, passamfacilmente entre as fontes de conhecimento, resultandoemuma forma de inteligênciacoletiva. (Flew, 2008) • Web 2.0 • Maiorinteração entre usuários e a Web; • Surgimento de maisportais, blogs e redessociais
Motivação • Grande volume de informaçõesna Web • Com a quantidade de informaçõese com a disponibilidadefacilitadadas mesmaspelouso da Internet, as pessoasse deparam com umadiversidademuitogrande de opções. Muitasvezes um indivíduopossuimuitopoucaouquasenenhumaexperiênciapessoalpararealizarescolhas entre as váriasalternativasquelhesãoapresentadas. (MAES, et al 1995) • OsSistemas de Recuperaçãosãobastanteutilizadospelapublicidade • Serve de ganchoparaseremutilizadosemoutrasáreas
Como resolver? • Ferramentas de recomendaçãocomosolução Existemossistemas de recomendaçãoquetrabalhamcom a personalização, o quepossibilitaqueo conteúdoexibidopara o usuáriosejaaquelequeeleterámaiorinteresseemvisualizar. Para que se possarecomendaritens a um usuário, énecessário se terconhecimentosobrequeméesteusuário. Énecessáriocapturar e armazenarseus dados pessoais e comportamentaisrelativos. Portanto, é essencialque se possaidentificar o usuáriono momentoemqueeleacessa o sistemaondeforamimplantadas as rotinas de recomendação. (REATEGUI, et al 2005)
Pioneirosnaárea • Nos anos 90, foi desenvolvido o Tapestry. • Um sistema de emailque avaliava a relevância dos documentos recebidos. • Em 1996, oMy Yahoosurgiu. • O primeiro website a utilizar recomendação em grandes proporções. • A técnica customização era utilizada.
Coleta de Informações • Énecessárioconhecerquemé o usuário • O usuário deve ser identificado no momento em que ele acessa o sistema - Identificação no servidor • É necessário fazer um cadastro • Provê maior precisão - Identificação no cliente • Utiliza cookies para identificar a máquina • Menos confiável
Coleta de Informações • As informações podem ser coletadas de forma explícitaou implícita • Coleta Explícita • O usuário indicao que lhe interessa. • Coleta Implícita • A partir do comportamentodo usuário, infere-se suas necessidadese preferências.
Como se dá a recomendação • Semelhanças entre usuários • Grupos de pessoas com interesses em comum. • Métricas de Similaridade são usadas para calcular essas semelhança • Coeficiente de Pearson. • Distância Euclidiana. • Recomendar itens • Mostrar algum item que uma pessoa parecida com você viu e você não viu • Tabela de Pesos.
Como se dá a recomendação • Comparação entre itens • Encontra a similaridade entre os itens • Ajuda a oferecer um item que você provavelmente queira ver
Privacidade • Informações do usuário são coletadase armazenadassem que ele perceba. • Existem empresas que vendemesses dados.
Políticas de Privacidade • É uma exigência legal que as políticas de privacidade dos sites sejam disponibilizadas. • Aumenta a proteção do usuário. • Algumas organizações propõem selos que regulam a política de privacidade de um website.
Estratégias • Diferentes estratégiaspodem ser usadas para personalizarofertas para o usuário. • Listas de Recomendação • Avaliação de Usuários • Suas Recomendações • Produtos Similares (X-> Y) • Associação por Conteúdo
Técnicas de Filtragem • OsSistemas de Recomendaçãoutilizam a técnica de Filtragem de Informação (FI) paraextrair as relações e similaridadesexistentes entre produtos, entre consumidores e entre produtos e consumidores. • FiltragembaseadaemConteúdo • FiltragemColaborativa • FiltragemHíbrida
FiltragemBaseadaemConteúdo • FiltragemBaseadaemConteúdo • É a forma mais simples de recomendação • Considera que usuários sempre gostaram de coisas que gostaram nopassado. • Analisa apenas os itens e o perfil do usuário • Funcionamento: • Usuários devem avaliar itens de acordo com seu interesse. • O sistema correlaciona os itens em sua base de dados, considerando características de cada item. • E indica novos itens que apresentem alto grau de similaridade.
FiltragemBaseadaemConteúdo • Dificuldades: • Cálculo da similaridade • Há dificuldades na sugestão de core tamanho, por exemplo. • Análise dos dados restrita • Imagem e Áudio • SuperEspecialização • O usuário não receberá indicações do que nunca consumiu. • Efeito Portfólio • É analisado o histórico
FiltragemColaborativa • FiltragemColaborativa • Fechar as lacunas que a filtragem baseada em conteúdo não soluciona. • Não exige a extração de características dos itens. • O sistema se baseia na troca de experiências entre usuários com gostos similares.
FiltragemColaborativa • Funcionamento: • Usuários devem avaliar itens de acordo com seu interesse • O sistema descobre usuários com padrões similares de comportamento ao do usuário atual • Cálculo do peso de cada usuário em relação a similaridade ao usuário alvo. • Selecionar um subconjunto • Processa as avaliações feitas por esse subconjunto de usuários • E recomenda itens que o usuário atual ainda não avaliou
FiltragemColaborativa • Dificuldades: • Necessita de vasta base de dados • Escalabilidade/estabilidade • Partida fria (Usuários e itens novos) • Popularidade • Ovelha negra
FiltragemHíbrida • FiltragemHíbrida • Combina as duas técnicas, para obter um sistema mais eficiente
Técnicas (Comparativo) Fonte: VAREJÃO, L., OLIVEIRA, P., LORENA, V., ACIOLI, V. Mineração de Dados na Web: Sistemas de Recomendação
Arquitetura • Grande volume de dados e eventos • Interatividade
Arquitetura: Computação • Online • Uso de eventos recentes • Interatividade com usuário • Tempo real • Limita o volume de dados utilizáveis e a complexidade dos algoritmos • Offline • Grande volume de dados • Algoritmos complexos • Maior tempo para resposta • Nearline • Intermediário entre online e offline • Computação realizada da mesma forma que o online, mas sem a necessidade de resposta em tempo real
Arquitetura: Tarefas Offline • Tarefas agendadas • Model Training • Algoritmos de aprendizagem de máquina para definição de parâmetros • Computação de resultados • Sugestões que irão aparecer para o usuário ou serão utilizadas por algoritmos online • Grande Volume de dados • Banco de dados distribuídos(Hive ou Pig)
Arquitetura: Tarefas Offline • Mecanismo para publicação dos resultados • Quando os resultados estão prontos • Suporte a diferentes repositórios • Tratamento de erros • Monitoramento • Alertas • Netflix.Hermes
Arquitetura: Sinais e Modelos • Modelos: arquivos com parâmetros resultantes de computação offline • Dados: informação processada • Sinais: informações recentes não processadas
Arquitetura: Eventos e dados • Diferentes interfaces • Smart TVs, tables, video games, etc • O sistema busca captar o máximo de ações do usuário • Cliques,navegação,views,etc • Eventos: pequenas unidades de informações sensíveis ao tempo que têm de ser processados com a menor quantidade possível de latência • Dados: dados mais densos que necessitam ser processados e armazenados para uso futuro. • Netflix.Manhatam: gerenciador de eventos
Aplicações • Sugestão de vídeos • Lista de recomendação • Associação de conteúdo
Aplicações • Sugestão de pessoas que o usuário possa conhecer. • Usuários que se interessam por “X” também se interessam por “Y”
Aplicações • Sugestão de itens que o usuário posso querer comprar • Lista de recomendação • Avaliação de Usuários • Suas Recomendações • Usuários que se interessam por “X” também se interessam por “Y.” • Associação por conteúdo
Aplicações Lista de Recomendação Avaliação de Usuários
Estudo de Caso: NewsFeed do Facebook • Usuário decide entre visualização das postagens mais recentes ou as mais importantes • Como determinar quais postagens são mais importantes para o usuário? • Inicialmente, a importância das postagens era ajustada manualmente • i.e.: Fotos > links > curtida
EdgeRank • Algoritmo utilizado para determinar a importância das postagens • Todas as relações(curtir, comentar, compartilhar,etc) são modeladas como vértices(edges) de um grafo
EdgeRank • : grau de afinidade entre o usuário e o autor do vértice • : peso do tipo da postagem relativa ao vértice • : idade do vértice = , sendo d o tempo desde a criação do vértice
EdgeRank-Ilustração • e1: Empresa A criou x em y • u1, w1, d1=(1/(h-y)), h=tempo corrente • e2: Amigo 1 curtiu x em (y+1) • u2, w2, d2=(1/(h-(y+1))) • e3: Amigo 2 comentou x em (y+15) • u3, w3, d3=(1/(h-(y+15))) • e4: Amigo 3 curtiu x em (y+30) • u4, w2, d4=(1/(h-(y+30))) • h: tempo corrente
Desafios • Melhoria nos algoritmosde recomendação: • Maior eficiência • Melhor qualidade do resultado
Mestrado • Clipping automático de notíciasutilizandosistema de recomendação • Uso de matérias de portais de notíciasna Web • Inicialmente, matérias de apenas um segmento • Conteúdoscompartilhadopor amigos nasredessociais • Amenizar a grandecarga de informaçõesexpostaspara o internauta. • Filtrar as informações do seuinteresse • Comodidade • Recebimento do clipping por e-mail
Quempodeserbeneficiado? • Usuáriosemgeral da Web • Maiorauxílioaotrabalho dos profissionais de comunicação, maisespecificamenteaos de Jornalismo de assessorias de imprensa. • Tambémdeveauxiliarespecialistas de determinadasáreas, curiososoumesmoempresários/empresas. • E atémesmopolíticosquedesejam saber o que tem sidocomentadosobresina Web.
Conclusão • Diante da grandemassa de informaçõesna Web osSistemas de Recomendaçãopodemser de grandeauxílio • É um caminhobastanteaderidopelapublicidade • Aindaháumagrandediscussãoquanto a privacidade dos usuários • Sites quenãopossuemSistema de Recomendaçãoestãofadadosaoesquecimento
Referências • TUTEN, T. L. Advertising 2.0: social media marketing in a Web 2.0 world. Praeger, Westport Connecticut, 2008. • MAES, P.; SHARDAMAND, U. (1995) “Social information filtering: Algorithms for automating "word of mouth”, In: Human Factors in Computing Systems. Proceedings…, 1995, p. 210-217. • REATEGUI, E.; CAZELLA, S. Sistema de Recomendação. XXY Congresso da SociedadeBrasileira de Computação, 2005. São Leopoldo. • VAREJÃO, L., OLIVEIRA, P., LORENA, V., ACIOLI, V. Mineração de Dados na Web: Sistemas de Recomendação • REATEGUI, E., CAZELLA, S., Sistemas de Recomendação. XXV Congresso da SociedadeBrasileira de Computação, 2005, Rio Grande do Sul. • http://edgerank.net/ • http://marketingland.com/edgerank-is-dead-facebooks-news-feed-algorithm-now-has-close-to-100k-weight-factors-55908 • http://techblog.netflix.com/2013/03/system-architectures-for.html
Dúvidas? ? ?