250 likes | 346 Views
Miguel Salles Dias Director. Agenda. Microsoft e o processamento da fala e da língua natural Produtos de fala Microsoft Iniciativa Microsoft de I&D em Portugal Conclusão Perguntas e Respostas. Microsoft e o processamento da fala e da língua natural. Investimentos em I&D de longo termo
E N D
Miguel Salles Dias Director
Agenda • Microsoft e o processamento da fala e da língua natural • Produtos de fala Microsoft • Iniciativa Microsoft de I&D em Portugal • Conclusão • Perguntas e Respostas
Microsoft e o processamento da fala e da língua natural • Investimentos em I&D de longo termo • 1991: Fundação do grupo de Língua Natural na MS Research • 1992: Grupo de Fala criado • 1995: Primeiras ferramentas de revisão no MS Word • 1998: Grupo de desenvolvimento de produto formado • 2000: Investimento ao nível da divisão • Hoje: Distribuição de produtos empacotados em todas as plataformas • Congrega talento reconhecido de I&D mundial em Fala e Língua Natural • Objectivo: tecnologias da língua natural e da fala com impacto no quotidiano
Microsoft e o processamento da fala e da língua “Speech and natural language understanding are the key technologies that will have the most impact in the next 15 years.” — Bill Gates
Fala integrada em diversas plataformas Desktop • IU rica • Microfone partilhado • Utilizador controla • fala/escuta Telefone • Somente voz • Aplicação controla fala/escuta Computação Móvel • Interface Multimodal
Embedded SR Enterprise Applications Productos de fala Microsoft actuais Desktop Mobilidade Telefonia Command/Control Dictation
Iniciativa Microsoft de I&D nos domínios da fala e língua natural, em Portugal
Desenvolvimento do suporte computacional a uma nova língua • Características locais (caso Português) • Língua: • Português Europeu • Regionalismos linguísticos • Jargão profissional: medicina, direito, engenharia, economia • Fala: • Pronúncias regionais • Fala das crianças, etc. • Alterações constantes • Evolução da língua: neologismos, termos em desuso • Actualizações oficiais da língua: acordo ortográfico • Processamento intensivo de dados • Necessita de centenas do horas de corpora • Necssita de peritos e cientistas em linguistica e língua natural • A I&D é melhor realizada por peritos e cientistas com conhecimento linguístico local!
Potenciar a indústria de software e a I&D locais • Investimento Directo Estrangeiro (IDE) • Em I&D • Na Indústria de Software Nacional • Potenciado com parceiras locais com a Microsoft • Universidades, Empresas, Institutos, Laboratórios e Unidades de I&D FCT Portuguesas • Protecção da Propriedade Intelectual • Industrializar e Exportar Software Nacional
Situação da indústria de software e da I&Dem Fala e Língua Natural, em Portugal
Indústria Portuguesa de software • PRIBERAM, www.priberam.pt • PT Inovação, www.ptinovacao.pt
A I&D Nacional em fala e língua natural • CLUL, Centro de Linguística da Universidade de Lisboa, Maria do Céu Viana • CLUNL, Centro de Estudos Comparados de Línguas e Literaturas Modernas, Universidade Nova de Lisboa, Maria Teresa Lino • CLUP/FLUP, Faculdade de Letras da Universidade do Porto, Belinda Maia • ILTEC (Instituto de Linguística Teórica e Computacional), Maria Helena Mira Mateus • L2F - Laboratório de sistemas de Língua Falada, Isabel Trancoso • LabEL-CAUTL/IST, Laboratório de Engenharia da Linguagem do Centro de Automática da Universidade Técnica de Lisboa, Instituto Superior Técnico, Elisabete Ranchhod • NLX - Grupo de Linguagem Natural do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa, António Branco • SINTEF, Oslo, Diana Santos • Departamento de Informática da Universidade do Minho, José João Dias de Almeida, Pedro Rangel Henriques • XLDB/LasiGE/FCUL- Centro de Recursos Distribuído para a Língua Portuguesa, Faculdade de Ciências da Universidade de Lisboa, Mário Gaspar da Silva
Oslo Odense Lisboa LabEL Coimbra Lisboa XLDB Porto Lisboa COMPARA Iniciativas de I&DLinguateca:www.linguateca.pt • Centro de recursos – distribuído – para o Processamento computacional da Língua Natural Portuguesa • Rede de grupos de investigação em PLN, iniciada em 2000 pela FCCN • Modelo IRA: Informação – Recursos – Avaliação I: > 1000 links Mais de 1,8 milhões de visitas ao sítio R:AC/DC, CETEMPúblico, COMPARA,Corpógrafo, Floresta Sintá(c)tica, WPT-03 Recursos (públicos) valiosos para o Português A:Morfolimpíadas, CLEF, HAREM: Avaliação conjunta para o Português • I & D no processamento do Português Braga
Iniciativas de I&DTECNOVOZ: Reconhecimento e Síntese de Fala • Projecto apoiado no âmbito dos PMDT (Portaria nº 1183/2001, de 15 Outubro); • Investimento: 12 Milhões Euros • Calendário: Dez. 2005 – Set. 2008 • Investigação em Consórcio, com 12 Organizações (4 ESCTN e 8 Empresas) • 166 Técnicos das Organizações Consórcio • Vai desenvolver 13 produtos/sistemas para 10 segmentos de mercado • Microsoft foi convidada para colaboração estreita
L2F - Laboratório de sistemas de Língua Falada http://speech.inesc.pt/ • Historial • Português falado desde anos 90 • 25 Investigadores (8 PhD) • Missão • Conversão Fala-para-Texto e Texto-para-Fala em Português: • Fazer a ponte entre a língua falada e a informação semântica subjacente • Tecnologias de base • Reconhecimento, síntese e codificação de fala • Ferramentas de PLN: • análise morfológica, sintáctica, semântica, geração, etc.
Exemplo de cooperação: desenvolvimento do modelo de fala Léxico Motor de Reconhecimento de Fala Corpora Parceiros de I&D e empresariais locais Empregados Microsoft locais Modelo Acústico Modelo de Língua Novo Lexico Novo Corpora Motor de Reconhecimento de Fala Localizado Novo Modelo Acústico Processo Iterativo até que o nível de qualidade seja atingido Novo Modelo de Língua
Estratégia de desenvolvimento de língua da Microsoft Ecosistema com 3as Partes para tecnologias de Fala e Língua Natural Desenvolvimento local e parcerias com peritos e cientistas do país Futuro: comunidade internacional dinâmica expandindo a tecnlogia • Piloto • Modelo de I&D em colaboração EUA-Europa (Portugal) • Parcerias locais estratégicas • “Modelo Português” passível de “exportação” Desenvolvimento em Redmond (EUA)
Iniciativa Microsoft de I&Dem Portugal - Estratégia • Fundação de um Centro de I&D em Interacção Natural Pessoa-Máquina • Director: Miguel Salles Dias • Ramo do grupo de Redmond • Recebe ferramentas e conhecimento do grupo de Redmond e da Microsoft Corporation • Inicia com projectos de Fala, Língua Natural e Escrita em Português • Tratará no médio-longo prazos, da interacção natural pessoa-computador em geral • Parcerias locais com Universidades, Empresas, Institutos, Laboratórios e Unidades de I&D FCT • I&D com recursos de ambas as partes • Acordos de partilha de Propriedade Intelectual
Iniciativa Microsoft de I&D em Portugal – Plano curto prazo • Objectivos a curto prazo (em estudo) • Obtenção de recursos linguísticos de Fala • Projecto 1: • Beta para demo Fala no desktop • Comandos e controlos básicos • Projecto 2: • Modelos de Reconhecimento de Fala para Telefonia • Versão localizada do Voice Command • Projecto 3: • Toolkit de Recursos para Desenvolvimento e Teste de FLN
Iniciativa Microsoft de I&Dem Portugal – Plano médio prazo • Objectivos a médio prazo (em estudo): • Projecto 4: Modelos de Língua e Modelos de Ditado no Desktop • Projecto 5: Componentes de Língua Natural • Projecto 6: Análise Gramatical • Projecto 7: Text To Speech – TTS • Colaboração com MSR: • Projecto 8: Machine Translation • Projecto 9: Interfaces multimodais em desktop • Projecto 10: Interfaces multimodais em mobilidade
Iniciativa Microsoft de I&Dem Portugal - Recursos • Recursos humanos – próprios (em estudo): • Director – Gestor de Programa • Desenvolvimento: 1 a 2 por projecto • Teste: 1 a 2 por projecto • Perito(a) em Linguística: 2 para os 10 projectos • Em “velocidade de cruzeiro, com todos os projectos a decorrer: podemos atingir os 25 recursos próprios • Em cada projecto vamos estabelecer parcerias estratégicas de mútuo interesse • Recursos humanos Microsoft + parceiros podem atingir os 75 • Investimento próprio(em estudo) : • No primeiro ano: 1.2 MEuro • Em “velocidade de cruzeiro”, com os 5 projectos a decorrer em simultâneo: 2 MEuro/ano
Conclusão • Microsoft: fala e língua natural são importantes • Cobertura extensa de línguas a nível global (ex: Word 12 suporta mais de 70 Línguas) • IDE em I&D • Colaboração com as empresas e os cientistas em Portugal • Juntos servimos melhor os utilizadores de computadores Portugueses
1º Centro de I&D Microsoft Tratamento computacional da fala e língua portuguesas Obrigadopela vossa atenção Miguel Salles Dias Director midias@microsoft.com
Sessão de perguntas e respostas midias@microsoft.com