1 / 36

CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego. Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej . piasecki @ pwr.wroc.pl 2013 - 04 - 17. Projekt CLARIN. CLARIN =

claude
Download Presentation

CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl2013-04-17

  2. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Projekt CLARIN • CLARIN = • Common Language Resources and Technology Infrastructure • Wspólne zasoby językowe i infrastruktura technologiczna • Część • europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) • Polskiej Mapy Drogowej Infrastruktury Badawczej • Cel • połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej • Obszar działania: nauki humanistyczne i społeczne

  3. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Projekt CLARIN • CLARIN ERIC - konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) • Członkowie • Austria • Bułgaria • Czechy • Dania • Estonia • Holandia • Niemcy • Polska • Dutch Language Union (organizacja międzypaństwowa) • Obserwatorzy • Norwegia

  4. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Podstawowe pojęcia • Zasoby językowe • zbiory danych i bazy danych opisujące język naturalny oraz jego użycie • sformalizowany opis wybranych aspektów języka naturalnego • Narzędzia językowe • programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego • automatyczna analiza struktur językowych, np. analiza składniowa • zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych • Technologia językowa = zasoby + narzędzia + infrastruktura • Infrastruktura językowa • wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

  5. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Zasoby językowe • Korpusy (duże zbiory) dokumentów tekstowych i nagrań mowy: • przykłady użycia (fragmenty, wypowiedzi lub całe dokumenty) • anotowane - opisane pod względem lingwistycznym w sformalizowany sposób (np. pod względem gramatycznym, czy też znaczenia) • Słowniki • morfologiczne, • własności gramatycznych słów, • nazw własnych, • leksykony semantyczne, leksykalne sieci semantyczne, • wielojęzyczne słowniki itp. • Gramatyki (sformalizowane) • Inne zasoby • np. schematy anotacji oraz metadanych, funkcje podobieństwa semantycznego słów, listy częstościowe, modele językowe itd.

  6. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Narzędzia językowe • Analizatory morfologiczne – rozpoznające znane słowa i przypisujące im opis własności gramatycznych • Programy do ujednoznaczniania znaczeń słów w tekście • Parsery (analizatory struktury) • dokonujące analizy składniowej • oraz semantycznej tekstu • Programy do rozpoznawania mowy i pisma ręcznego • Programy do analizy znaczenia i informacji wyrażonej w tekście • rozpoznawanie i klasyfikacja nazw własnych • rozpoznawanie powiązań anaforycznych • rozpoznawanie sytuacji • itp.

  7. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013)

  8. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości

  9. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi

  10. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg

  11. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby

  12. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu na zagrożenie powodziowepolicja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe

  13. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu na zagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7 koło Laatzen w pobliżu Hanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie

  14. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7 koło Laatzen w pobliżu Hanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna

  15. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna, przestrzenne

  16. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna, przestrzenne • elementy relacji: zamknięcie(Policja, Pas)

  17. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna, przestrzenne • elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie)

  18. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna, przestrzenne • elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen)

  19. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna, przestrzenne • elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower)

  20. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna, przestrzenne • elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) • sytuacje: • S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) • S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) • przyczyna(S1, S2), poprzedza(S1,S2)

  21. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna, przestrzenne • elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) • sytuacje: • S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) • S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) • przyczyna(S1, S2), poprzedza(S1,S2) • wiedza nadawcy: ??

  22. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – przykład • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • obiekty: miejscowości, drogi, części dróg, służby • sytuacje: zagrożenie powodziowe, zamknięcie • relacje: przyczyna, przestrzenne • elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) • sytuacje: • S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) • S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) • przyczyna(S1, S2), poprzedza(S1,S2) • wiedza nadawcy: ?? • powiązania z informacją w pozostałej części tekstu: ??, np. uszczegółowienie

  23. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – narzędzia • „Ze względu nazagrożenie powodziowepolicjazamknęłaboczny pas autostrady A7kołoLaatzenw pobliżuHanoweruw kierunku na południe.” • (Onet.pl za Deutsche Welle, 30 V 2013) • analiza morfologiczna: formy podstawowe, cechy morfologiczne <orth>zagrożenie</orth> <lex disamb="1"><base>zagrożenie</base><ctag>subst:sg:acc:n</ctag></lex> • płytka analiza składniowa, np. frazy i zależności • rozpoznawanie odniesień do obiektów (bytów nazwanych): miejscowości, drogi, części dróg, służby • rozpoznawanie relacji semantycznych: przyczyna, przestrzenne • elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) • rozpoznawanie sytuacji: zagrożenie powodziowe, zamknięcie • rozpoznawanie relacji czasowych • rozpoznanie relacji między fragmentami tekstu • odniesienie do bazy wiedzy kontekstowej

  24. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – stan bieżący • Analiza morfologiczna: formy podstawowe, cechy morfologiczne • Ujednoznacznienie opisów gramatycznych słów • Płytka analiza składniowa, np. frazy i zależności • Wydobywanie z tekstu słowników: • terminów (w tym wielowyrazowych) • nazw własnych • tezaurusów • Ujednoznacznienie znaczeń słów w tekście • Rozpoznawanie odniesień do obiektów (bytów nazwanych) • Ocena nastawienia emocjonalnego i rozpoznanie opinii • Rozpoznawanie relacji semantycznych • Rozpoznawanie sytuacji • Rozpoznawanie relacji czasowych • Rozpoznanie relacji między fragmentami tekstu • Analiza struktury dyskursu • Pełna interpretacja znaczenia tekstu • Architektura technologii językowych – połączenie modułów

  25. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza tekstu – CLARIN-PL • Analiza morfologiczna: formy podstawowe, cechy morfologiczne • Ujednoznacznienie opisów gramatycznych słów • Płytka analiza składniowa, np. frazy i zależności • Wydobywanie z tekstu słowników: • terminów (w tym wielowyrazowych) • nazw własnych • tezaurusów • Ujednoznacznienie znaczeń słów w tekście • Rozpoznawanie odniesień do obiektów (bytów nazwanych) • Ocena nastawienia emocjonalnego i rozpoznanie opinii • Rozpoznawanie relacji semantycznych • Rozpoznawanie sytuacji • Rozpoznawanie relacji czasowych • Analiza struktury dyskursu • Rozpoznanie relacji między fragmentami tekstu • Pełna interpretacja znaczenia tekstu • Architektura technologii językowych – połączenie modułów

  26. płaca wynagrodzenie 0,453229 pensja 0,370166 zarobek 0,359917 uposażenie 0,303791 emerytura 0,279672 zatrudnienie 0,270655 dochód 0,264029 renta 0,248828 wynagradzanie 0,239462 składka 0,227758 wydajność pracy 0,225918 czynsz 0,22524 stopa procentowa 0,224882 inflacja 0,219127 oprocentowanie 0,218563 zasiłek 0,216317 świadczenie 0,215161 podwyżka 0,213452 wydatek 0,210603 premia 0,210519 XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza relacji znaczeniowych

  27. ojczyzna naród0,168143 lud0,132219 kraj0,132182 rzeczpospolita0,128922 kraina0,118424 wolność0,116838 królestwo0,114325 ludzkość0,111024 państwo0,104643 religia0,104022 państwowość0,103556 chwała0,102265 honor0,101467 wiara0,100979 potęga0,0988643 potomek0,0979 imperium0,0976763 zbawiciel0,0975855 patriotyzm0,097074 bóg0,0968453 XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Analiza relacji znaczeniowych

  28. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Przykładowe zastosowania • Wyszukiwanie wielowyrazowych terminów lub nazw • w dowolnej formie gramatycznej • w różnych wersjach (pełnej, skróconej, częściowych akronimów) • powiązanie akronimów z terminami i nazwami • z uwzględnieniem wszystkich odwołań do terminu • ograniczenie wyszukiwania jedynie do tekstów określonego charakteru • Poglądowa mapa kolekcji dokumentów • grupy oparte na podobieństwie zawartości • krótkie poglądowe streszczenia • Wydobywanie cechy przypisywanych do obiektów, pojęć • atrybuty • opinie wartościujące

  29. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Przykładowe zastosowania • Automatyczne wydobywanie słownika typowego dla danej dziedzinie • wyrazy i wielowyrazowe terminy, zwroty, nazwy itd. • rozpoznanie kontekstów znaczeniowych w jakich są używane wyrazy • powiązania znaczeniowe • grupy tematyczne • powiązanie słownictwa z grupami ludzi • Rozpoznawanie współwystępowania obiektów w związkach lub sytuacjach • analiza statystyczna rozpoznanych powiązań i sytuacji – w wielkiej skali na klastrach obliczeniowych • automatyczne wydobywanie sieci społecznościowych • Analiza struktury dyskursu • rozpoznawanie aktów dialogu (mowy) • schematy i odniesienia do stereotypów

  30. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Bariery w dostępie • Fizyczna • narzędzia i zasoby nie są dostępne w sieci • Informacyjna • brak opisu narzędzi i zasobów • brak katalogów i możliwości łatwego odnalezienia • Technologiczna • brak standardów, możliwości łączenia elementów technologii • brak wspólnej platformy – różnorodność rozwiązań technologicznych • brak sprzętu o określonych parametrach • Wiedzy • wymagane umiejętności programistyczne • wymagana wiedza z zakresu inżynierii języka naturalnego • Prawna • licencje ograniczające dostęp i wykorzystanie • szczególnie w odniesieniu do korpusów

  31. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Infrastruktura językowa

  32. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Funkcje infrastruktury • Odpowiedni system składowania (repozytoryjny) • trwałość danych (system archiwizacji) • jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) • metadane o złożonej strukturze (CMDI) • zarządzanie metadanymi zgodnie z przyjętymi standardami (np. ISOcat, RELcat) • wirtualne kolekcje oparte na metadanych • Rozproszona identyfikacja i autoryzacja użytkowników • oparta na federacjach narodowych • zasada jednego konta i jednego logowania • Integracja zasobów i usług • w oparciu o usługi sieciowe (Web Services) • dostęp poprzez aplikacje sieciowe • brak konieczności ściągania i instalowania

  33. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL Aplikacje – przykłady • Ułatwienie dostępu • połączony katalog metadanych • federacyjne wyszukiwanie w korpusach tekstu i mowy • Gromadzenie i zarządzanie danymi • tworzenie własnych kolekcji • rozszerzanie istniejących • wykorzystanie istniejących archiwów • Rozszerzenie wyszukiwania w zasobach • automatyczna generacja metadanych w oparciu o narzędzia językowe • Wydobywanie informacji i wiedzy • automatyczna generacja zestawień • analiza statystyczna oparta na faktach wydobytych z korpusu

  34. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL CLARIN-PL • Konsorcjum CLARIN-PL: polska część infrastruktury CLARIN • Centrum Technologii Językowych CLARIN-PL www.clarin-pl.eu • Politechnice Wrocławskiej, Grupa Naukowa G4.19 • zapewniające funkcje sieciowe infrastruktury CLARIN • udostępniające • repozytorium • zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami • wsparcie dla użytkowników – naukowców • Korpusy • Uzupełnienie brakujących elementów podstawowej technologii językowej dla języka polskiego • Wybrane zasoby dwujęzyczne

  35. XV OZ SocjologicznySzczecin2013-09-12 CLARIN-PL CLARIN-PL: projekt • Okres: 2013-2015 • Partnerzy: • Politechnika Wrocławska, Instytut Informatyki (lider) • Instytut Podstaw Informatyki Polskiej Akademii Nauk • Instytut Slawistyki Polskiej Akademii Nauk • Polsko-Japońska Wyższa Szkoła Technik Komputerowych • Uniwersytet Łódzki • Uniwersytet Wrocławski

  36. Dziękuję bardzo za uwagę

More Related