270 likes | 440 Views
1. Corpora. 1.1Validate manualNAACL 2003 (corpus paralel englez-rom
E N D
1. Resurse lingvistice computationale / aplicatii PLN pentru Limba Româna Institutul de Cercetari pentru Inteligenta Artificiala
2. 1. Corpora 1.1 Validate manual
NAACL 2003 (corpus paralel englez-român continând aproximativ 1.6 milioane de entitati segmentate în cele doua limbi )
Orwell, 1984 (corpus paralel englez-român cu aproximativ 250 mii de entitati segmentate în cele doua limbi)
Platon, Republica (corpus paralel franceza-româna cu aproximativ 250 mii de entitati segmentate)
Ziare (corpus realizat din diverse articole din Evenimentului Zilei)
ROCO (corpus românesc din material jurnalistic de aproximativ 7.1 milioane de entitati segmentate)