360 likes | 486 Views
Pomůcky k terminologickému vyhledávání. Ing. Miroslav HEROLD, CSc. mherold @ volny.cz. Hlediska určující výběr nástroje. Co budeme prohledávat; Kde všude je to rozptýleno; Jak často budeme toto pomocné hledání potřebovat; Konfigurace HW;
E N D
Pomůcky k terminologickému vyhledávání Ing. Miroslav HEROLD, CSc. mherold@volny.cz
Hlediska určující výběr nástroje • Co budeme prohledávat; • Kde všude je to rozptýleno; • Jak často budeme toto pomocné hledání potřebovat; • Konfigurace HW; • Kdo nám zaplatí za kvalitnější vyhledávání nejasných termínů = lepší vyhledávací nástroje = vyšší kvalita cílového překladu. V současné tržní situaci většina odběratelů chce překlad co možno nejlevněji, kvalitu by chtěli, ale platit pokud možno ani floka. • Připojení k Internetu = majitelů pevných linek se následující přednáška týká jen zčásti.
Druhy nástrojů • Prohledávání jediného souboru (P1S) • Prohledávání jediného adresáře (P1A) • Přímo na HD • Pomocí vyhledávací tabulky (search table, ST) • Prohledávání více adresářů (PMA) • Přímo na HD • Pomocí vyhledávací tabulky • Prohledávání celého HD počítače (PT) – musí vždy použít vyhledávací tabulku • Některé nástroje umožňují omezit hledání na určité typy souborů podle rozšíření názvu (DOC, CSV, TXT ...)
Co budeme prohledávat • Staré „slovníčky“ (dvojjazyčné) vytvořené k předchozím projektům/překladům (nejčastěji tabulka DOC, XLS, event. CSV nebo TXT) • Materiály jednojazyčné, vysvětlující glosáře (od klientů, z webu) • Zapomětliví budou hledat: • nějaký konkrétní soubor, ať již překladu nebo podkladu od klienta, který mají, ale neví kde; • mail s objednávkou nebo jiným potřebným obsahem. • Publikace stažené z webu, bohužel, nejčastěji ve formátu PDF.
Co budeme prohledávat (2) • Uživatelé libovolného CAT SW budou chtít prohledávat překladové paměti (TM): • Mají-li (starší) CAT obsluhující on-line jen 1 TM, další TM z téhož CAT • Pokud kvůli klientovi pracují v konkrétním CAT a při tom tématicky příbuzné projekty překládali v jiném (nejčastěji TRADOS x Transit, popř. DejaVue) • Pokud mají smůlu a klient vyžaduje IBM Translation Manager, který nemá „concordance search“, musí kvůli této funkci použít externí vyhledávací SW
Co budeme prohledávat (3) • Jak??? • Chceme jen sousloví uzavřené v uvozovkách („bleeding valve“), nebo • Potřebujeme použít logických operátorů (AND, NOT, OR ...) • Či dokonce další omezující atributy (datum, priorita ...)
Kde jsou data rozptýlena • Nejjednodušší – vlastní glosáře (GLS) + dodané klientem neustále přidáváme do jednoho dlouhého XLS souboru • GLS v jediném adresáři, jediné úrovni • GLS ve strukturovaném adresáři nebo více adresářích • Hledání v blíže neurčeném adresáři
Hledání v jediném XLS • Ukázka hledání v XLS souboru, cca 4200 záznamů, • I na relativně pomalých počítačích rychlá odezva • Hledá fulltextově • Duplicitu záznamů si ale musí ošetřit uživatel manuálně
Jak často hledáme • Uživatel CAT hledá relativně zřídka – historické překlady mu prohledává překladová paměť, nejčastější výrazy má ve vestavěném GLS (popř. více) = vystačí s typem BEZ ST • Uživatelé bez CAT mající velké elektronické slovníky umožňující doplňování uživatelského slovníku dávkovým způsobem také nemusí hledat tak často = vystačí s typem BEZ ST • Čím častěji hledáme, tím více vystupuje do popředí rychlost hledání = nutnost použít typu s ST
Ukázka použití elektronického slovníku • Millennium dovoluje import z TAB-delimited TXT souboru (přidáno 4245 záznamů). Musíme tedy být schopni výchozí terminologický zdroj převést do tohoto formátu. • Při importu hlídá duplicity • Po importu nutná komprese databáze = přidání 4200 záznamů „nafouklo“ databázi, kompresí se zmenší o 190 MB • Výhoda = současné hledání se slovníkem • Rozhraní lze použít i v případě, že vlastní slovník Mill7 je jen základní. (Stojí něco okolo 300,- Kč)
Konfigurace HW • Velikost pevného disku dnes již prakticky nerozhoduje, i ty nejchudší konfigurace mají většinou HD > 20 GB • Může být rozhodující velikost RAM = čím větší RAM, tím větší část ST v ní může být, tím vyšší rychlost hledání
WinGrep • Konstrukčně nejstarší prohledávač, ale dodnes jeden z nejvýkonnějších
WinGrep (Typ PMA) • Výhody • Velmi skromný na prostředky – prohledává přímo na HD a při tom velmi rychle. Způsobeno skutečností, že využívá takřka výhradně vnitřní služby systému. • Z více adresářů umožní vybírat po jednotlivých souborech • Nevýhody • Musí se opisovat, nelze kopírovat • Soubory výhradně TXT + CSV • Historické zobrazení názvů souboru 8.3, špatně se vybírají, musí být pomocná tabulka • Zobrazuje pouze prvních 256 znaků ze záznamu • Nepamatuje si ani jedno předchozí nastavení
QuickSearch (typ P1A) • Je z Webu, ale nevím odkud – používá se u IBM dodavatelů
QuickSearch (typ P1A) • Výhody • Hledá přímo na HD • Zabere jen 6,5 MB RAM • Zobrazuje celý název souboru • Zobrazí celý nalezený záznam • Lze z něj kopírovat • Umožňuje následné hledání (podmnožinu) • Nevýhody • Velmi pomalý – pokus o prohledávání více než 30 MB vede již na čekání, 60 MB je na koukání z okna • Soubory výhradně TXT + CSV • V rámci daného adresáře výběr jen hvězdičkovou konvencí • Pamatuje si jediné poslední nastavení
Search + Replace (typ PMA) • Shareware = www.funduc.com, www.searchandreplace.com • Slouží nejen k vyhledávání, ale také hromadným úpravám TXT/CSV souborů.
Search + Replace • Výsledky hledání lze zobrazit ve volitelné délce (důležité při prohledávání překladových pamětí • Umí prohledávat i ZIP archivy • Hledání lze omezit na soubory v intervalu dat nebo velikostí (vhodné k vyloučení velkých překladových pamětí, aby se nezdržovalo
Search + Replace • Z vyhledávacích programů prohledávajících disk v zadané části je nejvhodnějším kompromisem • I pro rozsáhlé adresáře = přijatelný: 269 MB TXT + CSV souborů prohledá za méně než 10 vteřin • Rychlejší i obsáhlejší než QuickSearch (má historii dotazů i prohledávaných míst) • Je pomalejší než WinGrep, ale v porovnání s ním má mnohem větší luxus práce • Poměrně skromný na RAM = pouhých 6 MB • Dovoluje prohledávání nalezené množiny • Nevýhoda = kopírování je nepřímé (přes Notepad, TextPad atp.)
Search Within (typ PMA, s ST) • Freeware = www.searchwithin.com; pokud uživatele otravuje nabíhání reklamní HTML stránky, za 9,90 USD je „čistá“ verze • Umí indexovat nejen TXT, ale i DOC, XLS, PDF, PPT a Wordperfect soubory
Search Within (typ PMA, s ST) • Nabízí boolovské operátory AND a OR, hledání fráze • Nevýhoda = viz předchozí slide = ve výsledku vidíme jen název souboru, musí se dohledávat otevřením příslušného souboru • Zatím však jediný program umožňující současné prohledávání více PDF souborů najednou Dovoluje spouštět indexování na pozadí v určitou hodinu dne – kdy to nebude rušit
Search Within (typ PMA, s ST) • Vzhledem k nutnosti otevírat soubory v nativní aplikaci (Acrobat Reader = pomalé hledání) je vhodný jako poslední záchrana, když ostatní vyhledávače nic nenajdou, nebo to není to pravé ořechové.
Find Personal • Komerční produkt, cena cca 1500,- Kč, mezi překladatelské prohledavače patří spíše okrajově; hlavní nasazení v místech, kde se filtruje příchozí pošta a směřuje do různých míst. • Je schopen (viz předchozí slide) indexovat více formátů • Pro všechny nalezené soubory je nutno otevřít buď v originální aplikaci nebo dedikovaném prohlížeči
FileHand • Shareware – první měsíc funguje naplno, potom už jen dává výsledky bez výpisu, nelze indexovat • www.filehand.com • Nejpřitažlivější je množství formátů, které umí indexovat • Určitý nedostatek = TXT soubory, které obsahují znakové sady CE, se musí ukládat v UNICODE, aby se zobrazily správně • PDF soubory zobrazí správně pouze pro Latin1 – tím je takřka degradován na úroveň SearchWithin • Indexování trvá poměrně dlouho – 6,5 MB se indexovalo 3:45. ST vzrostla o více než 8 MB
FileHand • Přednosti • Schopnost indexace i velmi dlouhých souborů (6,5 MB úspěšně) • Zobrazí místo prvního výskytu hledaného řetězce a následně je možné pojíždět po souboru na další výskyty • Široká paleta možností rozšířeného hledání • Filtrace podle typu souboru, částečného názvu souboru nebo data
XBench Client • Je ZDARMA ke stažení na adrese: www.apsic.com • Je vhodný pro všechny překladatele počítačových textů, kteří musí zohledňovat terminologii Microsoft (ať již dobrovolně nebo z doporučení klienta) • Bleskurychle prohledává až 96 MB kompletní terminologické databáze publikované Microsoftem na: ftp://ftp.microsoft.com/developr/msdn/newup/Glossary
XBench Client • Lze přímo kopírovat • Ze souborů lze vybrat do 3 priorit – podle překládaného tématu • Má historii dotazů • Lze definovat několik projektů, z nichž každý prohledává nějakou podmnožinu • Spolupracuje přímo na horké klávesy s MS Office, MS Internet Explorer + některými dalšími aplikacemi (tyto horké klávesy lze přeprogramovat)
XBench Client • Výhoda • Nevytváří ST na HD, ale v RAM - Nevýhoda – jen 1 ale velká • Potřebuje minimálně 210 MB RAM; to znamená že fyzická RAM + odkládací systémová oblast na HD musí mít (pro rozumnou práci s dalšími SW) minimálně 800 MB; swapování pochopitelně zdržuje, takže doporučená fyzická RAM = minimálně 512 MB.
XBench Professional • V tuto chvíli beta verze, ke stažení jen pro přihlášené a schválené beta testery, po dokončení bude v prodeji za ??? USD. • Vlastnosti (výhody/nevýhody) stejné jako verze Client • Podstatný rozdíl = prohledávatelná množina formátů • V případě nenalezení v oindexovaných souborech možnost navázání na Google (nebo jiný webový prohledávací engine)
XBench Professional • Při indexaci eliminuje duplikáty • Podíváme-li se na seznam formátů, je to jediná aplikace, která zejména uživateli CAT SW umožňuje využívání terminologických zdrojů z předchozích projektů, aniž by musel velmi složitě konvertovat • V současné době je to nejdokonalejší nástroj v této kategorii
LookOut Není univerzální prohledávač, ulehčuje práci uživatelům MS Outlook Freeware = www.lookoutsoft.com
LookOut • Umí indexovat i přílohy pošty (DOC, XLS, PPT,HTML,TXT) • Lze omezovat hledání datem OD-DO • Okno na tvorbu dotazu dovoluje filtraci kterýmkoliv parametrem, který MS Outlook obhospodařuje • Ve srovnání s vlastním hledáním MS Outlook je bleskurychlé • Pamatuje si předchozí hledání (historii)
Google Desktop • Představovat rozhraní = nošení dříví do lesa, webový Google zná snad každý • Se stejnou obsluhou je k dispozici prohledavač vašeho vlastního počítače • V tuto chvíli ke stažení zdarma na desktop.google.com/dc.html • Neuvěřitelně malá ST = cca 233 MB na celý 27 GB HD • Zobrazí v případě vícejazyčného slovníku místo prvního výskytu = vidíme hned překlad • Jediná nevýhoda = indexuje jen asi prvních 2000 slov – pouze odhad podle míst, která již nenašel
Google Desktop • Prohledává nejen celý počítač, ale zaznamenává také navštívené webové stránky
Závěr Jak se tedy vybavit? • Kromě majitelů geniální paměti, kteří nikdy nehledají zapomenuté soubory, je pro všechny ideální Google Desktop. De facto mapa celého počítače, že nechytá dlouhé soubory nevadí. ZADARMO • Pokud je terminologie jen trochu rozstrkaná, je vhodný některý typ PMA (nejspíše Search + Replace) • Pokud se musí prohledávat PDF – pro Latin 1 = FileHand, pro Latin 2 (Win CE) = SearchWithin nebo Find Personal • Pro CAT uživatele = XBench