450 likes | 569 Views
Prostředky IT = jedno z protistresových řešení. Ing. Miroslav HEROLD, CSc. mherold @ volny.cz. Cílová skupina. Přednáška je určena především překladatelům vědeckých, technických či humanitních směrů, kde prioritním kritériem je převod INFORMAČNÍHO OBSAHU do cílového jazyka
E N D
Prostředky IT = jedno z protistresových řešení Ing. Miroslav HEROLD, CSc. mherold@volny.cz
Cílová skupina • Přednáška je určena především překladatelům vědeckých, technických či humanitních směrů, kde prioritním kritériem je převod INFORMAČNÍHO OBSAHU do cílového jazyka • Uváděné postupy jsou použitelné zčásti nebo nejsou použitelné vůbec v překladech • Krásné literatury – v mnoha případech se musí převádět do cílového jazyka spíše pocity čtenáře než verbální informace. Pomůcky = synonymické slovníky bohatě ilustrované příklady, např. OED • Politické texty – informační obsah konverguje k nule, cílem je vzbudit v posluchači/čtenáři iracionální emoce • Marketingové texty – informační obsah jednostranný, manipulativní; cílem opětně spíše emoce než selský rozum. Slovníky či glosáře nepostihují konotace v jednotlivých jazycích.
Protistresová řešení • Stres = soubor podnětů nadměrně nepříznivě zatěžujících organizmus v oblasti duševní i tělesné; stav takového zatížení, zátěž • Krize = těžká, svízelná situace, svízel, potíž, tíseň, zmatek
Co způsobuje stres? • Nedostatek terminologických informací v cílovém jazyce – hledání ve slovnících • Přebytek terminologických informací v cílovém jazyce, pokud použitý slovník je rozsáhlý a dostatečně neupřesňuje oborově, nutnost dalších glosářů či kontextových informací • Nedostatek stylistických informací = o cílové skupině, tj. kdo to bude číst • Časové hledisko • Příliš mnoho NS/den kvůli termínu • Příliš mnoho NS/den kvůli nízké jednotkové ceně = 200,- Kč / hod nikomu sebeúctu nepřidá
Preventivní opatření • Organizační • Znát svoji denní kapacitu pro různé typy textů (důkladná statistika minulých projektů) • Znát svoji odolnost vůči krátkodobému přetížení (2-3 dny lze dělat 12 hod. denně, delší doba = cvokárna). Nedodržení = STRES • Znát svoji cenu v Kč/hod. S přihlédnutím k předchozím 2 položkám, NEBRAT zakázky, které nesplňují tento požadavek: jinak = FRUSTRACE, pocit dělání pod sebe. • Připravenost • Archivovat VEŠKERÉ staré překlady, pokud možno ve formátu PŘEKLADOVÝCH PAMĚTÍ (2jazyčné), jsou-li DOC, tak mít shodně pojmenovány zdrojové a cílové soubory, odlišené pouze příponou • Archivovat VEŠKERÉ staré glosáře, ať již vlastní nebo převzaté od zadavatelů • Mít dostatečné SW vybavení k efektivnímu prohledávání výše uvedených archivů
Hlediska určující výběr SW nástroje k prohledávání • Co budeme prohledávat; • Kde všude je to rozptýleno; • Jak často budeme toto pomocné hledání potřebovat; • Konfigurace HW; • Kdo nám zaplatí za kvalitnější vyhledávání nejasných termínů = lepší vyhledávací nástroje = vyšší kvalita cílového překladu. V současné tržní situaci většina odběratelů chce překlad co možno nejlevněji, kvalitu by chtěli, ale platit pokud možno ani floka. • Připojení k Internetu = vytáčené připojení x ADSL x pevná linka.
Druhy nástrojů • Prohledávání jediného souboru (P1S) • Prohledávání jediného adresáře (P1A) • Přímo na HD • Pomocí vyhledávací tabulky (search table, ST) • Prohledávání více adresářů (PMA) • Přímo na HD • Pomocí vyhledávací tabulky • Prohledávání celého HD počítače (PT) – musí vždy použít vyhledávací tabulku • Některé nástroje umožňují omezit hledání na určité typy souborů podle rozšíření názvu (DOC, CSV, TXT ...) • Hledání na Internetu = Google, Yahoo atd.
Co budeme prohledávat • Staré „slovníčky“ (dvojjazyčné) vytvořené k předchozím projektům/překladům (nejčastěji tabulka DOC, XLS, event. CSV nebo TXT) • Materiály jednojazyčné, vysvětlující glosáře (od klientů, z webu) • Zapomětliví budou hledat: • nějaký konkrétní soubor, ať již překladu nebo podkladu od klienta, který mají, ale neví kde; • mail s objednávkou nebo jiným potřebným obsahem. • Publikace stažené z webu, bohužel, nejčastěji ve formátu PDF.
Co budeme prohledávat (2) • Uživatelé libovolného CAT SW budou chtít prohledávat překladové paměti (TM): • Mají-li (starší) CAT obsluhující on-line jen 1 TM, další TM z téhož CAT • Pokud kvůli klientovi pracují v konkrétním CAT a při tom tématicky příbuzné projekty překládali v jiném (nejčastěji TRADOS x Transit, popř. DejaVue) • Pokud mají smůlu a klient vyžaduje IBM Translation Manager, který nemá „concordance search“, musí kvůli této funkci použít externí vyhledávací SW
Co budeme prohledávat (3) • Jak??? • Chceme jen sousloví uzavřené v uvozovkách („bleeding valve“), nebo • Potřebujeme použít logických operátorů (AND, NOT, OR ...) • Či dokonce další omezující atributy (datum, priorita ...)
Kde jsou data rozptýlena • Nejjednodušší – vlastní glosáře (GLS) + dodané klientem neustále přidáváme do jednoho dlouhého XLS souboru • GLS v jediném adresáři, jediné úrovni • GLS ve strukturovaném adresáři nebo více adresářích • Hledání v blíže neurčeném adresáři
Hledání v jediném XLS • Ukázka hledání v XLS souboru, cca 4200 záznamů, • I na relativně pomalých počítačích rychlá odezva • Hledá fulltextově • Duplicitu záznamů si ale musí ošetřit uživatel manuálně
Jak často hledáme • Uživatel CAT hledá relativně zřídka – historické překlady mu prohledává překladová paměť, nejčastější výrazy má ve vestavěném GLS (popř. více) = vystačí s typem BEZ ST • Uživatelé bez CAT mající velké elektronické slovníky umožňující doplňování uživatelského slovníku dávkovým způsobem také nemusí hledat tak často = vystačí s typem BEZ ST • Čím častěji hledáme, tím více vystupuje do popředí rychlost hledání = nutnost použít typu s ST
Ukázka použití elektronického slovníku • Millennium dovoluje import z TAB-delimited TXT souboru (přidáno 4245 záznamů). Musíme tedy být schopni výchozí terminologický zdroj převést do tohoto formátu. • Při importu hlídá duplicity • Po importu nutná komprese databáze = přidání 4200 záznamů „nafouklo“ databázi, kompresí se zmenší o 190 MB • Výhoda = současné hledání se slovníkem • Rozhraní lze použít i v případě, že vlastní slovník Mill7 je jen základní. (Stojí něco okolo 300,- Kč)
Konfigurace HW • Velikost pevného disku dnes již prakticky nerozhoduje, i ty nejchudší konfigurace mají většinou HD > 80 GB • Může být rozhodující velikost RAM = čím větší RAM, tím větší část ST v ní může být, tím vyšší rychlost hledání
WinGrep • Konstrukčně nejstarší prohledávač, ale dodnes jeden z nejvýkonnějších
WinGrep (Typ PMA) • Výhody • Velmi skromný na prostředky – prohledává přímo na HD a při tom velmi rychle. Způsobeno skutečností, že využívá takřka výhradně vnitřní služby systému. • Z více adresářů umožní vybírat po jednotlivých souborech • Nevýhody • Musí se opisovat, nelze kopírovat • Soubory výhradně TXT + CSV • Historické zobrazení názvů souboru 8.3, špatně se vybírají, musí být pomocná tabulka • Zobrazuje pouze prvních 256 znaků ze záznamu • Nepamatuje si ani jedno předchozí nastavení
QuickSearch (typ P1A) • Používá se u IBM dodavatelů
QuickSearch (typ P1A) • Výhody • Hledá přímo na HD • Zabere jen 6,5 MB RAM • Zobrazuje celý název souboru • Zobrazí celý nalezený záznam • Lze z něj kopírovat • Umožňuje následné hledání (podmnožinu) • Nevýhody • Velmi pomalý – pokus o prohledávání více než 30 MB vede již na čekání, 60 MB je na koukání z okna • Soubory výhradně TXT + CSV • V rámci daného adresáře výběr jen hvězdičkovou konvencí • Pamatuje si jediné poslední nastavení
Search + Replace (typ PMA) • Shareware = www.funduc.com, www.searchandreplace.com • Jako freeware jsou k dispozici Word Search and Replace, Excel Search and Replace a PowerPoint Search and Replace • Slouží nejen k vyhledávání, ale také hromadným úpravám TXT/CSV souborů.
Search + Replace • Výsledky hledání lze zobrazit ve volitelné délce (důležité při prohledávání překladových pamětí • Umí prohledávat i ZIP archivy • Hledání lze omezit na soubory v intervalu dat nebo velikostí (vhodné k vyloučení velkých překladových pamětí, aby se nezdržovalo
Search + Replace • Z vyhledávacích programů prohledávajících disk v zadané části je nejvhodnějším kompromisem • I pro rozsáhlé adresáře = přijatelný: 269 MB TXT + CSV souborů prohledá za méně než 10 vteřin • Rychlejší i obsáhlejší než QuickSearch (má historii dotazů i prohledávaných míst) • Je pomalejší než WinGrep, ale v porovnání s ním má mnohem větší luxus práce • Poměrně skromný na RAM = pouhých 6 MB • Dovoluje prohledávání nalezené množiny • Nevýhoda = kopírování je nepřímé (přes Notepad, TextPad atp.)
Search Within (typ PMA, s ST) • Freeware = www.searchwithin.com; pokud uživatele otravuje nabíhání reklamní HTML stránky, za 9,90 USD je „čistá“ verze • Umí indexovat nejen TXT, ale i DOC, XLS, PDF, PPT a Wordperfect soubory
Search Within (typ PMA, s ST) • Nabízí boolovské operátory AND a OR, hledání fráze • Nevýhoda = viz předchozí slide = ve výsledku vidíme jen název souboru, musí se dohledávat otevřením příslušného souboru • Umožňuje současné prohledávání více PDF souborů najednou Dovoluje spouštět indexování na pozadí v určitou hodinu dne – kdy to nebude rušit
Search Within (typ PMA, s ST) • Vzhledem k nutnosti otevírat soubory v nativní aplikaci (Acrobat Reader = pomalé hledání) je vhodný jako poslední záchrana, když ostatní vyhledávače nic nenajdou, nebo to není to pravé ořechové.
Find Personal • Komerční produkt, cena cca 1500,- Kč, mezi překladatelské prohledavače patří spíše okrajově; hlavní nasazení v místech, kde se filtruje příchozí pošta a směřuje do různých míst. • Je schopen (viz předchozí slide) indexovat více formátů • Pro všechny nalezené soubory je nutno otevřít buď v originální aplikaci nebo dedikovaném prohlížeči
FileHand • Shareware – první měsíc funguje naplno, potom už jen dává výsledky bez výpisu, nelze indexovat • www.filehand.com • Nejpřitažlivější je množství formátů, které umí indexovat • Určitý nedostatek = TXT soubory, které obsahují znakové sady CE, se musí ukládat v UNICODE, aby se zobrazily správně • PDF soubory zobrazí správně pouze pro Latin1 – tím je takřka degradován na úroveň SearchWithin • Indexování trvá poměrně dlouho – 6,5 MB se indexovalo 3:45. ST vzrostla o více než 8 MB
FileHand • Přednosti • Schopnost indexace i velmi dlouhých souborů (6,5 MB úspěšně) • Zobrazí místo prvního výskytu hledaného řetězce a následně je možné pojíždět po souboru na další výskyty • Široká paleta možností rozšířeného hledání • Filtrace podle typu souboru, částečného názvu souboru nebo data
XBench • Je ZDARMA ke stažení na adrese: www.apsic.com • Je vhodný pro všechny překladatele počítačových textů, kteří musí zohledňovat terminologii Microsoft (ať již dobrovolně nebo z doporučení klienta) • Bleskurychle prohledává až 96 MB kompletní terminologické databáze publikované Microsoftem na: ftp://ftp.microsoft.com/developr/msdn/newup/Glossary
XBench • Umí prohledávat: • TXT s oddělovačem TAB • Glosáře Microsoft (soubory .csv) • Exportované paměti Trados Workbench • Exportované glosáře Trados Multiterm • Soubory Trados TagEditoru • 2jazyčné soubory „uncleaned“ Trados Word • Instalované složky IBM TranslationManageru • Exportované slovníky IBM TranslationManageru • SouborySDLX .itd • ProjektyStar Transit • Glosáře Wordfastu • Paměti Wordfast
XBench • Lze přímo kopírovat • Ze souborů lze vybrat do 3 priorit – podle překládaného tématu • Má historii dotazů • Lze definovat několik projektů, z nichž každý prohledává nějakou podmnožinu • Spolupracuje přímo na horké klávesy s MS Office, MS Internet Explorer + některými dalšími aplikacemi (tyto horké klávesy lze přeprogramovat)
XBench • Výhoda • Nevytváří ST na HD, ale v RAM - Nevýhoda – jen 1 ale velká • Potřebuje pro MS GLS minimálně 210 MB RAM; to znamená že fyzická RAM + odkládací systémová oblast na HD musí mít (pro rozumnou práci s dalšími SW) minimálně 800 MB; swapování pochopitelně zdržuje, takže doporučená fyzická RAM = minimálně 512 MB.
LookOut Není univerzální prohledávač, ulehčuje práci uživatelům MS Outlook Freeware = www.lookoutsoft.com
LookOut • Umí indexovat i přílohy pošty (DOC, XLS, PPT,HTML,TXT) • Lze omezovat hledání datem OD-DO • Okno na tvorbu dotazu dovoluje filtraci kterýmkoliv parametrem, který MS Outlook obhospodařuje • Ve srovnání s vlastním hledáním MS Outlook je bleskurychlé • Pamatuje si předchozí hledání (historii)
Yahoo! Desktop • Představovat = nošení dříví do lesa, webový Yahoo zná snad každý • Se stejnou obsluhou je k dispozici prohledavač vlastního počítače • V tuto chvíli ke stažení zdarma na http://desktop.yahoo.com/ • Indexuje soubory až do řádu 15 MB (větší nebyl testován) = výhoda oproti Google Desktop • Indexaci lze podrobně ovládat nastavením (čím přesnější, tím menší ST) • ST na celý 40 GB HD = cca 1,2 GB • Zobrazí v případě vícejazyčného slovníku/překladové paměti místo prvního výskytu = vidíme hned překlad; platí jen pro soubory do cca 850 kB; větší soubory = nutno klepnout do zobrazeného začátku souboru a použít opětovné hledání CTRL-F • Umožňuje zúžit hledání podle názvu souboru (hvězdičková konvence), data/času vytvoření, velikosti, typu souboru, cesty • Přímo z Desktopu lze prohledávat i Web
Yahoo! Desktop • Nevýhody • Čtyř a víceslovná spojení v delších souborech dělají potíže = nelze použít pro hledání celých vět. Nutno vybrat charakteristické 3 slova. • Indexuje sice i ZIP soubory, ale při nalezení hledaného sousloví ve větším souboru (> 2 MB) postupovat opatrně, rozbalování dokáže i relativně výkonný počítač (CPU 2,6 GHz) na hodně minut zahltit • V současnosti neindexuje síťové disky. Pro agentury je vhodný komerční produkt Yahoo Enterprise (neměl jsem k dispozici)
Hledání na webu • Dnes již nepředstavitelně rozsáhlá databáze • Vyhledávací programy = Google, Yahoo, ... Seznam • Vyhledávání textových informací vyžaduje určitou znalost, kam sahnout, respektive jak omezit hledání, abychom nebyli zahlceni stovkami či dokonce tisíci odkazů • Jedna z možností = servery nabízející odkazy na on-line slovníky • JTP = http://www.jtpunion.org/odkazy/ • Xlation = http://www.xlation.com/glossaries/
Hledání na webu • Xlation = indexováno podle jazyků a podle oborů • 1683 glosářů
Hledání na webu • Umožňuje vyhledávání podle více jazyků • Vyhledávání podle více témat • Fulltextové vyhledávání s diakritikou
Hledání na webu • Další zajímavé odkazy • europa.eu.int/eurodicautom= terminologická databáze Evropske komise • http://lipas.uwasa.fi/comm/termino/collect/ = odkazy na terminologické databáze, tříděné podle jazyků + oborů • http://dictionary.cambridge.org/ = celkem 5 slovníků vydaných Cambridge University Press • http://www.slovnik.cz/ = celkem 7 jazyků; EN,D,F,I,E,RU,Latina do češtiny • http://www.bartleby.com/ = American Heritage Dictionary + encyklopedie + citáty etc. • http://www.onelook.com/ = prohledává na 1 dotaz 974 slovníků
Nebojte se strojového překladu • Počítač v dohledné době překladatele nenahradí
Nebojte se strojového překladu • I prodávaný SW zatím nehrozí. Za 790,- Kč ročně dostane uživatel takovýto překlad internetových stránek
Závěr Jak se tedy vybavit? • Kromě majitelů geniální paměti, kteří nikdy nehledají zapomenuté soubory či termíny, je pro všechny ideální Yahoo! Desktop. De facto mapa celého počítače, která je ZADARMO • Pokud je terminologie jen trochu rozstrkaná, je vhodný některý typ PMA (nejspíše Search + Replace); tutéž práci ale zastane Yahoo! Desktop s rozumně zadanou podmnožinou stromu • Překladatel, který potřebuje prohledávat TM/GLS více výrobců, sáhne nejspíše po Apsic XBench.