130 likes | 393 Views
Jak na převody do pdf. Jan Mach, VŠE Radka Tichá, ZČÚ. Definice PDF.
E N D
Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ Jan MachRadka Tichá
Definice PDF Portable Document FormatFormát na bázi PostScriptu pro ukládání dokumentů nezávisle na softwaru a hardwaru, na kterém byly vytvořeny. PDF dokument může obsahovat nejen text, ale i obrázky, přičemž je zajištěno, že výsledný vzhled bude na všech zařízeních stejný. Jan MachRadka Tichá
Vliv SW na extrakci textu Mikš, Radovan, Extrakce textu z PDF se správnou diakritikou, bakalářská práce, 2007, ČVUT v Praze. Dostupný z WWW: <https://dip.felk.cvut.cz/browse/pdfcache/miksr1_2007bach.pdf> Jan MachRadka Tichá
PDFCreator • autoři Philip Chinery a Frank Heindörfer • open source, Windows 95 a vyšší • virtuální tiskárna x síťová tiskárna • „cokoliv“ -> PS -> PDF, EPS, obrázky • využívá GhostScript, PDFCreator je „frontend“ • GPL – pro podnikové nasazení • AFPL – lepší výsledky, více restriktivní licence Jan MachRadka Tichá
Práce s PDF • extrakce • HTML, čistý text, obrázky • práce s metadaty • titulek, autor, popis, ... • kódování, dekódování • heslo, 64x128 bit kódování, x.509 certifikát • práva přístupu • spojit, rozdělit stránky • vyplnění formulářů Jan MachRadka Tichá
Problémy s extrakcí textu • ukládání textu ve formě obrázků • použití nestandardních fontů • rozdělení na dva znaky – písmeno a akcent Jan MachRadka Tichá
Použití nestandardních fontů • nestandardní znaky uloženy jako seznam odlišných znaků a jejich zápis • mnoho variant zápisu dle SW • např. u se znakem stupeň, kroužek nad u, u pod kroužkem Řešení: nutno při tvorbě PDF u nestandardních fontů doplnit atribut /toUnicode definující mapování znakůdo unicode (záleží na programu na tvorbu PDF)(/CMap, character mapping) Vhodné programy pro export … Jan MachRadka Tichá
Export: PDFBox • Java, možno použít i v .NET • několik tříd pro práci s PDF Extracttext -encoding windows-1250 test.pdf export.txt Extracttext -encoding –html windows-1250 test.pdf export.htm • české znaky jako HTML entity Jan MachRadka Tichá
Export: XPdf pro Unix i Windows oficiální verze respektuje DRM, existují patche umožňující číst zašifrované PDF pdftotext -enc UTF-8 vstup.pdf vystup.txt - pro Latin 2 výstup je nutno doinstalovat Latin 2 cmap převodní tabulku a nastavit v xpdfrc (teoreticky umožňuje i mapování fontů) Jan MachRadka Tichá
Advanced PDF Password Recovery Program dokáže trvale zrušit ochranu souborů Adobe Acrobat PDF heslem před editací, tiskem, výběrem textu a grafiky a kopírováním do schránky, modifikací poznámek a formulářových polí. Různé verze s možnostmi hádání hesla od brute force attack až po předdefinované hodnoty key. Jan MachRadka Tichá
PDF Password Remover PDF Password Remover je určen pro přístup k heslem zabezpečeným Adobe Acrobat PDF souborům. Můžete tyto soubory po použití programu editovat, tisknout, kopírovat z nich objekty a podobně. Ukázka odstranění owner psw, certifikátu Jan MachRadka Tichá
Doporučené odkazy • PDF Creator • http://sourceforge.net/projects/pdfcreator/ • PDF Box • http://www.pdfbox.org/ • xpdf • http://cs.wikipedia.org/wiki/Xpdf • Diskuse LaTeX -> PDF • http://lists.felk.cvut.cz/pipermail/cstex/2003-October/016598.html Jan MachRadka Tichá