1 / 12

Jak na převody do pdf

Jak na převody do pdf. Jan Mach, VŠE Radka Tichá, ZČÚ. Definice PDF.

turner
Download Presentation

Jak na převody do pdf

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ Jan MachRadka Tichá

  2. Definice PDF Portable Document FormatFormát na bázi PostScriptu pro ukládání dokumentů nezávisle na softwaru a hardwaru, na kterém byly vytvořeny. PDF dokument může obsahovat nejen text, ale i obrázky, přičemž je zajištěno, že výsledný vzhled bude na všech zařízeních stejný. Jan MachRadka Tichá

  3. Vliv SW na extrakci textu Mikš, Radovan, Extrakce textu z PDF se správnou diakritikou, bakalářská práce, 2007, ČVUT v Praze. Dostupný z WWW: <https://dip.felk.cvut.cz/browse/pdfcache/miksr1_2007bach.pdf> Jan MachRadka Tichá

  4. PDFCreator • autoři Philip Chinery a Frank Heindörfer • open source, Windows 95 a vyšší • virtuální tiskárna x síťová tiskárna • „cokoliv“ -> PS -> PDF, EPS, obrázky • využívá GhostScript, PDFCreator je „frontend“ • GPL – pro podnikové nasazení • AFPL – lepší výsledky, více restriktivní licence Jan MachRadka Tichá

  5. Práce s PDF • extrakce • HTML, čistý text, obrázky • práce s metadaty • titulek, autor, popis, ... • kódování, dekódování • heslo, 64x128 bit kódování, x.509 certifikát • práva přístupu • spojit, rozdělit stránky • vyplnění formulářů Jan MachRadka Tichá

  6. Problémy s extrakcí textu • ukládání textu ve formě obrázků • použití nestandardních fontů • rozdělení na dva znaky – písmeno a akcent Jan MachRadka Tichá

  7. Použití nestandardních fontů • nestandardní znaky uloženy jako seznam odlišných znaků a jejich zápis • mnoho variant zápisu dle SW • např. u se znakem stupeň, kroužek nad u, u pod kroužkem Řešení: nutno při tvorbě PDF u nestandardních fontů doplnit atribut /toUnicode definující mapování znakůdo unicode (záleží na programu na tvorbu PDF)(/CMap, character mapping) Vhodné programy pro export … Jan MachRadka Tichá

  8. Export: PDFBox • Java, možno použít i v .NET • několik tříd pro práci s PDF Extracttext -encoding windows-1250 test.pdf export.txt Extracttext -encoding –html windows-1250 test.pdf export.htm • české znaky jako HTML entity Jan MachRadka Tichá

  9. Export: XPdf pro Unix i Windows oficiální verze respektuje DRM, existují patche umožňující číst zašifrované PDF pdftotext -enc UTF-8 vstup.pdf vystup.txt - pro Latin 2 výstup je nutno doinstalovat Latin 2 cmap převodní tabulku a nastavit v xpdfrc (teoreticky umožňuje i mapování fontů) Jan MachRadka Tichá

  10. Advanced PDF Password Recovery Program dokáže trvale zrušit ochranu souborů Adobe Acrobat PDF heslem před editací, tiskem, výběrem textu a grafiky a kopírováním do schránky, modifikací poznámek a formulářových polí. Různé verze s možnostmi hádání hesla od brute force attack až po předdefinované hodnoty key. Jan MachRadka Tichá

  11. PDF Password Remover PDF Password Remover je určen pro přístup k heslem zabezpečeným Adobe Acrobat PDF souborům. Můžete tyto soubory po použití programu editovat, tisknout, kopírovat z nich objekty a podobně. Ukázka odstranění owner psw, certifikátu Jan MachRadka Tichá

  12. Doporučené odkazy • PDF Creator • http://sourceforge.net/projects/pdfcreator/ • PDF Box • http://www.pdfbox.org/ • xpdf • http://cs.wikipedia.org/wiki/Xpdf • Diskuse LaTeX -> PDF • http://lists.felk.cvut.cz/pipermail/cstex/2003-October/016598.html Jan MachRadka Tichá

More Related