Keresés

Új hozzászólás Aktív témák

  • hampidampi

    senior tag

    válasz GD #63 üzenetére

    A probléma ott kezdődik, hogy pdf-et akarsz konvertálni. A pdf alapvetően arra lett kitalálva, hogy kinyomtassák, így lapképet tárol, nem folyó szöveget. Valószínűleg minden sor végén bekezdésvége van. Ezt egy egyszerű kopipészt-a-wordbe művelettel ellenőrizheted.
    Ráadásul az egy konténer csak, amibe bármit bele lehet dobálni. És bele is dobálnak.
    Egyszóval a pdf forrás 90%-ban szívás.
    - Mindenekelőtt próbálj meg más, szerkeszthető forrást találni.
    - Vagy próbáld meg konvertáláskor a heurisztikus feldolgozást bekapcsolni és az ott található értékekkel játszani, különös tekintettel a sortörés ki.. és az üres sorok törlése a bekezdések között paraméterekre.
    - Alternatívaként érdemes kipróbálni a pdftoepub programot. Nem túl elvetemült pdf-ekkel egész jól megbírkózik.
    - Ha viszont nagyon gány a pdf (főleg a scannelt, képekből álló), akkor csak egy ocr program segíthet. Ebből a legjobb az Abbyy FineReader.
    Utómunkára, átolvasásra persze mindig szükség lesz, mert szinte lehetetlen hiba nélkül rendesen pdf-et átalakítani.
    Szóval még egyszer: a pdf szinte mindig szívás (nemcsak Calibre-rel)!

    A tartalomjegyzék generálása már egy következő "igényességi szint", ugyanis ehhez egy jól elkészített alap dokumentum szükséges. Ha pdf-ből indulsz ki, akkor előbb azt valami szerkeszthető formába konvertáld (elsősorban html, rtf vagy docx - ezeket szereti a Calibre). Ilyenkor valamilyen szövegszerkesztőben az egyes fejezeteknek megfelelő szintű címsor stílust kell beállítani. Aztán a Calibre-ben konvertáláskor a Tartalomjegyzéknél a szint beállításánál a megfelelő kifejezést kiválasztani. Pl. címsor1-nél: //h:h1. Persze a varázslóval mást is fel lehet venni, mondjuk oldaltörés figyelését stb., de az kevésbé megbízható.

  • Degeczi

    nagyúr

    válasz GD #63 üzenetére

    Mert sajnos az...
    Külön bekezdés minden egyes sor az anyagodban, ezért látsz fél sorokat (hiszen a más betűméret és oldalszélesség miatt kevesebb fér ki egy sorba, mint a fixre tördelt PDF-ben)
    Kimondottan ez ellen való a heurisztikus feldolgozás alatt a sortöréseket eltávolító opció, ahol játszani lehet a mellett lévő számértékkel (miután nem minden bekezdést kellene összefolyatnia)
    Gyakran nincs tökéletes megoldás automatikusan, csak kézi szerkesztéssel
    Érdemes lehet RTF kimenetet kérve Word-ben megdolgozni a maradékot, ahol adhatsz pl. olyan Keres/Cserél kifejezést is, ami eltávolítja a sortörést, ha utána kisbetű következik
    Aztán ha már úgyis kézi szerkesztésben vagy, a fejezetcímeket megjelölöd pl. "címsor 2" stílusként, a Calibre-ben pedig megadod, hogy az (//h:h2) legyen a tartalomjegyzék első szintje

    Haladóbb módszerrel az oldal forrása is megnézhető a Calibre saját Search/Replace varázspálca nyomógombja alatt, ahol regexp kifejezésekkel lehet ugyanezt automatikusan megcsinálni, ha látható vmi szabályszerűség a fejezetcímekre (pl. mindig egyedi betűmérettel vannak szedve, vagy vastagon, vagy számmal is kezdődnek, stb), de ahhoz ismerni kell ezeket a kifejezéseket, amik elsőre nem túl barátságosak

Új hozzászólás Aktív témák