Citation Extraction: extracting text from PDF/PS: result table

Caso Programma Versione Licenza Input Output Lettere accentate Fedeltà Separa paragrafi Separa pagine Spazi e indentazione Dimensione carattere Corsivo, grassetto Testo su più colonne Posizione assoluta elementi Modalità di esecuzione, file prodotti
1 pdftotext xpdf v 3.00 GPL PDF plain Sì (ISO-8859), ma non per TeX Può perdere caratteri No, mette tutto di seguito, anche i titoli ^L No No No Testo in ordine sequenziale, ma pu fare confusione No Produce un file txt: nome.pdf -> nome.txt
2 pdftotext -layout xpdf v 3.00 GPL PDF plain Sì (ISO-8859), ma non per TeX Può introdurre righe spurie e spazi nelle parole No, li separa solo se verticalmente e uniformemente separati (non affidabile) ^L No No Viene mantenuto il layout a colonne Approssimata (plain text con layout) Produce un file txt: nome.pdf -> nome.txt.
3 pdftohtml -nomerge -noframes 0.36 GPL PDF HTML Sì (ISO-8859), no TeX, per i caratteri speciali usa HTML entities No, ogni riga terminata da <br> Separa con <a name=numero> all'inizio No No Quasi sempre (no TeX) Testo in ordine sequenziale, ma tutto mischiato No Produce un file html: nome.pdf -> nome.html, più eventuali immagini.
4 pdftohtml -nomerge -noframes -c 0.36 GPL PDF HTML Sì (ISO-8859) + entities per i caratteri speciali, ma TeX: è -> `e No Sì, basati su posizionamento assoluto Viene mantenuto il layout a colonne Sì, molto precisa Produce un file html: nome.pdf -> nome.html, più un PNG per pagina.
5 ps2ascii GhostScript 8.01 GPL PDF, PS (may fail) plain à -> a`, TeX: à -> `a Inserisce spazi nelle parole, in alcuni documenti modifica le parole Qualche volta, estremamente inaffidabile No No No No Testo reso sequenziale, ma con molti errori sulle parole No Scrive su stdout, a meno di non specificare come secondo argomento il file di destinazione
6 pstotext 1.9 of 2003-01-09 GPL-Compatible ? PDF, PS plain Sì (ISO-8859), TeX: premette alle lettere un carattere non-ISO Sì, in un caso no (documento E.pdf, m con mu greca) No ^L No No No Testo sequenziale corretto No Scrive su stdout, a meno di non specificare il file di destinazione con l'opzione -output.
7 pstotext -cork Output identico a quello del caso 6
8 pstotext -bboxes 1.9 of 2003-01-09 GPL-Compatible ? PDF, PS plain Sì (ISO-8859), TeX: premette alle lettere un carattere non-ISO Sì, in un caso no (documento E.pdf, m con mu greca) No ^L No No No - Per ogni parola viene dato il bounding box Scrive su stdout, a meno di non specificare il file di destinazione con l'opzione -output.
9 prescript plain 2.2 GPL PS plain No, vengono sostituite con ? (in TeX: à -> ?a) No, può inserire spazi nelle parole, sostituire legature e caratteri vari con ? Sì, quasi sempre Con linea di trattini No No No Testo sequenziale No Produce un file txt: nome.ps -> nome.txt.
10 prescript html 2.2 GPL PS HTML No, vengono sostituite con ? (in TeX: à -> ?a) No, può inserire spazi nelle parole, sostituire legature e caratteri vari con ? Sì, con tag p o br a seconda dei casi Con horiz. rule, commenti html prima del numero di pagina No No No Testo sequenziale No Produce un file html: nome.ps -> nome.html.
( categories: Documentation )