| Caso |
Programma |
Versione |
Licenza |
Input |
Output |
Lettere accentate |
Fedeltà |
Separa paragrafi |
Separa pagine |
Spazi e indentazione |
Dimensione carattere |
Corsivo, grassetto |
Testo su più colonne |
Posizione assoluta elementi |
Modalità di esecuzione, file prodotti |
| 1 |
pdftotext |
xpdf v 3.00 |
GPL |
PDF |
plain |
Sì (ISO-8859), ma non per TeX |
Può perdere caratteri |
No, mette tutto di seguito, anche i titoli |
^L |
No |
No |
No |
Testo in ordine sequenziale, ma pu fare confusione |
No |
Produce un file txt: nome.pdf -> nome.txt |
| 2 |
pdftotext -layout |
xpdf v 3.00 |
GPL |
PDF |
plain |
Sì (ISO-8859), ma non per TeX |
Può introdurre righe spurie e
spazi nelle parole |
No, li separa solo se verticalmente e uniformemente separati
(non affidabile) |
^L |
Sì |
No |
No |
Viene mantenuto il layout a colonne |
Approssimata (plain text con layout) |
Produce un file txt: nome.pdf -> nome.txt. |
| 3 |
pdftohtml -nomerge -noframes |
0.36 |
GPL |
PDF |
HTML |
Sì (ISO-8859), no TeX, per i caratteri speciali usa HTML entities |
Sì |
No, ogni riga terminata da <br> |
Separa con <a name=numero> all'inizio |
No |
No |
Quasi sempre (no TeX) |
Testo in ordine sequenziale, ma tutto mischiato |
No |
Produce un file html: nome.pdf -> nome.html, più eventuali immagini. |
| 4 |
pdftohtml -nomerge -noframes -c |
0.36 |
GPL |
PDF |
HTML |
Sì (ISO-8859) + entities per i caratteri speciali, ma TeX: è -> `e |
Sì |
No |
Sì |
Sì, basati su posizionamento assoluto |
Sì |
Sì |
Viene mantenuto il layout a colonne |
Sì, molto precisa |
Produce un file html: nome.pdf -> nome.html, più un PNG per pagina. |
| 5 |
ps2ascii |
GhostScript 8.01 |
GPL |
PDF, PS (may fail) |
plain |
à -> a`, TeX: à -> `a |
Inserisce spazi nelle parole, in alcuni documenti modifica
le parole |
Qualche volta, estremamente inaffidabile |
No |
No |
No |
No |
Testo reso sequenziale, ma con molti errori sulle parole |
No |
Scrive su stdout, a meno di non specificare come secondo argomento
il file di destinazione |
| 6 |
pstotext |
1.9 of 2003-01-09 |
GPL-Compatible ? |
PDF, PS |
plain |
Sì (ISO-8859), TeX: premette alle lettere un carattere non-ISO |
Sì, in un caso no (documento E.pdf, m con mu greca) |
No |
^L |
No |
No |
No |
Testo sequenziale corretto |
No |
Scrive su stdout, a meno di non specificare
il file di destinazione con l'opzione -output. |
| 7 |
pstotext -cork |
Output identico a quello del caso 6 |
| 8 |
pstotext -bboxes |
1.9 of 2003-01-09 |
GPL-Compatible ? |
PDF, PS |
plain |
Sì (ISO-8859), TeX: premette alle lettere un carattere non-ISO |
Sì, in un caso no (documento E.pdf, m con mu greca) |
No |
^L |
No |
No |
No |
- |
Per ogni parola viene dato il bounding box |
Scrive su stdout, a meno di non specificare
il file di destinazione con l'opzione -output. |
| 9 |
prescript plain |
2.2 |
GPL |
PS |
plain |
No, vengono sostituite con ? (in TeX: à -> ?a) |
No, può inserire spazi nelle parole, sostituire legature e
caratteri vari con ? |
Sì, quasi sempre |
Con linea di trattini |
No |
No |
No |
Testo sequenziale |
No |
Produce un file txt: nome.ps -> nome.txt. |
| 10 |
prescript html |
2.2 |
GPL |
PS |
HTML |
No, vengono sostituite con ? (in TeX: à -> ?a) |
No, può inserire spazi nelle parole, sostituire legature e
caratteri vari con ? |
Sì, con tag p o br a seconda dei casi |
Con horiz. rule, commenti html prima del numero di pagina |
No |
No |
No |
Testo sequenziale |
No |
Produce un file html: nome.ps -> nome.html. |