Cum se extrage textul dintr-un document PDF

Poate fi foarte frustrant să încercați să extrageți textul dintr-un fișier PDF pentru ao utiliza într-o altă aplicație.

Extrageți textul utilizând Acrobat Reader

Pasul 1

Deschideți fișierul în Acrobat Reader. În Windows, selectați "File -> Export document text", denumiți documentul și salvați-l.

Pasul 2

Pe un sistem de operare Mac sau Linux, copiați textul accesând meniul "View" și selectând "Continuous" sau "Continuous-Orientation". (Prima opțiune vă va oferi textul într-o coloană, în timp ce a doua opțiune va formata textul ca pagini alăturat). Accesați "Editare -> Selectare totală" și apoi "Editare -> Copiere".

Pasul 3

Utilizați instrumentul Selectare dacă doriți doar să extrageți o parte din text. Faceți clic pe instrumentul "Selectați textul" și apoi alegeți informațiile pe care le doriți. Într-un document cu format multiplu de coloane, va trebui să utilizați primul instrument "Column Selection". Accesați "Editare -> Copiere"

Conversia PDF-ului în HTML

Pasul 1

Utilizați Gmail ca o comandă rapidă. Atașați fișierul PDF la un e-mail și trimiteți-l în contul Gmail. Când deschideți e-mailul, veți vedea o serie de opțiuni de lângă atașament. Selectați opțiunea "Vizualizați ca HTML" și salvați fișierul care se deschide într-o fereastră separată. Deși nu veți putea vedea grafica, fișierul HTML păstrează formatul documentului text.

Pasul 2

Extrageți și convertiți fișierele pe linia de comandă. Utilizatorii Linux pot folosi o comandă de conversie de bază care va schimba un fișier .pdf într-un fișier .txt: "Pdftotext filename.pdf". Asigurați-vă că modificați numele fișierului cu numele fișierului PDF.

Pasul 3

Descărcați un program de conversie text PDF. Există un număr de programe open source și programe gratuite disponibile, cum ar fi PDFBox și Easy PDF to Text Converter. Multe dintre aceste programe pot converti, de asemenea, fișiere PDF în HTML.