pdf

30
mai 2013

Extraire le texte et les images d'un fichier pdf

Afin de remplir une base de données j'ai eu besoin d'extraire le contenue de plusieurs fichiers pdf de x pages. L'idée est de découper le fichier en un pdf par page, extraire les images, extraire le texte pour qu'une ligne corresponde à un fichier pdf. J'ai n'ai rien re-inventé et je me suis basé sur les outils pdfimages, pdfseparate et pdftotext.

Lire la suite de Extraire le texte et les images d'un fichier pdf


Tag pdf - Philippe Maladjian - Péripéties bucoliques d'un administrateur systèmes au royaume de la virtualisation, du stockage et accessoirement photographe à ses heures perdues