Linux

Extraire les images intégrées d’un fichier PDF dans Ubuntu

Bien que nous sachions déjà comment éditer des fichiers PDF existants dans Ubuntu, il arrive parfois qu’il soit nécessaire d’utiliser tout ou partie des images contenues dans un fichier PDF. Le copier-coller manuel est certainement une option, mais ce n’est pas une option qui permet de gagner du temps, surtout lorsque le fichier PDF contient un grand nombre d’images.

Un outil existe, baptisé PDFImages, qui fait de l’extraction d’images à partir de fichiers PDF un jeu d’enfant. Dans cet article, nous allons discuter de cet outil à l’aide d’exemples faciles à comprendre. Notez que tous les exemples utilisés dans l’article sont testés sur Ubuntu 14.04 LTS en utilisant la version 0.24.5 de l’outil.

Qu’est-ce que PDFImages ?

Comme déjà mentionné, PDFImages est un outil de ligne de commande que vous pouvez utiliser pour extraire des images d’un fichier PDF. La page de manuel de l’outil indique qu’il lit le fichier PDF d’entrée, le numérise et produit un fichier Portable Pixmap (PPM), Portable Pixmap (PBM) ou JPEG pour chaque image qu’il rencontre dans le fichier PDF.

Télécharger et installer

Si l’outil n’est pas déjà installé sur votre box Ubuntu, vous pouvez le télécharger et l’installer à l’aide de la commande suivante :

En plus de PDFImages, le package « poppler-utils » contient également plusieurs autres utilitaires de ligne de commande pour obtenir des informations à partir de documents PDF, les convertir en d’autres formats ou les manipuler.

Psssssst :  Comment sélectionnez-vous du texte dans un terminal Linux?

Usage

L’outil de ligne de commande PDFImages, dans sa forme la plus basique, nécessite deux arguments : le fichier PDF d’entrée et le chemin d’accès au répertoire dans lequel vous souhaitez que l’outil enregistre les images. Par exemple, dans mon cas, j’ai essayé d’extraire des images d’un fichier PDF nommé « christmas_story.pdf » et de les enregistrer dans un répertoire nommé « pdfimages ».

La commande ci-dessus a produit les fichiers suivants dans le répertoire cible :

Comme vous pouvez le voir dans la sortie ci-dessus, le nom des fichiers commence par un tiret (-) suivi d’un nombre. Pour ceux qui se demandent pourquoi le nom commence par un trait d’union, l’outil vous offre la possibilité de préfixer n’importe quel mot avant le trait d’union afin que vous puissiez créer des noms personnalisés pour les images de sortie. Vous pouvez le faire en ajoutant ce mot particulier au chemin du répertoire de destination lors de l’exécution de la commande.

Par exemple, j’ai ajouté le mot « image » au chemin du répertoire de destination :

Et les fichiers de sortie produits dans ce cas portaient le nom suivant :

Il convient de mentionner que contrairement à ce que dit la page de manuel de l’outil, deux images sont produites pour chaque image dans le fichier PDF dont l’une est vierge tandis que l’autre est utilisable. Dans mon cas, les images impaires étaient vierges :

Psssssst :  Comment installer un fichier EXE sur Ubuntu ?

Pour continuer, vous pouvez également modifier le format du fichier d’image de sortie de « ppm » à « jpeg », ce que vous pouvez faire en utilisant l’option -j. Gardez à l’esprit, cependant, qu’avec cette option, seules les images au format DCT sont enregistrées en tant que fichiers JPEG – toutes les images non DCT sont enregistrées au format PBM/PPM comme d’habitude.

Vous pouvez également spécifier les pages que l’outil doit numériser. De cette façon, vous n’obtiendrez en sortie que les images qui se trouvent sur ces pages. Pour activer cette option, vous devez utiliser l’option -f (suivie du numéro de page) et -l (suivi du numéro de page) pour spécifier respectivement les pages de début et de fin.

Par exemple, je voulais que l’outil n’extrait que les images présentes sur la première page du fichier PDF, j’ai donc utilisé la commande suivante :

Et dans le répertoire de destination, seules deux images (quatre au total y compris les vierges) ont été produites :

Conclusion

PDFImages est certainement un outil pratique si votre travail implique de traiter des fichiers PDF et les images qu’ils contiennent, et comme vous l’avez peut-être déjà remarqué, il est facile à apprendre et à utiliser. Pour en savoir plus sur l’outil, rendez-vous sur sa page de manuel.

Cet article est-il utile ? Oui Non

Bouton retour en haut de la page

Adblock détecté

Veuillez désactiver votre bloqueur de publicités pour pouvoir visualiser le contenu de la page. Pour un site indépendant avec du contenu gratuit, c’est une question de vie ou de mort d’avoir de la publicité. Merci de votre compréhension! Merci