Extraire les images intégrées d'un fichier PDF dans Ubuntu

Bien que nous sachions déjà comment éditer des fichiers PDF existants dans Ubuntu, il arrive parfois qu’il soit nécessaire d’utiliser tout ou partie des images contenues dans un fichier PDF. Le copier-coller manuel est certainement une option, mais ce n’est pas une option qui permet de gagner du temps, surtout lorsque le fichier PDF contient un grand nombre d’images.

Un outil existe, baptisé PDFImages, qui fait de l’extraction d’images à partir de fichiers PDF un jeu d’enfant. Dans cet article, nous allons discuter de cet outil à l’aide d’exemples faciles à comprendre. Notez que tous les exemples utilisés dans l’article sont testés sur Ubuntu 14.04 LTS en utilisant la version 0.24.5 de l’outil.

Contenu

Qu’est-ce que PDFImages ?

Comme déjà mentionné, PDFImages est un outil de ligne de commande que vous pouvez utiliser pour extraire des images d’un fichier PDF. La page de manuel de l’outil indique qu’il lit le fichier PDF d’entrée, le numérise et produit un fichier Portable Pixmap (PPM), Portable Pixmap (PBM) ou JPEG pour chaque image qu’il rencontre dans le fichier PDF.

Télécharger et installer

Si l’outil n’est pas déjà installé sur votre box Ubuntu, vous pouvez le télécharger et l’installer à l’aide de la commande suivante :

sudo apt-get install poppler-utils

En plus de PDFImages, le package « poppler-utils » contient également plusieurs autres utilitaires de ligne de commande pour obtenir des informations à partir de documents PDF, les convertir en d’autres formats ou les manipuler.

Psssssst : Comment afficher mon numéro de mobile sur Android ?

Usage

L’outil de ligne de commande PDFImages, dans sa forme la plus basique, nécessite deux arguments : le fichier PDF d’entrée et le chemin d’accès au répertoire dans lequel vous souhaitez que l’outil enregistre les images. Par exemple, dans mon cas, j’ai essayé d’extraire des images d’un fichier PDF nommé « christmas_story.pdf » et de les enregistrer dans un répertoire nommé « pdfimages ».

pdfimages /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/

La commande ci-dessus a produit les fichiers suivants dans le répertoire cible :

ls /home/himanshu/Downloads/pdfimages/ -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm

Comme vous pouvez le voir dans la sortie ci-dessus, le nom des fichiers commence par un tiret (-) suivi d’un nombre. Pour ceux qui se demandent pourquoi le nom commence par un trait d’union, l’outil vous offre la possibilité de préfixer n’importe quel mot avant le trait d’union afin que vous puissiez créer des noms personnalisés pour les images de sortie. Vous pouvez le faire en ajoutant ce mot particulier au chemin du répertoire de destination lors de l’exécution de la commande.

Par exemple, j’ai ajouté le mot « image » au chemin du répertoire de destination :

pdfimages /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/image

Et les fichiers de sortie produits dans ce cas portaient le nom suivant :

ls /home/himanshu/Downloads/pdfimages/ image-000.ppm image-001.ppm image-002.ppm image-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppm

Il convient de mentionner que contrairement à ce que dit la page de manuel de l’outil, deux images sont produites pour chaque image dans le fichier PDF dont l’une est vierge tandis que l’autre est utilisable. Dans mon cas, les images impaires étaient vierges :

Psssssst : Comment supprimer une ligne dans Word sous Linux ?

Pour continuer, vous pouvez également modifier le format du fichier d’image de sortie de « ppm » à « jpeg », ce que vous pouvez faire en utilisant l’option -j. Gardez à l’esprit, cependant, qu’avec cette option, seules les images au format DCT sont enregistrées en tant que fichiers JPEG – toutes les images non DCT sont enregistrées au format PBM/PPM comme d’habitude.

Vous pouvez également spécifier les pages que l’outil doit numériser. De cette façon, vous n’obtiendrez en sortie que les images qui se trouvent sur ces pages. Pour activer cette option, vous devez utiliser l’option -f (suivie du numéro de page) et -l (suivi du numéro de page) pour spécifier respectivement les pages de début et de fin.

Par exemple, je voulais que l’outil n’extrait que les images présentes sur la première page du fichier PDF, j’ai donc utilisé la commande suivante :

pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/

Et dans le répertoire de destination, seules deux images (quatre au total y compris les vierges) ont été produites :

ls /home/himanshu/Downloads/pdfimages/ -000.ppm -001.ppm -002.ppm -003.ppm

Conclusion

PDFImages est certainement un outil pratique si votre travail implique de traiter des fichiers PDF et les images qu’ils contiennent, et comme vous l’avez peut-être déjà remarqué, il est facile à apprendre et à utiliser. Pour en savoir plus sur l’outil, rendez-vous sur sa page de manuel.

Psssssst : Prenez des captures d'écran complètes de sites Web à partir d'un terminal Linux

Cet article est-il utile ? Oui Non

Extraire les images intégrées d’un fichier PDF dans Ubuntu

Qu’est-ce que PDFImages ?

Télécharger et installer

Usage

Conclusion

Full Convert 20.10 Téléchargement gratuit

Téléchargements de pilotes et logiciels Canon LASER SHOT LBP2900

Téléchargements du pilote et du logiciel Epson Expression Home XP-355

Téléchargements de pilotes et logiciels Canon imageCLASS MF4320d

Veesus Arena4D Data Studio 5.2 à télécharger gratuitement

Téléchargements de pilotes et logiciels Samsung Xpress SL-M2670

TweakBit PCCleaner 1.8.2.18 Téléchargez gratuitement

Révision de Revo Uninstaller v2.1.7 (outil de désinstallation gratuit)

Everimaging Photo Effect Studio Pro 4.1.3 Final à télécharger gratuitement

DtSearch Engine 7.97 Téléchargez gratuitement

Qu’est-ce que PDFImages ?

Télécharger et installer

Usage

Conclusion

Articles similaires

Adblock détecté