Как извлечь изображения из PDF в ОС Linux

Здравствуйте, друзья. В этой статье мы покажем как извлечь изображения из PDF файла. Иногда возникает необходимость извлечь изображения, находящиеся внутри PDF-файла. Это может показаться сложным, но это проще, чем вы думаете.

Лучше всего, что вы можете сделать это из терминала, чтобы не тратить ресурсы и убедиться, что процесс идет очень быстро.

Как извлечь изображения из PDF в ОС Linux
Как извлечь изображения из PDF в ОС Linux

Установка Poppler в Linux

Poppler – это библиотека рендеринга PDF, основанная на кодовой базе XPDF-3.0. Она используется для обработки PDF-файлов и позволяет разработчикам создавать программы для чтения и редактирования PDF-документов. Poppler поддерживает множество операционных систем, включая Linux, macOS и Windows. В этой статье мы поговорим о Linux.

Именно с помощью этой библиотеки мы получим доступ к инструментам для работы с файлами PDF.

Для ее установки разумнее всего воспользоваться пакетом, входящим в официальные репозитории каждого дистрибутива. Хотя вы также можете скомпилировать его или загрузить двоичные файлы.

В случае с Debian, Ubuntu и их производными, такими как Linux Mint, вы можете выполнить команду

sudo apt update

sudo apt install poppler-utils

После установки библиотеки мы можем использовать часть ее компонентов для выполнения поставленной задачи.

Извлечение изображений из файла PDF

Процедура извлечения очень проста. Просто следуйте следующему синтаксису.

pdfimages -all input.pdf images/prefix

Приведенная выше команда берет все изображения из входного файла input.pdf и извлекает их в тот же каталог, что и запрос. Конечно, вы можете задать абсолютный путь к месту, где находится PDF-файл, и другой путь для выходного файла.

Что касается images/prefix, то идеальным вариантом будет выбрать такой, который хорошо идентифицирует изображения, а также формат jpeg или png, из которых два PNG обеспечивают более высокое качество.

После вышесказанного команда будет выглядеть следующим образом.

pdfimages -all input.pdf sample

В результате в каталоге будут созданы файлы изображений с такой номенклатурой sample-nnn.png.

Если вы хотите использовать jpg, то добавьте опцию -j

pdfimages -all -j input.pdf sample

Что касается опции -j, вы можете не получить желаемых результатов, но посмотрите, что говорит об этом человек:

” Обычно все изображения записываются в виде файлов PBM (для монохромных изображений) или PPM (для немонохромных изображений). При использовании этой опции изображения в формате DCT сохраняются как файлы JPEG. Все не-DCT изображения сохраняются в формате PBM/PPM как обычно.”

Дополнительные опции для извлечения изображений

Приведенная выше команда извлекает все изображения, но во многих случаях мы хотим определить диапазон. Важный параметр, если файл очень длинный.

Для этого существуют опции -f и -l, которые определяют первую и последнюю страницу, с которой нужно извлечь изображения.

pdfimages -f 1 -l 5 -png input.pdf images

Это, пожалуй, самая полезная опция, поскольку она позволяет нам ограничить выходные файлы.

Другой очень интересной опцией является параметр -p, которая включает номера страниц в имена выходных файлов.

pdfimages -f 1 -l 5 -png -p input.pdf images

В целом, процедура извлечения изображений из файла PDF довольно проста, и вы можете использовать дополнительные опции, чтобы ограничить выходные файлы.

Nazario

Я — Nazario, создатель и автор сайта linuxwin.ru, специализируюсь на информационных технологиях с акцентом на системное администрирование Linux и Windows, веб-разработку и настройку различных систем.

LinuxWin.ru
Выскажите своё мнение или присоединяйтесь к обсуждению:

Отправляя комментарий, вы даете согласие на обработку ваших данных в соответствии с политикой конфиденциальности и даёте согласие на их использование.