Как извлечь изображения из PDF в ОС Linux

Путеводитель по статье:

Установка Poppler в Linux
Извлечение изображений из файла PDF
Дополнительные опции для извлечения изображений

Здравствуйте, друзья. В этой статье мы покажем как извлечь изображения из PDF файла. Иногда возникает необходимость извлечь изображения, находящиеся внутри PDF-файла. Это может показаться сложным, но это проще, чем вы думаете.

Лучше всего, что вы можете сделать это из терминала, чтобы не тратить ресурсы и убедиться, что процесс идет очень быстро.

Как извлечь изображения из PDF в ОС Linux

Установка Poppler в Linux

Poppler — это библиотека рендеринга PDF, основанная на кодовой базе XPDF-3.0. Она используется для обработки PDF-файлов и позволяет разработчикам создавать программы для чтения и редактирования PDF-документов. Poppler поддерживает множество операционных систем, включая Linux, macOS и Windows. В этой статье мы поговорим о Linux.

Именно с помощью этой библиотеки мы получим доступ к инструментам для работы с файлами PDF.

Для ее установки разумнее всего воспользоваться пакетом, входящим в официальные репозитории каждого дистрибутива. Хотя вы также можете скомпилировать его или загрузить двоичные файлы.

Возможно вам будет интересно: Как очистить большие файлы в Linux

В случае с Debian, Ubuntu и их производными, такими как Linux Mint, вы можете выполнить команду

sudo apt update

sudo apt install poppler-utils

После установки библиотеки мы можем использовать часть ее компонентов для выполнения поставленной задачи.

Извлечение изображений из файла PDF

Процедура извлечения очень проста. Просто следуйте следующему синтаксису.

pdfimages -all input.pdf images/prefix

Приведенная выше команда берет все изображения из входного файла input.pdf и извлекает их в тот же каталог, что и запрос. Конечно, вы можете задать абсолютный путь к месту, где находится PDF-файл, и другой путь для выходного файла.

Что касается images/prefix, то идеальным вариантом будет выбрать такой, который хорошо идентифицирует изображения, а также формат jpeg или png, из которых два PNG обеспечивают более высокое качество.

После вышесказанного команда будет выглядеть следующим образом.

pdfimages -all input.pdf sample

В результате в каталоге будут созданы файлы изображений с такой номенклатурой sample-nnn.png.

Если вы хотите использовать jpg, то добавьте опцию -j

pdfimages -all -j input.pdf sample

Что касается опции -j, вы можете не получить желаемых результатов, но посмотрите, что говорит об этом человек:

Возможно вам будет интересно: Как установить Calibre в Linux Mint 21

» Обычно все изображения записываются в виде файлов PBM (для монохромных изображений) или PPM (для немонохромных изображений). При использовании этой опции изображения в формате DCT сохраняются как файлы JPEG. Все не-DCT изображения сохраняются в формате PBM/PPM как обычно.»

Дополнительные опции для извлечения изображений

Приведенная выше команда извлекает все изображения, но во многих случаях мы хотим определить диапазон. Важный параметр, если файл очень длинный.

Для этого существуют опции -f и -l, которые определяют первую и последнюю страницу, с которой нужно извлечь изображения.

pdfimages -f 1 -l 5 -png input.pdf images

Это, пожалуй, самая полезная опция, поскольку она позволяет нам ограничить выходные файлы.

Другой очень интересной опцией является параметр -p, которая включает номера страниц в имена выходных файлов.

pdfimages -f 1 -l 5 -png -p input.pdf images

В целом, процедура извлечения изображений из файла PDF довольно проста, и вы можете использовать дополнительные опции, чтобы ограничить выходные файлы.