Импорт данных из PDF в Excel через Power Query

Задачка переноса данных из таблицы в PDF-файле на лист Microsoft Excel — это постоянно «забавно». В особенности если у вас нет дорогих программ определения типа FineReader либо чего-то подобного. Прямое копирование обычно ни к чему отличному не приводит, т.к. опосля вставки скопированных данных на лист, они, быстрее всего, «слипнутся» в один столбец. Так что их позже придется тщательно делить при помощи инструмента Текст по столбцам с вкладки Данные (Data — Text to Columns) .

И само-собой, копирование может быть лишь для тех PDF-файлов, где есть текстовый слой, т.е. с лишь что отсканированным с бумаги в PDF документом это не сработает в принципе.

Но все не так обидно, по сути 🙂

Если у вас Office 2013 либо 2016, то за несколько минут без доп программ полностью можно воплотить перенос данных из PDF в Microsoft Excel. А посодействуют нам в этом Word и Power Query.

Для примера, давайте возьмем вот таковой PDF-отчет с кучей текста, формул и таблиц с веб-сайта Европейской Экономической Комиссии:

Исходный PDF

. и попробуем вынуть из него в Excel, скажем первую таблицу:

Нужная таблица в PDF

Шаг 1. Открываем PDF в Word

Почему-либо не достаточно кто понимает, но начиная с 2013 года Microsoft Word научился открывать и распознавать PDF файлы (даже отсканированные, т.е. без текстового слоя!). Делается это совсем обычным образом: открываем Word, нажимаем Файл — Открыть (File — Open) и уточняем PDF-формат в выпадающем перечне в правом нижнем углу окна.

Потом избираем подходящий нам PDF-файл и нажимаем Открыть (Open) . Word докладывает нам, что собирается запустить определение этого документа в текст:

Запуск распознавания PDF в Word

Соглашаемся и через несколько секунд увидим наш PDF открытым для редактирования уже в Word:

Распознанный PDF в Word

Само-собой, у документа отчасти слетит дизайн, стили, шрифты, колонтитулы и т.п., но для нас это не принципиально — нам необходимы лишь данные из таблиц. В принципе, на этом шаге уже возникает соблазн далее просто скопировать таблицу из распознанного документа в Word и просто вставить ее в Excel. Время от времени это срабатывает, но почаще приводит ко различным искажениям данных — к примеру числа могут перевоплотиться в даты либо остаться текстом, как в нашем случае, т.к. в PDF употребляется не русские разделители:

Искаженные данные

Так что давайте не будем срезать углы, а создадим все чуток труднее, но верно.

Шаг 2. Сохраняем документ как интернет-страницу

Чтоб позже загрузить приобретенные данные в Excel (через Power Query), наш документ в Word необходимо сохранить в формате интернет-страницы — этот формат является, в данном случае, некоторым общим знаменателем меж Word’ом и Excel’ем.

Для этого идем в меню Файл — Сохранить как (File — Save As) либо нажимаем кнопку F12 на клавиатуре и в открывшемся окне избираем тип файла Интернет-страница в одном файле (Webpage — Single file) :

Сохраняем как веб-страницу

Опосля сохранения должен получиться файл с расширением mhtml (если у вас в Проводнике видны расширения файлов).

Шаг 3. Загружаем файл в Excel через Power Query

Можно открыть сделанный MHTML-файл в Excel впрямую, но тогда мы получим, во-1-х сходу все содержимое PDF совместно текстом и кучей ненадобных таблиц, а, во-2-х, снова потеряем данные из-за некорректных разделителей. Потому импорт в Excel мы будем созодать через надстройку Power Query. Это совсем бесплатная надстройка, при помощи которой можно загружать в Excel данные фактически из всех источников (файлов, папок, баз данных, ERP-систем) и всячески потом приобретенные данные трансформировать, придавая им подходящую форму.

Интересно почитать:  Эксель суммеслимн

Если у вас Excel 2010-2013, то скачать Power Query можно с официального веб-сайта Microsoft — опосля установки у вас покажется вкладка Power Query. Если у вас Excel 2016 либо новее, то качать ничего не надо — весь функционал уже встроен в Excel по-умолчанию и находится на вкладке Данные (Data) в группе Загрузить и конвертировать (Get & Transform) .

Так что идем или на вкладку Данные, или на вкладку Power Query и избираем команду Получить данные либо Сделать запрос — Из файла — Из XML. Чтоб были видны не только лишь XML-файлы — меняем в выпадающем перечне в правом нижнем углу окна фильтры на Все файлы (All files) и указываем наш MHTML-файл:

Выбираем MHTML-файл для импорта в Excel

Направьте внимание, что импорт удачно не закончится, т.к. Power Query ожидает от нас XML, а у нас, по сути, HTML-формат. Потому в последующем показавшемся окне необходимо будет щелкнуть правой клавишей мыши по непонятному для Power Query файлу и уточнить его формат:

Уточняем настоящий формат файла

Опосля этого файл будет корректно распознан и мы увидим перечень всех таблиц, которые в нем есть:

Выбираем таблицу для импорта

Поглядеть содержимое таблиц можно, если щелкать левой клавишей мыши в белоснежный фон (не в слово Table!) ячеек в столбце Data.

Когда подходящая таблица определена, щелкните по зеленоватому слову Table — и вы «провалитесь» в её содержимое:

Нужная нам таблица

Остается сделать несколько обычных действий, чтоб «причесать» ее содержимое, а конкретно:

  1. удалить ненадобные столбцы (правой клавишей мыши по заголовку столбца — Удалить)
  2. поменять точки на запятые (выделить столбцы, щелкнуть правой — Подмена значений)
  3. удалить знаки равно в шапке (выделить столбцы, щелкнуть правой — Подмена значений)
  4. удалить верхнюю строчку (Основная— Удалить строчки — Удаление верхних строк)
  5. удалить пустые строчки (Основная — Удалить строчки — Удаление пустых строк)
  6. поднять первую строчку в шапку таблицы (Основная — Применять первую строчку в качестве заголовков)
  7. отфильтровать излишние данные при помощи фильтра

Когда таблица будет приведена в обычный вид, ее можно выгрузить на лист командой Закрыть и загрузить (Close & Load) на Главной вкладке. И мы получим вот такую красоту, с которой уже можно работать:

Преобразовать в эксель

Чтоб конвертировать старенькый файл xls Excel в новейший файл xlsx, вы сможете применить функцию «Сохранить как» в Excel, но, если нужно конвертировать несколько файлов xls, как можно стремительно и просто совладать с данной нам задачей?

  • Преобразование нескольких форматов xls в форматы xlsx при помощи функции «Сохранить как» один за остальным
  • Преобразование нескольких форматов xls в форматы xlsx сразу при помощи кода VBA
  • Преобразуйте несколько форматов xls в форматы xlsx сразу при помощи сильной функции
  • Преобразование нескольких книжек в файлы PDF сразу

Преобразование нескольких форматов xls в форматы xlsx при помощи функции «Сохранить как» один за остальным

Функция «Сохранить как» в Excel может посодействовать для вас конвертировать формат xls старенькой книжки в новейший формат xlsx по одному.

Интересно почитать:  Excel выбор значений из списка

1. Откройте книжку, формат которой вы желаете конвертировать.

2. Нажмите Файл > Сохранить какИ Сохранить как покажется диалоговое окно, укажите папку для размещения новейшего формата файла и нажмите Сохранить как выпадающий перечень для выбора Книжка Excel, см. скриншот:

3. Потом нажмите скидка клавишу, чтоб закрыть диалоговое окно, и этот формат Excel был преобразован из xls в xlsx.

Преобразование нескольких форматов xls в форматы xlsx сразу при помощи кода VBA

Если вы желаете конвертировать несколько файлов xls в файлы xlsx сразу, не сохраняя один за остальным, тут я расскажу для вас о коде VBA, сделайте последующие деяния:

1. Удерживайте ALT + F11 , чтоб открыть Microsoft Visual Basic для приложений окно.

2. Нажмите Вставить > Модульи вставьте последующий код в Модуль Окно.

Код VBA: одновременное преобразование нескольких форматов xls в форматы xlsx

3, Потом нажмите F5 нажмите кнопку для пуска этого кода, и покажется окно, изберите папку, содержащую файлы xls, которые вы желаете конвертировать, см. скриншот:

4. Потом щелкните OK, покажется другое окно, изберите путь к папке, в которую вы желаете вывести новейшие перевоплощенные файлы, см. скриншот:

5. А потом нажмите OK, опосля окончания конвертации вы сможете перейти в обозначенную папку для подготовительного просмотра конвертированного результата, см. снимки экрана:

Преобразуйте несколько форматов xls в форматы xlsx сразу при помощи сильной функции

С данной нам Kutools for ExcelСоздателя Конвертер формата утилита, вы сможете преобразовать несколько форматов xls в форматы xlsx либо напротив, она также может посодействовать для вас преобразовать несколько книжек в файлы PDF сразу.

Опосля установки Kutools for Excel, пожалуйста, сделайте так:

1. Нажмите Kutools Plus > Workbook > Конвертер формата, см. скриншот:

2. Покажется всплывающее окно с напоминанием о том, что для вас нужно закрыть книжку, которую вы желаете конвертировать. Смотрите снимок экрана:

3. Нажмите OK, то в Конвертер форматов файлов диалоговом окне укажите последующие характеристики:

  • Под Тип преобразования раскрывающийся перечень, изберите Excel 97-2003 в Excel 2007 либо выше;
  • Потом нажмите Добавить клавишу, чтоб добавить файлы xls, которые вы желаете конвертировать, вы сможете добавить книжки со собственного компьютерного диска либо OneDrive при необходимости;

4. Опосля вставки файлов xls, все еще в папке Конвертер форматов файлов диалоговое окно, щелкните клавишу, чтоб избрать путь к одной папке для вывода перевоплощенных файлов, а потом указать некие операции, которые для вас необходимы, в нижней части диалогового окна, см. скриншот:

  • Если книжки во вложенных папках также нужно конвертировать, проверьте Включать подпапки при добавлении папок флаг;
  • Если вы желаете удалить начальные файлы опосля преобразования, проверьте Удалить начальные файлы опосля конвертации коробка;
  • Если вы желаете сохранить дату конфигурации начальных файлов, проверьте Сохранить дату конфигурации начальных файлов коробка;
  • Структуру каталогов файла можно сохранить, установив флаг Структура каталогов файла сохраняется при преобразовании коробка;

5. Потом нажмите OK Чтоб начать преобразование, опосля окончания преобразования вы сможете перейти в определенную папку, чтоб просмотреть перевоплощенный итог. Смотрите снимки экрана:

Два метода того, как конвертировать файл из ПДФ в «Эксель»

PDF — это более всераспространенный формат, применяемый для чтения документов. Но этот формат не предназначен для редактирования данных. Естественно, некие манипуляции с документом можно сделать, но часто инструментов не хватает для суровой работы.

Интересно почитать:  Как таблицу в пдф перевести в эксель

К счастью, можно перевести ПДФ в «Эксель» и уже в табличном редакторе от Microsoft продолжить редактирование. В данной нам статье как раз-таки будет поведано, как выполнить поставленную задачку.

Методы конвертации ПДФ в «Эксель»

Всего можно выделить два метода преобразования файла из ПДФ в «Эксель». 1-ый предполагает внедрение особых приложений для чтения. 2-ой — спец программное обеспечение. Разглядим любой в деталях.

Метод 1: при помощи приложений для чтения

Сходу стоит сказать, что этот метод преобразования файла из ПДФ в «Эксель» менее пользующийся популярностью. Хоть часть данных при конвертации и не пропадает, но пропадает стиль текста. Но его все равно стоит разглядеть.

Итак, для выполнения поставленной задачки нужно иметь на компе установленную программку для чтения PDF-файлов. В этом случае мы будем употреблять Adobe Acrobat Reader. Вот что для вас необходимо создать:

  1. Запустите обозначенную программку.
  2. На верхней панели нажмите клавишу «Файл».
  3. В показавшемся меню изберите пункт «Открыть».
  4. В новеньком окне «Проводника» перейдите в папку с ПДФ-файлом и два раза кликните по нему.

Файл будет открыт в программке. Сейчас его нужно преобразить в текст. Другими словами сконвертировать в формат TXT. Для этого сделайте последующие деяния:

  1. Нажмите опять по кнопочке «Файл».
  2. В меню наведите курсор на пункт «Сохранить как иной».
  3. В подменю, которое покажется, нажмите по строке «Текст».
  4. В показавшемся окне «Проводника» перейдите в папку, в которую желаете сохранить файл.
  5. Нажмите клавишу «Сохранить».

из пдф в эксель

Сейчас можно приступать конкретно к помещению данных из ПДФ в «Эксель». Для этого сделайте последующее:

  1. При помощи «Блокнота» откройте сохраненный ранее файл.
  2. Выделите весь либо часть текста, который желаете поместить в «Эксель».
  3. Нажмите правую клавишу мыши и изберите «Копировать».
  4. Запустите программку «Эксель».
  5. Установите курсор в ячейке «A1».
  6. Нажмите ПУМ и изберите 1-ый пункт в группе «Характеристики вставки».
  7. Выделите весь столбец A.
  8. Перейдите на вкладку «Данные».
  9. Нажмите на панели по кнопочке «Текст по столбцам».
  10. В показавшемся окне отметьте пункт «С разделителями» и нажмите «Дальше».
  11. На втором шаге отметьте символ-разделитель «пробел» и нажмите «Дальше».
  12. На 3-ем шаге в блоке «Формат данных» установите переключатель в положение «текстовый».
  13. В строке «Поместить в» пропишите $A$1.
  14. Нажмите «Готово».

перевести пдф в эксель

Сейчас вы понимаете, как перевести файл из ПДФ в «Эксель». Это достаточно трудозатратный метод, потому он подойдет не для всех.

Метод 2: при помощи посторониих программ

Есть особый конвертер ПДФ в «Эксель». Выполнение поставленной задачки в нем осуществляется намного легче. Разглядывать мы будем программку Total PDF Converter:

  1. Запустите программку.
  2. На левой панели перейдите в папку с ПДФ-файлом.
  3. В центральной части окна покажутся все документы. Отметьте подходящий галочкой.
  4. На верхней панели нажмите клавишу XLS.
  5. В показавшемся окне укажите папку, куда сохранить модифицированный файл.
  6. Нажмите «Начать».

конвертер пдф в эксель

Покажется окно, в котором отображается процесс конвертации. Для вас нужно дождаться его окончания, опосля чего же закрыть программку. Перевоплощенный файл будет находиться в той папке, которую вы указали в 5 пт аннотации.

Ссылка на основную публикацию
Adblock
detector