Импорт данных из PDF в Excel через Power Query
Задачка переноса данных из таблицы в PDF-файле на лист Microsoft Excel — это постоянно «забавно». В особенности если у вас нет дорогих программ определения типа FineReader либо чего-то подобного. Прямое копирование обычно ни к чему отличному не приводит, т.к. опосля вставки скопированных данных на лист, они, быстрее всего, «слипнутся» в один столбец. Так что их позже придется тщательно делить при помощи инструмента Текст по столбцам с вкладки Данные (Data — Text to Columns) .
И само-собой, копирование может быть лишь для тех PDF-файлов, где есть текстовый слой, т.е. с лишь что отсканированным с бумаги в PDF документом это не сработает в принципе.
Но все не так обидно, по сути 🙂
Если у вас Office 2013 либо 2016, то за несколько минут без доп программ полностью можно воплотить перенос данных из PDF в Microsoft Excel. А посодействуют нам в этом Word и Power Query.
Для примера, давайте возьмем вот таковой PDF-отчет с кучей текста, формул и таблиц с веб-сайта Европейской Экономической Комиссии:
. и попробуем вынуть из него в Excel, скажем первую таблицу:
Шаг 1. Открываем PDF в Word
Почему-либо не достаточно кто понимает, но начиная с 2013 года Microsoft Word научился открывать и распознавать PDF файлы (даже отсканированные, т.е. без текстового слоя!). Делается это совсем обычным образом: открываем Word, нажимаем Файл — Открыть (File — Open) и уточняем PDF-формат в выпадающем перечне в правом нижнем углу окна.
Потом избираем подходящий нам PDF-файл и нажимаем Открыть (Open) . Word докладывает нам, что собирается запустить определение этого документа в текст:
Соглашаемся и через несколько секунд увидим наш PDF открытым для редактирования уже в Word:
Само-собой, у документа отчасти слетит дизайн, стили, шрифты, колонтитулы и т.п., но для нас это не принципиально — нам необходимы лишь данные из таблиц. В принципе, на этом шаге уже возникает соблазн далее просто скопировать таблицу из распознанного документа в Word и просто вставить ее в Excel. Время от времени это срабатывает, но почаще приводит ко различным искажениям данных — к примеру числа могут перевоплотиться в даты либо остаться текстом, как в нашем случае, т.к. в PDF употребляется не русские разделители:
Так что давайте не будем срезать углы, а создадим все чуток труднее, но верно.
Шаг 2. Сохраняем документ как интернет-страницу
Чтоб позже загрузить приобретенные данные в Excel (через Power Query), наш документ в Word необходимо сохранить в формате интернет-страницы — этот формат является, в данном случае, некоторым общим знаменателем меж Word’ом и Excel’ем.
Для этого идем в меню Файл — Сохранить как (File — Save As) либо нажимаем кнопку F12 на клавиатуре и в открывшемся окне избираем тип файла Интернет-страница в одном файле (Webpage — Single file) :
Опосля сохранения должен получиться файл с расширением mhtml (если у вас в Проводнике видны расширения файлов).
Шаг 3. Загружаем файл в Excel через Power Query
Можно открыть сделанный MHTML-файл в Excel впрямую, но тогда мы получим, во-1-х сходу все содержимое PDF совместно текстом и кучей ненадобных таблиц, а, во-2-х, снова потеряем данные из-за некорректных разделителей. Потому импорт в Excel мы будем созодать через надстройку Power Query. Это совсем бесплатная надстройка, при помощи которой можно загружать в Excel данные фактически из всех источников (файлов, папок, баз данных, ERP-систем) и всячески потом приобретенные данные трансформировать, придавая им подходящую форму.
Если у вас Excel 2010-2013, то скачать Power Query можно с официального веб-сайта Microsoft — опосля установки у вас покажется вкладка Power Query. Если у вас Excel 2016 либо новее, то качать ничего не надо — весь функционал уже встроен в Excel по-умолчанию и находится на вкладке Данные (Data) в группе Загрузить и конвертировать (Get & Transform) .
Так что идем или на вкладку Данные, или на вкладку Power Query и избираем команду Получить данные либо Сделать запрос — Из файла — Из XML. Чтоб были видны не только лишь XML-файлы — меняем в выпадающем перечне в правом нижнем углу окна фильтры на Все файлы (All files) и указываем наш MHTML-файл:
Направьте внимание, что импорт удачно не закончится, т.к. Power Query ожидает от нас XML, а у нас, по сути, HTML-формат. Потому в последующем показавшемся окне необходимо будет щелкнуть правой клавишей мыши по непонятному для Power Query файлу и уточнить его формат:
Опосля этого файл будет корректно распознан и мы увидим перечень всех таблиц, которые в нем есть:
Поглядеть содержимое таблиц можно, если щелкать левой клавишей мыши в белоснежный фон (не в слово Table!) ячеек в столбце Data.
Когда подходящая таблица определена, щелкните по зеленоватому слову Table — и вы «провалитесь» в её содержимое:
Остается сделать несколько обычных действий, чтоб «причесать» ее содержимое, а конкретно:
- удалить ненадобные столбцы (правой клавишей мыши по заголовку столбца — Удалить)
- поменять точки на запятые (выделить столбцы, щелкнуть правой — Подмена значений)
- удалить знаки равно в шапке (выделить столбцы, щелкнуть правой — Подмена значений)
- удалить верхнюю строчку (Основная— Удалить строчки — Удаление верхних строк)
- удалить пустые строчки (Основная — Удалить строчки — Удаление пустых строк)
- поднять первую строчку в шапку таблицы (Основная — Применять первую строчку в качестве заголовков)
- отфильтровать излишние данные при помощи фильтра
Когда таблица будет приведена в обычный вид, ее можно выгрузить на лист командой Закрыть и загрузить (Close & Load) на Главной вкладке. И мы получим вот такую красоту, с которой уже можно работать:
Преобразовать в эксель
Чтоб конвертировать старенькый файл xls Excel в новейший файл xlsx, вы сможете применить функцию «Сохранить как» в Excel, но, если нужно конвертировать несколько файлов xls, как можно стремительно и просто совладать с данной нам задачей?
- Преобразование нескольких форматов xls в форматы xlsx при помощи функции «Сохранить как» один за остальным
- Преобразование нескольких форматов xls в форматы xlsx сразу при помощи кода VBA
- Преобразуйте несколько форматов xls в форматы xlsx сразу при помощи сильной функции
- Преобразование нескольких книжек в файлы PDF сразу
Преобразование нескольких форматов xls в форматы xlsx при помощи функции «Сохранить как» один за остальным
Функция «Сохранить как» в Excel может посодействовать для вас конвертировать формат xls старенькой книжки в новейший формат xlsx по одному.
1. Откройте книжку, формат которой вы желаете конвертировать.
2. Нажмите Файл > Сохранить какИ Сохранить как покажется диалоговое окно, укажите папку для размещения новейшего формата файла и нажмите Сохранить как выпадающий перечень для выбора Книжка Excel, см. скриншот:
3. Потом нажмите скидка клавишу, чтоб закрыть диалоговое окно, и этот формат Excel был преобразован из xls в xlsx.
Преобразование нескольких форматов xls в форматы xlsx сразу при помощи кода VBA
Если вы желаете конвертировать несколько файлов xls в файлы xlsx сразу, не сохраняя один за остальным, тут я расскажу для вас о коде VBA, сделайте последующие деяния:
1. Удерживайте ALT + F11 , чтоб открыть Microsoft Visual Basic для приложений окно.
2. Нажмите Вставить > Модульи вставьте последующий код в Модуль Окно.
Код VBA: одновременное преобразование нескольких форматов xls в форматы xlsx
3, Потом нажмите F5 нажмите кнопку для пуска этого кода, и покажется окно, изберите папку, содержащую файлы xls, которые вы желаете конвертировать, см. скриншот:
4. Потом щелкните OK, покажется другое окно, изберите путь к папке, в которую вы желаете вывести новейшие перевоплощенные файлы, см. скриншот:
5. А потом нажмите OK, опосля окончания конвертации вы сможете перейти в обозначенную папку для подготовительного просмотра конвертированного результата, см. снимки экрана:
![]() |
![]() |
Преобразуйте несколько форматов xls в форматы xlsx сразу при помощи сильной функции
С данной нам Kutools for ExcelСоздателя Конвертер формата утилита, вы сможете преобразовать несколько форматов xls в форматы xlsx либо напротив, она также может посодействовать для вас преобразовать несколько книжек в файлы PDF сразу.
Опосля установки Kutools for Excel, пожалуйста, сделайте так:
1. Нажмите Kutools Plus > Workbook > Конвертер формата, см. скриншот:
2. Покажется всплывающее окно с напоминанием о том, что для вас нужно закрыть книжку, которую вы желаете конвертировать. Смотрите снимок экрана:
3. Нажмите OK, то в Конвертер форматов файлов диалоговом окне укажите последующие характеристики:
- Под Тип преобразования раскрывающийся перечень, изберите Excel 97-2003 в Excel 2007 либо выше;
- Потом нажмите Добавить клавишу, чтоб добавить файлы xls, которые вы желаете конвертировать, вы сможете добавить книжки со собственного компьютерного диска либо OneDrive при необходимости;
4. Опосля вставки файлов xls, все еще в папке Конвертер форматов файлов диалоговое окно, щелкните клавишу, чтоб избрать путь к одной папке для вывода перевоплощенных файлов, а потом указать некие операции, которые для вас необходимы, в нижней части диалогового окна, см. скриншот:
- Если книжки во вложенных папках также нужно конвертировать, проверьте Включать подпапки при добавлении папок флаг;
- Если вы желаете удалить начальные файлы опосля преобразования, проверьте Удалить начальные файлы опосля конвертации коробка;
- Если вы желаете сохранить дату конфигурации начальных файлов, проверьте Сохранить дату конфигурации начальных файлов коробка;
- Структуру каталогов файла можно сохранить, установив флаг Структура каталогов файла сохраняется при преобразовании коробка;
5. Потом нажмите OK Чтоб начать преобразование, опосля окончания преобразования вы сможете перейти в определенную папку, чтоб просмотреть перевоплощенный итог. Смотрите снимки экрана:
Два метода того, как конвертировать файл из ПДФ в «Эксель»
PDF — это более всераспространенный формат, применяемый для чтения документов. Но этот формат не предназначен для редактирования данных. Естественно, некие манипуляции с документом можно сделать, но часто инструментов не хватает для суровой работы.
К счастью, можно перевести ПДФ в «Эксель» и уже в табличном редакторе от Microsoft продолжить редактирование. В данной нам статье как раз-таки будет поведано, как выполнить поставленную задачку.
Методы конвертации ПДФ в «Эксель»
Всего можно выделить два метода преобразования файла из ПДФ в «Эксель». 1-ый предполагает внедрение особых приложений для чтения. 2-ой — спец программное обеспечение. Разглядим любой в деталях.
Метод 1: при помощи приложений для чтения
Сходу стоит сказать, что этот метод преобразования файла из ПДФ в «Эксель» менее пользующийся популярностью. Хоть часть данных при конвертации и не пропадает, но пропадает стиль текста. Но его все равно стоит разглядеть.
Итак, для выполнения поставленной задачки нужно иметь на компе установленную программку для чтения PDF-файлов. В этом случае мы будем употреблять Adobe Acrobat Reader. Вот что для вас необходимо создать:
- Запустите обозначенную программку.
- На верхней панели нажмите клавишу «Файл».
- В показавшемся меню изберите пункт «Открыть».
- В новеньком окне «Проводника» перейдите в папку с ПДФ-файлом и два раза кликните по нему.
Файл будет открыт в программке. Сейчас его нужно преобразить в текст. Другими словами сконвертировать в формат TXT. Для этого сделайте последующие деяния:
- Нажмите опять по кнопочке «Файл».
- В меню наведите курсор на пункт «Сохранить как иной».
- В подменю, которое покажется, нажмите по строке «Текст».
- В показавшемся окне «Проводника» перейдите в папку, в которую желаете сохранить файл.
- Нажмите клавишу «Сохранить».
Сейчас можно приступать конкретно к помещению данных из ПДФ в «Эксель». Для этого сделайте последующее:
- При помощи «Блокнота» откройте сохраненный ранее файл.
- Выделите весь либо часть текста, который желаете поместить в «Эксель».
- Нажмите правую клавишу мыши и изберите «Копировать».
- Запустите программку «Эксель».
- Установите курсор в ячейке «A1».
- Нажмите ПУМ и изберите 1-ый пункт в группе «Характеристики вставки».
- Выделите весь столбец A.
- Перейдите на вкладку «Данные».
- Нажмите на панели по кнопочке «Текст по столбцам».
- В показавшемся окне отметьте пункт «С разделителями» и нажмите «Дальше».
- На втором шаге отметьте символ-разделитель «пробел» и нажмите «Дальше».
- На 3-ем шаге в блоке «Формат данных» установите переключатель в положение «текстовый».
- В строке «Поместить в» пропишите $A$1.
- Нажмите «Готово».
Сейчас вы понимаете, как перевести файл из ПДФ в «Эксель». Это достаточно трудозатратный метод, потому он подойдет не для всех.
Метод 2: при помощи посторониих программ
Есть особый конвертер ПДФ в «Эксель». Выполнение поставленной задачки в нем осуществляется намного легче. Разглядывать мы будем программку Total PDF Converter:
- Запустите программку.
- На левой панели перейдите в папку с ПДФ-файлом.
- В центральной части окна покажутся все документы. Отметьте подходящий галочкой.
- На верхней панели нажмите клавишу XLS.
- В показавшемся окне укажите папку, куда сохранить модифицированный файл.
- Нажмите «Начать».
Покажется окно, в котором отображается процесс конвертации. Для вас нужно дождаться его окончания, опосля чего же закрыть программку. Перевоплощенный файл будет находиться в той папке, которую вы указали в 5 пт аннотации.