Парсинг веб-сайтов в Excel: пошаговая инструкция
Парсить веб-сайты в Excel довольно просто если применять пасмурную версию софта Гугл Таблицы (Sheets/Doc), которые без усилий разрешают применять мощности поисковика для отправки запросов на нужные веб-сайты.
Подготовка к парсингу веб-сайтов в Excel (Гугл Таблице)
Для того, чтоб начать парсить веб-сайты будет нужно в первую очередь перейти в Гугл Sheets, что можно создать открыв страничку:
Будет нужно войти в Гугл Акк, опосля чего же надавить на «Сделать» (+).
Сейчас можно перебегать к парсингу, который можно выполнить через 2 главные функции:
-
. Дозволяет получить фактически любые данные с веб-сайта, включая цены, наименования, рисунки и почти все другое; . Дозволяет получить данные из таблиц и списков.
Но, все эти способы работают на базе ссылок на странички, если таблицы с URL-адресами нет, то можно убыстрить этот сбор через карту веб-сайта (Sitemap). Для этого добавляем к домену веб-сайта систему «/robots.txt». К примеру, «seopulses.ru/robots.txt».
Тут открываем URL с картой веб-сайта:
Нас интересует перечень постов, потому открываем первую ссылку.
Получаем полный перечень из URL-адресов, который можно сохранить, кликнув правой клавишей мыши и нажав на «Сохранить как» (в Гугл Chrome).
Сейчас на компе сохранен файл XML, который можно открыть через текстовые редакторы, к примеру, Sublime Text либо NotePad++.
Чтоб обработать информацию корректно следует ознакомиться с аннотацией открытия XML-файлов в Excel (либо сотворения), опосля чего же данные будут поданы в формате таблицы.
Все готово, можно перебегать к способам парсинга.
IPMORTXML для парсинга веб-сайтов в Excel
Синтаксис IMPORTXML в Гугл Таблице
Для того, чтоб применять данную функцию будет нужно в таблице написать формулу:
- Ссылка — URL-адрес странички;
- Запрос – в формате XPath.
С примером можно ознакомиться в:
Примеры использования IMPORTXML в Гугл Doc
Парсинг заглавий
Для работы с парсингом через данную функцию будет нужно познание XPATH и составление пути в этом формате. Создать это можно открыв консоль разраба. Для примера будет употребляться веб-сайт большого интернет-магазина и в первую очередь нужно в Гугл Chrome открыть окно разраба кликнув правой клавишей мыли и в выпавшем меню избрать «Поглядеть код» (сочетание кнопок CTRL+Shift+I).
Опосля этого пытаемся получить заглавие продукта, которое содержится в H1, единственным на страничке, потому запрос должен быть:
И как следствие формула:
Принципиально! Запрос XPath пишется в кавычках «запрос».
Парсинг разных частей
Если мы желаем получить баллы, то нам будет нужно обратиться к элементу div с классом product-standart-bonus потому получаем:
В этом случае 1-ый тег div обозначает то, откуда берутся данные, когда в скобках [] уточняется его неповторимость.
Для уточнения будет нужно указать тип в виде @class, который быть может и @id, а опосля пишется = и в одинарных кавычках ‘значение’ пишется запрос.
Но, необходимое нам значение находиться поглубже в теге span, потому добавляем /span и вводим:
Парсинг цен без познаний XPath
Если нет познаний XPath и нужно стремительно получить информацию, то требуется выбрав подходящий элемент в консоли разраба кликнуть правой кнопкой мыши и в меню избрать «Copy»-«XPath». К примеру, при поиске запроса цены получаем:
Дальше используем ее вкупе с IMPORTXML.
Все готово цены получены.
Обыкновенные формулы с IMPORTXML в Гугл Sheets
Чтоб получить title странички нужно применять запрос:
Для вывода description стоит применять:
1-ый заголовок (либо хоть какой иной):
IMPORTHTML для сотворения парсера веи-ресурсов в Эксель
Синтаксис IMPORTXML в Гугл Таблице
Для того, чтоб применять данную функцию будет нужно в таблице написать формулу:
- Ссылка — URL-адрес странички;
- Запрос – быть может в формате «table» либо «list», выгружающий таблицу и перечень, соответственно.
- Индекс – порядковый номер элемента.
С примерами можно ознакомиться в файле:
Пример использования IMPORTHTML в Гугл Doc
Парсинг таблиц
В примерах будет употребляться данная статья, перейдя на которую можно открыть консоль разраба (в Гугл Chrome это можно создать кликнув правой кнопкой мыши и выбрав пункт «Поглядеть код» либо же нажав на сочетание кнопок «CTRL+Shift+I»).
Сейчас просматриваем код таблицы, которая заключена в теге <table>.
Данный элемент можно будет выгрузить с помощью конструкции:
- Где A2 ячейка со ссылкой;
- table дозволяет получить данные с таблицы;
- 1 – номер таблицы.
Принципиально! Сам запрос table либо list записывается в кавычках «запрос».
Парсинг списков
Получить перечень, заключенный в тегах <ul>…</ul> с помощью конструкции.
В этом случае идет речь о меню, которое также представлено в виде перечня.
Если применять индекс третей таблицы, то будут получены данные с третей таблицы в меню:
Все готово, данные получены.
Оборотная преобразование
Чтоб перевоплотить Гугл таблицу в MS Excel будет нужно кликнуть на вкладку «Файл»-«Скачать»-«Microsoft Excel».