Парсинг веб-сайтов в Excel: пошаговая инструкция

Парсить веб-сайты в Excel довольно просто если применять пасмурную версию софта Гугл Таблицы (Sheets/Doc), которые без усилий разрешают применять мощности поисковика для отправки запросов на нужные веб-сайты.

Подготовка к парсингу веб-сайтов в Excel (Гугл Таблице)

Для того, чтоб начать парсить веб-сайты будет нужно в первую очередь перейти в Гугл Sheets, что можно создать открыв страничку:

Главная страница Google таблицы

Будет нужно войти в Гугл Акк, опосля чего же надавить на «Сделать» (+).

Сейчас можно перебегать к парсингу, который можно выполнить через 2 главные функции:

. Дозволяет получить фактически любые данные с веб-сайта, включая цены, наименования, рисунки и почти все другое; . Дозволяет получить данные из таблиц и списков.

Но, все эти способы работают на базе ссылок на странички, если таблицы с URL-адресами нет, то можно убыстрить этот сбор через карту веб-сайта (Sitemap). Для этого добавляем к домену веб-сайта систему «/robots.txt». К примеру, «seopulses.ru/robots.txt».

Тут открываем URL с картой веб-сайта:

Нас интересует перечень постов, потому открываем первую ссылку.

Получаем полный перечень из URL-адресов, который можно сохранить, кликнув правой клавишей мыши и нажав на «Сохранить как» (в Гугл Chrome).

Сейчас на компе сохранен файл XML, который можно открыть через текстовые редакторы, к примеру, Sublime Text либо NotePad++.

Чтоб обработать информацию корректно следует ознакомиться с аннотацией открытия XML-файлов в Excel (либо сотворения), опосля чего же данные будут поданы в формате таблицы.

Все готово, можно перебегать к способам парсинга.

IPMORTXML для парсинга веб-сайтов в Excel

Синтаксис IMPORTXML в Гугл Таблице

Для того, чтоб применять данную функцию будет нужно в таблице написать формулу:

Ссылка — URL-адрес странички;
Запрос – в формате XPath.

Интересно почитать: Функция вычитания в excel

С примером можно ознакомиться в:

Примеры использования IMPORTXML в Гугл Doc

Парсинг заглавий

Для работы с парсингом через данную функцию будет нужно познание XPATH и составление пути в этом формате. Создать это можно открыв консоль разраба. Для примера будет употребляться веб-сайт большого интернет-магазина и в первую очередь нужно в Гугл Chrome открыть окно разраба кликнув правой клавишей мыли и в выпавшем меню избрать «Поглядеть код» (сочетание кнопок CTRL+Shift+I).

Опосля этого пытаемся получить заглавие продукта, которое содержится в H1, единственным на страничке, потому запрос должен быть:

И как следствие формула:

Принципиально! Запрос XPath пишется в кавычках «запрос».

Парсинг разных частей

Если мы желаем получить баллы, то нам будет нужно обратиться к элементу div с классом product-standart-bonus потому получаем:

В этом случае 1-ый тег div обозначает то, откуда берутся данные, когда в скобках [] уточняется его неповторимость.

Для уточнения будет нужно указать тип в виде @class, который быть может и @id, а опосля пишется = и в одинарных кавычках ‘значение’ пишется запрос.

Но, необходимое нам значение находиться поглубже в теге span, потому добавляем /span и вводим:

Парсинг цен без познаний XPath

Если нет познаний XPath и нужно стремительно получить информацию, то требуется выбрав подходящий элемент в консоли разраба кликнуть правой кнопкой мыши и в меню избрать «Copy»-«XPath». К примеру, при поиске запроса цены получаем:

Дальше используем ее вкупе с IMPORTXML.

Все готово цены получены.

Обыкновенные формулы с IMPORTXML в Гугл Sheets

Чтоб получить title странички нужно применять запрос:

Для вывода description стоит применять:

1-ый заголовок (либо хоть какой иной):

IMPORTHTML для сотворения парсера веи-ресурсов в Эксель

Синтаксис IMPORTXML в Гугл Таблице

Для того, чтоб применять данную функцию будет нужно в таблице написать формулу:

Интересно почитать: Excel функция и функция или

Ссылка — URL-адрес странички;
Запрос – быть может в формате «table» либо «list», выгружающий таблицу и перечень, соответственно.
Индекс – порядковый номер элемента.

С примерами можно ознакомиться в файле:

Пример использования IMPORTHTML в Гугл Doc

Парсинг таблиц

В примерах будет употребляться данная статья, перейдя на которую можно открыть консоль разраба (в Гугл Chrome это можно создать кликнув правой кнопкой мыши и выбрав пункт «Поглядеть код» либо же нажав на сочетание кнопок «CTRL+Shift+I»).