Функция индекс и поискпоз в excel пошаговая инструкция - Учим Эксель

Парсинг веб-сайтов в Excel: пошаговая инструкция

Парсить веб-сайты в Excel довольно просто если применять пасмурную версию софта Гугл Таблицы (Sheets/Doc), которые без усилий разрешают применять мощности поисковика для отправки запросов на нужные веб-сайты.

Подготовка к парсингу веб-сайтов в Excel (Гугл Таблице)

Для того, чтоб начать парсить веб-сайты будет нужно в первую очередь перейти в Гугл Sheets, что можно создать открыв страничку:

Главная страница Google таблицы

Будет нужно войти в Гугл Акк, опосля чего же надавить на «Сделать» (+).

Создание нового документа в Google Таблицах

Сейчас можно перебегать к парсингу, который можно выполнить через 2 главные функции:

    . Дозволяет получить фактически любые данные с веб-сайта, включая цены, наименования, рисунки и почти все другое; . Дозволяет получить данные из таблиц и списков.

Но, все эти способы работают на базе ссылок на странички, если таблицы с URL-адресами нет, то можно убыстрить этот сбор через карту веб-сайта (Sitemap). Для этого добавляем к домену веб-сайта систему «/robots.txt». К примеру, «seopulses.ru/robots.txt».

Тут открываем URL с картой веб-сайта:

robots.txt сайта для парсинга в Excel

Нас интересует перечень постов, потому открываем первую ссылку.

Карта сайта для парсинга в Excel

Получаем полный перечень из URL-адресов, который можно сохранить, кликнув правой клавишей мыши и нажав на «Сохранить как» (в Гугл Chrome).

Скачивание карты сайта для парсинга в Эксель

Сейчас на компе сохранен файл XML, который можно открыть через текстовые редакторы, к примеру, Sublime Text либо NotePad++.

Карта сайта в текстовом рекдакторе NotePad++

Чтоб обработать информацию корректно следует ознакомиться с аннотацией открытия XML-файлов в Excel (либо сотворения), опосля чего же данные будут поданы в формате таблицы.

Список URL чтобы можно было спарсить в Excel

Все готово, можно перебегать к способам парсинга.

IPMORTXML для парсинга веб-сайтов в Excel

Синтаксис IMPORTXML в Гугл Таблице

Для того, чтоб применять данную функцию будет нужно в таблице написать формулу:

Пример использования IMPORTXML в Google Таблице

  • Ссылка — URL-адрес странички;
  • Запрос – в формате XPath.
Интересно почитать:  Функция вычитания в excel

С примером можно ознакомиться в:

Примеры использования IMPORTXML в Гугл Doc

Парсинг заглавий

Для работы с парсингом через данную функцию будет нужно познание XPATH и составление пути в этом формате. Создать это можно открыв консоль разраба. Для примера будет употребляться веб-сайт большого интернет-магазина и в первую очередь нужно в Гугл Chrome открыть окно разраба кликнув правой клавишей мыли и в выпавшем меню избрать «Поглядеть код» (сочетание кнопок CTRL+Shift+I).

Просмотр кода страницы в Google Chrome

Опосля этого пытаемся получить заглавие продукта, которое содержится в H1, единственным на страничке, потому запрос должен быть:

И как следствие формула:

Пример использования IMPORTXML для парсинга H1 в Google Таблице

Принципиально! Запрос XPath пишется в кавычках «запрос».

Парсинг разных частей

Если мы желаем получить баллы, то нам будет нужно обратиться к элементу div с классом product-standart-bonus потому получаем:

Пример рассмотрения структуры XPath при рассмотрении кода сайта

В этом случае 1-ый тег div обозначает то, откуда берутся данные, когда в скобках [] уточняется его неповторимость.

Для уточнения будет нужно указать тип в виде @class, который быть может и @id, а опосля пишется = и в одинарных кавычках ‘значение’ пишется запрос.

Но, необходимое нам значение находиться поглубже в теге span, потому добавляем /span и вводим:

IMPORTXML в Google Doc с запросом XPath

Парсинг цен без познаний XPath

Если нет познаний XPath и нужно стремительно получить информацию, то требуется выбрав подходящий элемент в консоли разраба кликнуть правой кнопкой мыши и в меню избрать «Copy»-«XPath». К примеру, при поиске запроса цены получаем:

Копирование XPath для дальнейшего парсинга

Дальше используем ее вкупе с IMPORTXML.

Использование IMPORTXML в Google Sheets

Все готово цены получены.

Обыкновенные формулы с IMPORTXML в Гугл Sheets

Чтоб получить title странички нужно применять запрос:

IMPORTXML для парсинга title страницы в Google Sheets

Для вывода description стоит применять:

IMPORTXML для парсинга description страницы в Google Таблице

1-ый заголовок (либо хоть какой иной):

IMPORTXML для парсинга H1 страницы в Google Doc

IMPORTHTML для сотворения парсера веи-ресурсов в Эксель

Синтаксис IMPORTXML в Гугл Таблице

Для того, чтоб применять данную функцию будет нужно в таблице написать формулу:

Интересно почитать:  Excel функция и функция или

Использование IMPORTHTML с list в Google Sheets

  • Ссылка — URL-адрес странички;
  • Запрос – быть может в формате «table» либо «list», выгружающий таблицу и перечень, соответственно.
  • Индекс – порядковый номер элемента.

С примерами можно ознакомиться в файле:

Пример использования IMPORTHTML в Гугл Doc

Парсинг таблиц

В примерах будет употребляться данная статья, перейдя на которую можно открыть консоль разраба (в Гугл Chrome это можно создать кликнув правой кнопкой мыши и выбрав пункт «Поглядеть код» либо же нажав на сочетание кнопок «CTRL+Shift+I»).

Просмотр кода страницы в Google Chrome

Сейчас просматриваем код таблицы, которая заключена в теге <table>.

Поиск в коде страницы таблицы для парсинга через IMPORTHTML в Google Таблицах

Данный элемент можно будет выгрузить с помощью конструкции:

Пример использования IMPORTHTML c table в Google Doc

  • Где A2 ячейка со ссылкой;
  • table дозволяет получить данные с таблицы;
  • 1 – номер таблицы.

Принципиально! Сам запрос table либо list записывается в кавычках «запрос».

Парсинг списков

Получить перечень, заключенный в тегах <ul>…</ul> с помощью конструкции.

Пример использования IMPORTHTML c list в Google Sheets

В этом случае идет речь о меню, которое также представлено в виде перечня.

Просмотр списка в коде сайта для использования с IMPORTHTML c list в Google Таблицах

Если применять индекс третей таблицы, то будут получены данные с третей таблицы в меню:

Просмотр третьего списка в коде сайта для использования с IMPORTHTML c list с индексом 3 в Google Docs

Просмотр третьего списка в коде сайта для использования с IMPORTHTML c list с индексом 3 в Google Docs

Все готово, данные получены.

Оборотная преобразование

Чтоб перевоплотить Гугл таблицу в MS Excel будет нужно кликнуть на вкладку «Файл»-«Скачать»-«Microsoft Excel».

Ссылка на основную публикацию
Adblock
detector