2GIS
Парсер справочника организаций
Автоматически собирает организации из 2ГИС по рубрикам (или произвольным запросам) и городам. Получите название, адрес, телефон, email, сайт, часы работы, рейтинг и количество отзывов, и др.
Возможности парсера:
- Сбор по рубрикам и городам РФ и других стран
- Фильтрация по рейтингу
- Экспорт в Excel/CSV
- Автоматическое обновление
- Возможность выгружать новые компании, внеся известные в файл skip
Выберите лицензию
💳 Купить за 500 ₽⬇️ Скачать демоКак это работает
Посмотрите, как это просто! Интерфейс программы интуитивно понятен. Не нужно быть программистом.
Запуск без установки
Просто распакуйте архив и запустите файл программы. Программа не засоряет реестр Windows, работая как portable.
Определяем, откуда выгружать
Поставьте отметки на нужных городах. Для дерева регионов - поставьте галочки. Для списка городов - отметьте цветом нужные города. Для того, чтобы отметить несколько городов в списке, удерживайте клавишу Shift или Ctrl при клике на городе. Удержание Shift отметит все города в диапазоне от предудущего выделения до кликнутого. Удержание Ctrl добавит в прежним выделениям кликнутый город. Нажмите кнопку <все> справа внизу списка для отметки всех городов в списке. Обратите внимание, что будут отмечены все города всех стран. Если нужно выделить все города одной страны, кликните на первом городе страны в списке для его выделения, затем удерживая Shift, кликните на последнем городе страны в списке. Раз в месяц или несколько есть смысл актуализировать список городов, на случай если в 2ГИС добавят новые базы. Для этого нажмите <Обновить города>.
Определяем, что выгружать
Для выгрузки по рубрикатору откройте вкладку <Сбор с рубрикатора компаний> Для поиска нужной рубрики нажмите клавиши Ctrl+F, введите фразу, слово или несколько символов, например «парк». Программа покажет только рубрики, содержащие «парк»: Аквапарки, Парки культуры и отдыха, и т.д. Двойными кликами на нужных рубриках добавьте их в копилку рубрик. Для возврата к нефильтрованному списку рубрик нажмите клавиши Ctrl+F и нажмите Enter без ввода фильтра. Нажмите кнопку <Все> справа внизу списка для выделения всех рубрик в списке. Обратите внимание, при выделении рубрики первого уровня выгрузка будет производиться по всем вложенным в неё рубрикам второго и третьего уровня. При выделении рубрики второго уровня выгрузка будет производиться по всем вложенным в неё рубрикам третьего уровня. Для выгрузки по произвольным поисковым фразам — откройте вкладку <Сбор по произвольному списку запросов/адресов> Нажмите кнопку <Редактировать список> для внесения изменений в список запросов/адресов Отметьте в списке нужные строки, используя Shift и Ctrl для отметки нескольких строк при необходимости (как с городами, описано выше). Нажмите кнопку <Все> справа внизу списка для выделения всех запросов/адресов в списке.
Определяем, как выгружать
Если необходимо сканировать сайты компаний в поисках емейлов, включите соответствующую галочку. Если необходимо при поиске емейлов искать ещё и ИНН, включите соответствующую галочку. Включение поиска ИНН автоматически включает поиск емейлов. Задайте число сканируемых страниц. Число 1 будет означать, что программа откроет сайт компании по ссылке из справочника 2гис, и возьмёт данные только оттуда. Если лимит сканирования больше 1, программа возьмёт с открытой страницы все ссылки на внутренние страницы сайта, возьмёт из построенного списка ссылок заданное вами число страниц, и все их просканирует. Если найденный на сайте email попадает под заданные фильтры email (подробнее о них в описании настроек), то программа не будет его выгружать в результаты. Включите фильтр организаций по типу, при необходимости. Обратите внимание, что включение каждой галочки УМЕНЬШАЕТ число результатов в выгрузке. Чем больше галочек фильтра включено, тем меньше фирм будет в выгрузке. Включение всех галочек может привести к тому, что ни одна фирма не будет выгружена, поскольку в данной рубрике не окажется ни одной фирмы со всеми ОДНОВРЕМЕННО включенными признаками типов.
Определяем настройки
Для вызова окна настроек программы нажмите на оранжевую кнопку рядом с кнопкой <СТАРТ> Установите параметры организации файлов: выгружать все организации выгрузки в один файл, или раскладывать их по разным файлам (и разным папкам). Установите кодировку выгрузки. В случае старых версий Excel удобнее использовать кодировку Windows-1251. Обратите внимание, что при выгрузке организаций не из России кодировка Windows-1251 не подходит. Установите задержку в миллисекундах между запросами к сайту, по умолчанию задано 1000мс (1 секунда).
Запускаем
Нажмите кнопку СТАРТ! Программа автоматически откроет файл выгрузки после завершения работы, чтобы вы не пропустили этот момент.
Результат работы
В итоге вы получаете такую таблицу с данными:
Колонки в итоговом файле:
Важные детали
Парсер выгружает данные напрямую из 2ГИС! Никакие промежуточные базы не используются.
ВНИМАНИЕ! Сейчас 2гис выдаёт не более 5 страниц по 12 фирм, в любом списке фирм, по любой рубрике или запросу! Проверьте в браузере: ссылки на страницы дальше пятой, например вот шестая https://2gis.ru/moscow/search/*/rubricId/5603/page/6 — открывают первую страницу, без page! Поэтому выгрузка более 60 организаций с каждой рубрики/запроса сейчас невозможна! Если выгружать по 10 городам по сотне рубрик, можно выгрузить не более 60*10*100 = 60 тысяч фирм. Когда будет снято это ограничение — неизвестно.
В нашем новом парсере можно обойти это ограничение и выгружать полные базы! Описание и демо парсера UltraParser2gis здесь.
Обратите внимание: если вам необходимо сканировать сайты компаний в поисках email и ИНН, выгрузка будет идти дольше, чем выгрузка только из 2гис. Скорость сканирования сайтов зависит от заданного вами лимита количества сканируемых страниц на каждом сайте, от скорости работы сайтов в выборке, от количества компаний с сайтами в выборке, и так далее. Если вам необходимо выгружать со сканированием сайтов большое количество компаний, суточного тарифа может быть недостаточно для завершения выгрузки. После истечения срока действия лицензии выгрузка остановится.
Для того, чтобы сканирование сайтов не тормозило процесс выгрузки из 2гис, рекомендуем использовать наш парсер EmailExtractor для сканирования сайтов компаний, который не имеет ограничений по сроку действия лицензии, и кроме всего прочего, позволяет накапливать базу емейлов для ускорения повторных выгрузок по тем же сайтам.
Парсер ДубльГис умеет работать в режиме получения списка новых организаций в базе. При запуске сбора парсер ищет файл skip.txt в своей папке, и загружает оттуда список ID организаций, которые не нужно загружать. Если Вы собрали какую-то рубрику некоторое время назад, возьмите из старого файла результатов первую колонку с числовыми ID организаций, и поместите этот список в файл skip.txt в папке программы. Запустите сбор той же рубрики, парсер пропустит все старые организации, и на выходе вы получите список только новых организаций заданной рубрики.
Техническая гарантия
Проверено антивирусом
Файл собран на чистом окружении. Ложные срабатывания антивирусов на portable-утилиты — норма, мы гарантируем отсутствие вредоносного кода.
Мгновенная доставка
Ссылка на скачивание приходит на почту сразу после оплаты.
Техподдержка 24/7
Если программа не запускается или выдает ошибку — напишите нам, заявки принимаются круглосуточно

