Как заработать на парсинге сайтов: успехи, провалы, советы, готовый гайд

0

Привет! На связи Максим Кульгин. Моя компания xmldatafeed. com более 5 лет занимается парсингом сайтов как в России, так и за рубежом. Ежедневно мы парсим более 400 крупнейших интернет-магазинов. Сегодня делюсь опытом, отвечаю на типичные и нетипичные вопросы, развеиваю мифы, рушу мечты.


                    Как заработать на парсинге сайтов: успехи, провалы, советы, готовый гайд

На самом деле парсинг — это не бином Ньютона. В парсинге нет каких-то сверхсложных задач. Повторить может каждый. Но это становится ясно только после череды ошибок и многолетнего опыта. Если бы мы только знали, как делать правильно…

Накопилось много комментариев, и некоторые из них вошли в статью почти «как есть», с небольшими грамматическими улучшениями, никак не влияющими на суть.

Увидел заголовок и сразу понял кто автор.

Я уже не первый раз рассказываю здесь о нашем опыте в парсинге.

Ещё больше, по пять-шесть раз в день, пишу в Телеграм-канал «Русский ИТ бизнес», в котором делюсь идеями, успехами, провалами, а также дарю платные материалы. Все посты активно обсуждаются. Нас уже почти 12 000 (предприниматели и айтишники, в основном) . Присоединяйтесь!

Прибыльный бизнес

Прежде чем погружаться в технические аспекты, разумно задаться вопросом: «А стоит ли овчинка выделки?»

Не понимаю… кто может покупать этот парсинг? ..

Парсинг «покупает» бизнес. Это технология, которая дает возможность следить за ценами и ассортиментом товаров у конкурентов, получать номенклатуру (список товаров, вес, габариты) , проводить узконаправленные рекламные кампании… всех применений не счесть.

Ошибочно думать, что парсинг нужен только крупным компаниям. Он нужен буквально всем.

Мы активно занимаемся этим видом бизнеса с 2018 года, и год от года выручка только растет. Налоговые данные открыты — сомневающиеся могут проверить все выкладки самостоятельно.

Выгодно ли заниматься парсингом?

Заканчивается год, и мы должны завершить его с выручкой более 40 млн. рублей. В прошлом году было 20 млн. , в позапрошлом — 7 млн.

Конечно, это очень выгодно! Вырасти в два раза за год — это фантастический для нас результат, учитывая сколько мы не дорабатываем в маркетинге.

Я посмотрел ваш сайт. Думаю, что вы потеряли еще 30 миллионов. Заходя на сайт, я задаю себе вопрос: «Для чего мне это и как этим пользоваться?» — и не нахожу ответа.

Уверен, что так и есть! Это ещё одна наша недоработка. Когда я говорю о наших упущениях в маркетинге, то имею ввиду в том числе и это. Просто заметьте: двукратный рост в выручке при таких провалах. А если за парсинг возьмется тот, кто сможет сделать удобный сайт? Какой же у него будет рост? !

«Ну, хорошо, — скажете вы, — а что с прибылью?»

Прибыль получается где-то на уровне 20−25%.

Что-то я сложил затраты на качественный персонал, инфраструктуру и осталось как-то не много. Видно, что оборот есть. А деньги в кармане?

Много вы знаете видов бизнеса, где наблюдается удвоение выручки каждый год?

Особенность парсинга в том, что рынок необъятный. Нам очень интересно заниматься этим на протяжении многих лет (парсинг — наше любимое детище) , но даже мы не можем разглядеть границы рынка, оценить его глубину, понять до каких масштабов можно расти. Увеличивая число клиентов, наблюдаешь за экспоненциальным ростом количества сайтов и торговых площадок.

Вариативность применений парсинга тоже растет. Он становится нужен буквально всем. Как можно освоить весь этот рынок? Или хотя бы предсказать его границы?

У нас сейчас примерно 60 постоянных клиентов, которые генерируют выручку в 40 млн. в год. Но их может быть и 600, и 1600, и 6000. Когда мы только начинали, были сомнения: нужно это кому-то или нет.

Докладываю, ребята. Нужно! Это голубой океан возможностей.

Сайты уходят уже потихоньку в прошлое.

Да, нет же! Сейчас сайтов на планете больше 2 млрд. , их количество из года в год неизменно растет. Вспомните, как в августе 1991-го был всего 1 сайт. Никаких иных технологий на замену электронному маркетингу пока не предвидится.

Другое дело, чтобы зарабатывать, надо кое-что учитывать.

Реальные деньги — в массовости.

Например. У нас есть клиент, которому мы парсим 600 сайтов в день. Они не очень сложные — данные извлекаются без изощренного противодействия со стороны авторов. За счет количества сайтов формируется платеж более 1,5 млн. руб. в месяц — и это приносит только один клиент! Конечно, есть микрокоманда, которая обслуживает этого клиента.

Если бы мы концентрировались на каком-то одном сайте, например на Ozon (который просят парсить постоянно) , то мы бы сильнейшим образом ограничили себе круг доступных клиентов.

Средний чек получается около 20 тыс. руб. за один сайт в месяц. Поскольку бизнес проектный, а не продуктовый, то разброс цен иной раз выходит очень значительным. Есть клиенты, которые платят 400 тыс. в месяц за большой набор данных, есть «малыши» с чеком 5 тыс. в месяц.

Если кому удастся перестроить парсинг из проектного бизнеса в продуктовый — тот выйдет на совершенно иной уровень. Мы уже неоднократно пытались осуществить такой переход, сейчас предпринимаем шестую попытку.

С другой стороны, выбор маркетинговой модели продаж — это палка о двух концах. Парсинг — кастомная разработка, как ни крути. И если бы мы пытались продвигаться как сервис, то неизвестно пришли бы к нам сегодняшние наши клиенты или нет.

Мы нашли гибридное решение, которое оказалось в значительной мере спасительным. Выиграли все — и клиенты, и мы. Но об этом ниже.

Что нужно клиенту

Всё, что находится в открытом доступе и доступно для чтения любому человеку, может быть прочитано и машинным способом. Например, цены на товары, наличие в магазинах и тому подобное. Подчерну, парсинг фактически означает автоматизацию работы человека.

Мы не занимаемся парсингом сайтов в режиме, где требуется указывать логин и пароль. В некоторых случаях аутентификационные данные хочет предоставить клиент. Мы стараемся отговорить его от подобного решения — не все осознают насколько велик риск блокировки аккаунта.

Чаще всего — около 90% случаев — просят парсить интернет-магазины, входящие в ТОП 100.

Вот, к примеру, типичный запрос от клиента:

Здравствуйте! Мне нужен парсер, который будет ежедневно собирать остатки с сайта поставщика и отдавать их в виде excel-файла или xml-фида.

А вот пример запроса, который мы вынуждены оставить неудовлетворенным:

Соберите мне, пожалуйста, контакты маркетологов фитнес-центров г. Казань.

Это не шутка. Именно подобные запросы мы получаем чаще всего. Во-первых, такая задача не имеет роботизированного решения — это разведка, а не парсинг. Во-вторых, мы не работаем с персональными данными, скрытыми от публичного доступа.

Мы можем собрать, например, базу интернет-магазинов косметики (с помощью анализа тэгов title и description сайтов, скажем, в зонах «RU» и «РФ») и таким образом получить публичные адреса электронной почты и телефоны. Это не то же самое, что добывать личные контакты, не представленные в интернете!

Вот ещё пример задачи, не имеющей решения:

Здравствуйте, хотим получить базу стоматологических клиник. Требуемые параметры: в городах больше 500 000; более 4 кабинетов в клинике; средний чек больше 7000 руб. Необходимо получить рабочие (не пустые) телефон и адрес электронной почты директоров.

Клиентам нужна табличная информация. Всё, что дает парсинг, должно быть представлено в виде xls, csv или json — разрозненные и разбросанные по интернету данные концентрируются в структурированную информацию, готовую для дальнейшей обработки.

Что клиенты делают дальше — нас не касается. Наша задача — обеспечить поставку полных данных на ежедневной основе.

Обычно полученная информация используется для аналитики. Кто-то для этого использует PowerBI, Google BigQuery или аналогичные инструменты. Знаем, что часть клиентов загружает данные в 1C. Здесь на первое место выходят предпочтения менеджеров и аналитиков. Дата-инженеры предпочтут такие инструменты, как Pandas и MatPlotLib.

Некоторые клиенты предпочитают работать с данными по протоколу WebDav — файлы доступны в проводнике, как будто они находятся на локальной машине.

Сейчас кого-то могла посетить гениальная мысль, что будет здорово сделать некий сервис, разработать API (программный интерфейс) , чтобы клиенты могли использовать его для подключения к базе данных или что-то подобное.

Нет. Никому это не нужно. Простые плоские табличные файлы — xsl, csv, json, xml — это то, что требуется буквально всем. Ничего больше! Никаких ноу-хау!

Технически, обмен данными происходит в облаке, так удобно всем. Мы загружаем — клиенты скачивают. Решение, которое мы используем — NextCloud: бесплатно, открытая архитектура, устойчивая работа, регулярные обновления, прекрасная документация, поддержка множества протоколов передачи данных.

В числе прочих наших экспериментов мы пытаемся торговать готовыми базами данных. Тут мы что-то опять делаем не так с точки зрения маркетинга. Или предположения по ожиданиям клиентов оказались ошибочными. Порой вся наша деятельность — через лес на ощупь.

Мы хотим торговать готовыми базами данных. Насобирали уже порядочное количество. Суть в том, что роботы обходят все сайты рунета (их около 7 млн.) и собирают все общедоступные данные. Таким образом можно создать, например, базу всех ресторанов и кафе, базу оптовых компаний и тому подобное. Но пока наши ожидания не оправдываются. Процесс ресурсозатратный, да и ажиотажа не наблюдается.

Говоря о потребностях клиентов, мы плавно переходим от технических подробностей к потребностям бизнеса.

Подавляющее большинство клиентов хотят получать данные на регулярной основе, а значит, парсинг должен работать бесперебойно. Это надо учитывать при оценке своих возможностей (технических и кадровых) , а также при расчете экономики предприятия. Помните, мы в начале говорили о спасительном гибридном решении? Оно и здесь выручает. Подробнее поговорим об этом ниже, сейчас не будем отвлекаться от клиентских потребностей.

Следующая критическая особенность для клиента — уровень сервиса и ответственности.

У нас есть клиенты, которые периодически отдают работу на фриланс. Потом снова к нам приходят. Почему?

Клиентам нужно стабильное качество.

Это не значит, что ребята на фрилансе работают хуже. Просто когда парсинг требуется на регулярной основе, возникает острая необходимость в системе поддержки. У нас сейчас в команде поддержки трудятся три менеджера, которые ежедневно работают с клиентами, проверяют результаты, ставят задачи программистам и так далее. Легко представить себе такой уровень сервиса на фрилансе? Вот то-то же.

Видно, что вы молодцы и упорные, глубоко в теме, но…

Вы торгуете золотой рудой за копейки, а ваши клиенты из неё делают ювелирные украшения, умножая стоимость на пару порядков — такая аналогия напрашивается.

Да, всё верно. Те, кто хочет повторить наш успех, должны ментально смириться со своим местом в производственной цепочке. Данные — это новое золото. Кто-то снимает все сливки, сидя в ювелирном магазине. А мы ползаем где-то на дне шахты и за копейки ковыряем породу. Это и есть наша работа.

Переходим к рассмотрению ещё одной клиентской потребности, не столь очевидной для обычного человека, но вполне понятной для бизнесмена.

Часто руководители предприятий — особенно это характерно для крупных, публичных компаний — сталкиваются с рекомендациями своих юристов и специалистов службы безопасности, чтобы никоим образом не оказаться замешанными в автоматизированном сборе данных. Это не домыслы, а реальный опыт общения.

Тема эта настолько серьезная и обширная, что её приходится рассматривать отдельно.

Сумеречная зона

Компании не спешат влезать в такое зыбкое правовое поле как парсинг.

Поднимается целый комплекс не до конца ясных юридических вопросов, разбираться в которых у бизнеса совершенно нет ни времени, ни лишних денег, ни желания.

С одной стороны, мы знаем, что парсинг абсолютно законен (если не наносить вред источнику и прочим подобным образом не нарушать регламенты) .

Общедоступная информация может собираться любым, в том числе автоматизированным, способом. Действительно, браузер — это ведь тоже инструмент сбора данных, он проделывает колоссальное количество автоматизированной работы и так же позволяет сохранять просмотренную информацию.

Организация вправе осуществлять автоматизированный сбор информации (парсинг сайтов) , размещенной в открытом доступе на сайтах в сети интернет, если соблюдаются следующие условия:

• информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах;

• автоматизированный сбор осуществляется законными способами;

• автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет;

• автоматизированный сбор информации не приводит к ограничению конкуренции.

С другой стороны, объектом парсинга может стать, скажем, собранная кем-то база данных, а значит, она защищена авторским правом. Примером может послужить описание товаров. К счастью, нас всегда просят собирать фактические данные, которые не попадают в эту категорию: цена, бренд, тип товара и тому подобное.

Мы хотим найти кого-нибудь, кто будет оказывать услугу по сбору информации, потому что дело какое-то мутное. Мы не совсем уверены, практики особо нет судебной.

Одним словом, бизнес не хочет лезть в парсинг и проводить над собой юридические эксперименты. Причем это характерно для клиентов из любых стран, не только из РФ.

Клиенты из-за границы тоже не хотят связываться с местными законами и думают так: «Есть какие-то парни в далекой России. Закажем у них услугу, они будут нам отгружать данные, а откуда они их берут нас вообще не касается. Мы белые и пушистые».

Недавно так и было. Сейчас добавилась сложность с оплатой и дополнительные страхи для зарубежных клиентов.

Как всегда все в белом, кроме нас.

Пару раз мы получали предупреждающие письма от компаний, которые находили у нас примеры парсинга их сайтов. Последний раз это было письмо от Aviasales, которые угрожали судом и жесткой расправой, хотя в действительности, на момент обращения, мы их не парсили.

Претензия была оформлена с непонятными трактовками, так как, видимо, юристы не совсем поняли о чем вообще речь. Скорее всего, когда Aviasales столкнулись с массовым парсингом, они сделали рассылку претензии по всем компаниям, которые публично заявляют, что занимаются этим бизнесом — на всякий случай, вдруг кто-то отреагирует.

Ещё было обращение от компании, которая отслеживает упоминание товарных знаков. Они просили, чтобы мы убрали упоминание Эльдорадо. Тоже грозили небесными карами, — куда же без этого? ! — затем успокоились и перешли в более конструктивное русло после того, как мы запросили официальные документы на подтверждение представления интересов компании Эльдорадо в этом вопросе.

Чтобы лишний раз не провоцировать заинтересованные стороны, мы теперь выкладываем примеры парсинга с искаженными оригинальными названиями. Понимаем, что глупо, но так мы экономим время юристам компаний, а значит, они получают возможность потратить свое время более эффективно.

Я написал в оферте на моем сайте, что запрещаю парсинг!

Отлично! Если когда-нибудь поступит заказ на парсинг оферт (например, с исследовательскими целями) , мы и оферты спарсим. Пока же они практического интереса не представляет.

Бизнес руководствуется нормами права, а не этики. Со стороны владельцев ресурсов парсинг зачастую вызывает негативные эмоции. Здесь тоже можно поговорить об этике — ведь мы наталкиваемся на двойные стандарты.

Когда сайты парсят поисковики, такие как Яндекс или Google, то владельцам сайтов это нравится — ведь растет посещаемость. Когда сайты парсят такие исследователи информационного поля как мы, то владельцам сайтов это не нравится — ведь усиливается осведомленность конкурентов.

А ведь читающие сайты роботы во всех случаях действуют одинаково!

Мы хотим стать вашими клиентами. Нас-то вы парсить не будете?

Часто новые клиенты спрашивают (уж не знаем, в шутку или нет) , о том не парсим ли мы их. Наша позиция — честно отвечаем как есть. Сотрудникам дано указание: при общении с новым клиентом, если мы вдруг парсим его сайт, обязательно рассказать об этом.

Никто не любит, когда его парсят. Но только один раз крупный клиент рассердился и потребовал прекратить парсинг его ресурсов, если мы хотим с ним работать. Конечно, мы с ним не работаем.

Вы взламываете сайты?

Можно спарсить HeadHunter под паролем?

Надо зайти на тендерную площадку.

К нам постоянно обращаются с хакерскими задачами. Подмигивают, просят «как-то решить вопрос» с получением данных, обещают не остаться в долгу.

Разумеется, мы такими вещами не занимаемся. Это или тематика, относящаяся к darknet, или преступная деятельность, или то и другое одновременно. Зачем нам это? Мы работаем в правовом поле и никуда за его пределы заступать не собираемся.

Трудности парсинга

Первая трудность, с которой сталкиваются новички в парсинге — это совершенно невообразимая, дичайшая конкуренция. Не удивляйтесь — такое положение дел прекрасно соотносится с безграничным океаном возможностей.

Пробовал заниматься парсингом. Заказчиков не найти. Те, кто иногда попадается, хотят получить результат за копейки. Может, мне просто не везло? Какие миллионы? Последняя просьба была — сделать на региональном сайте магазина запчастей подстановку с каталога другого крупного поставщика запчастей с изменением цен, готовы были за это заплатить 7 тыс. рублей. Вежливо послал.

На всех биржах фриланса — изобилие предложений по парсингу всего и вся. Квалификация ребят — отличная! Цены — ниже некуда. Для тех, кому нужны данные, самоделкин на фрилансе — это прекрасный первый шаг на пути к нам. Почему? Фриланс — это одноразовые задачи. Когда получение данных нужно поставить на поток, появляется необходимость в команде специалистов и поддержке — одному человеку просто не справиться.

Купить рекламу Отключить

Поэтому тем, кто захочет войти в этот прекрасный бизнес, в первую очередь нужно озаботиться способом привлечения клиентов. В особенности это касается крупных клиентов, которые и дают основную выручку.

Вторая трудность — это, конечно, противодействие парсингу.

Изощренность методов, мешающих добывать данные растёт, и конца этому прогрессу не видно. Некоторые площадки в этом настолько преуспели, что парсить их становится попросту нерентабельно.

Поэтому есть сайты, которые мы не парсим: Ozon, AliExpress, iHerb. Тяжело дается СберМегаМаркет, ВсеИнструменты. Технически парсить-то их можно — вопрос в цене. При росте количества требуемых данных стоимость издержек на парсинг растет непропорционально сумме, которую клиент готов заплатить.

Самая лучшая защита — у Avito. У них достаточно ресурсов, чтобы заниматься этим вопросом на очень высоком уровне.

А зачем, например, Озону защищаться от парсинга?

Вайлдберриз боятся. Если серьёзно, они же тоже торгуют данными. Достаточно узнать сколько стоит их премиум-аккаунт, когда они готовы поделиться кусочком данных, — и вопрос отпадет сам собой. Ну и, конечно, защита от перегрузки вследствие большого количества запросов — ещё один резон противодействовать большому количеству запросов с одной и той же точки сети.

Вас останавливает CloudFlare?

Нет, конечно. Но надо заметить, что цель CloudFlare состоит не в противодействии парсингу, а в защите от DDOS-атак. Сейчас количество заказов на парсинг сайтов под защитой CloudFlare сильно упало. Qrator — другое отличное решение для защиты от DDOS-атак — тоже добавляем нам сложностей.

Тогда я ограничу количество запросов, а потом скажу решить капчу (captcha) — и остановлю ваш парсинг!

Массовый проход тестов тестов Тьюринга (когда надо доказывать, что ты не робот) — ещё одна задача парсинга.

Есть очень дешевые сервисы ручного решения капчи. Упрощенно говоря, когда наши роботы встречают капчу, они автоматически подключаются к такому сервису, который быстро перекидывает задачу оператору для ручного решения. В месяц тратится около 4 тыс. руб. на оплату подобных сервисов.

Тогда я выведу вам цену картинкой! Можете попрощаться со своим парсингом.

Хоть звучит смешно, но встречали и такое на ряде сайтов. Пожалуйста, не тратьте свое время — библиотеки распознавания изображений работают великолепно. Справиться с такой задачей намного проще, чем с тестами Тьюринга, где надо привлекать сервисы с белковыми операторами.

Нужно ли мне внедрять защиту на своем сайте?

Защита не спасает от промышленного парсинга. Зато она прекрасно останавливает прочитавших книжку «Парсинг с помощью Python для чайников». Оправданы ли затраты ресурсов на защиту — каждый решает для себя сам.

Бизнес устроен так, что чем труднее парсить сайт — тем больше требуется усилий от команды специалистов — тем дороже эта услуга обходится клиенту.

Трудности в парсинге не ограничиваются лишь технической и юридическими сторонами. Рассмотрим организационные.

Надо быть готовым к быстрому масштабированию. Растет выручка — растут затраты. К примеру, наша выручка выросла по сравнению с прошлым годом в два раза. Так и затраты выросли так же — и что хочешь, то с этим и делай.

Спарсить один сайт — не страшно. Два сайта, двадцать — тоже не трудно. Когда вам надо стабильно парсить 200 сайтов в день — вот тут уже приходится хвататься за голову. Что будет, когда потребуется парсить, скажем, 700 сайтов в день? Правильно — поднимать свою инфраструктуру.

По мере того, как клиенты заказывают новые и новые сайты, растут затраты на серверы, на основные средства, на зарплату, на увеличение штата.

Имейте ввиду, что когда вы выходите на такой уровень, вы не можете допускать просадок по выручке — сотрудники должны получать зарплату независимо от успешности бизнеса.

Сейчас у нас на парсинг работают 7 программистов, 3 менеджера по поддержке и менеджер по приему входящих заявок. Приход каждого нового крупного клиента требует усиления команды.

Поддержки требуется очень много, она фактически прямо пропорциональна количеству сайтов, которые надо парсить. Любое изменение структуры или разметки сайта может привести к тому, что роботов надо перенастраивать. Всё это надо учитывать при масштабировании.

Следующая организационная сложность — прием оплаты из-за границы. Тут вообще всё встало. К примеру, у нас есть клиент в Германии. Он готов платить, но не знает как. У него крупная компания, есть свой юридический отдел. Все предложения с переводами в Армению и так далее отклоняются юристами — небезопасно, можно попасть под подозрение. Бизнес не позволяет неоправданных рисков.

По этой же причине не подходит криптовалюта. Технически таким образом перевод сделать можно — но как легализовать проводку?

Нам повезло, что основной рынок заказов — внутрироссийский (80% — РФ, 20% — Казахстан, Беларусь и другие наши соседи) . Единственное неудобство, которое мы ощутили — пришлось открыть еще один расчетный счет для клиентов из Казахстана.

Наконец, последний недостаток парсинга состоит в том, что это оказание услуг, а не разработка ПО, что делает невозможным получить аккредитацию для ИТ-компании. Это и раньше было существенно: аккредитация давала сокращение налогов и социальную поддержку работников. Сейчас значимость аккредитации значительно выросла, поскольку она особым образом учитывается в военкоматах.

Короче, нам аккредитацию получить не удалось. Мы платим большие налоги и не можем дать ребятам отсрочку от армии.

Парсинг — тяжёлая эта работа, постоянный движ. Боюсь, у этого бизнеса нет особых перспектив — слишком много нюансов при парсинге конкретных сайтов, которые надо «подкручивать» каждый день.

Да, ещё одна трудность — высокая когнитивная и организаторская нагрузка. Нужно работать с прокси-серверами. Разными. Их требуется много. Очень много. Нужно уметь крутить fingerprints (цифровые отпечатки браузера, по которым защита различает подключающихся) . Надо плотно работать с сервисами по прохождению тестов Тьюринга: 5−6 запросов — и уже вылезает капча.

Но, довольно о трудностях. Волков бояться — в лес не ходить. У нас же получается! Вперед!

С чего начать

Самым надежным вариантом и в бизнесе, и в других сферах деятельности является создание так называемой минимально жизнеспособной версии, MVP (a minimum viable product) .

Мы так и оказались на этом пути. Нас как-то попросили собрать цены с Леруа Мерлен. Попробовали. Получилось. И вот, спустя несколько лет, мы пишем о 40 млн. выручки.

Я сделал продукт из парсинга одного сайта, и у меня сейчас 9 тыс. клиентов.

Если вы глубоко разберетесь с парсингом какого-то конкретного сайта, научитесь обходить его защиту, то найдете себе клиентов сразу же.

Да, специализация получается узкая. Но так можно и опыт получить, и клиента найти. Не забывайте о дичайшей конкуренции и демпинге. Это в основном те, кто пытается быть универсалами на рынке фриланса.

Здесь на первый взгляд может показаться парадокс, но нет — узких специалистов всегда мало, они без труда находят работу, а их востребованность не зависит от трендов.

Какой сайт выбрать? Попробуйте парсить зубастые сайты, которые у всех на слуху: Яндекс Маркет (очень трудно) , ВсеИнструменты (ещё труднее) . Там отличная защита и много товаров.

Цену определяйте сами. Конкуренция очень большая и вам может нелегко будет обосновать цену. Мы за сайт в среднем берём 20 тыс. руб. в месяц. Но стоимость определяется в каждом конкретном случае и может сильно варьироваться в зависимости от времени специалистов, которое потребуется для настройки роботов.

Ещё пример. Нам нужно парсить Яндекс-карты и 2Гис для кое-каких целей. Да, аккуратно, не нарушая авторские права и учитывая множество других вопросов. Сами мы не беремся, потому что наша команда очень занята на других задачах. И мы договорились с фрилансером. За два сайта он попросил 70 тыс. руб — это ещё со скидкой. Но мы понимаем, что столько это и стоит, нормальная цена.

Если бы к нам обратились с такой просьбой, мы бы за регулярный парсинг Яндекс-карт и 2Гис (в полном объеме по всем городам) взяли бы, наверное, не 70 тысяч, а 240 или 300. Конечно, у нас команда больше и поэтому издержки другие. Тут и проявляется выгода фриланса — небольшие производственные издержки, особенно на старте.

Надо пробовать. Опыт покажет всё. Со временем, зная трудозатраты, вы научитесь рассчитывать стоимость своих услуг.

Ещё с чего можно попробовать начать — искать клиентов за границей. Так или иначе, а работа на западного заказчика — выгодная история. Вы получаете хорошую оплату труда, а клиент не боится, что нарушит что-то в юридическом поле, которое не всем понятно.

Выход на глобальные рынки, конечно — непростая задача. Нужен менеджер по работе с клиентами с отличным английским, поддержка на иностранном языке. Про испанский и португальский тоже забывать не нужно — это целый мир Южной и Латинской Америки. На местных рынка можно работать и зарабатывать, услуга востребованная везде. Чем больше информации, чем активнее цифровизация — тем больше востребованность в превращении неструктурированных данных в структурированные.

Советуем всегда заключать договоры. Это не сложно, найти шаблон не составит труда. Ищите «автоматизированный сбор неструктурированных данных из открытых источников в сети интернет с преобразованием в структурированные данные».

Правильный путь

После того, как пойдут первые клиенты и вы начнете входить во вкус, надо будет подумать о дальнейших шагах, о стратегическом развитии.

Запомните! Основную выручку делают крупные клиенты. Модный закон Парето действует и тут: 20% клиентов — 80% выручки.

Думайте, как заполучить их. Перечитывайте главу «Что надо клиентам» и планируйте работу, отталкиваясь от тех нужд, которые мы описали.

Когда попадется крупный клиент — цепляйтесь за него. Дальше развивайте свою экспертность.

Как находить и привлекать крупных клиентов? Рассказываем свой опыт.

Реклама — первое, что приходит в голову.

Мы балбесы и потратили на рекламу неимоверное количество денег — результат нулевой. Пытались давать контекстную рекламу, но отдачу не увидели. Сквозную аналитику пытались настроить. Сейчас мы вообще не даем рекламу — это не работает.

Хотя может мы делаем что-то не так. Еду на работу — ругаю себя. Еду с работы — опять ругаю себя. Всё думаю: как дать рекламу, чтобы к нам приходили клиенты на парсинг? И ничего не приходит в голову. Ну, да, профессионалы АйТи.

Все клиенты приходят из блога, который мы ведем на сайте, из социальных сетей и после публикации статей на ВиСи и Хабре — почти 100%. Может быть, буквально несколько клиентов пришли по сарафанному радио.

Всё! Других источников мы не нашли.

Посещаемость нашего сайта где-то 3,5−4,0 тыс. уников в месяц. За рабочий день мы получаем 2−3 крепкие заявки, по которым можно работать.

Тут мы не оригинальны. Клиенты приходят на сайт из поисковых систем (Яндекс и Google — 50 на 50). Самое результативное, что догадались сделать — публиковать статичные примеры парсинга известных компаний на своем сайте с возможностью их скачивать и изучать. Дальше просят данные уже в динамике и мы заключаем договор.

Сайт сделан на WordPress — ничего сложного.

Основной поток заявок идет в чат и на почту. Не знаю почему, но на телефон заявки приходят очень редко.

Ну и наконец, завершая разговор про правильный путь, расскажем о спасительном гибридном решении, о котором мы не раз упоминали выше.

Есть два подхода в разработке — продуктовая и проектная деятельность. Продуктовая — это спокойствие и фонтанирование денег. Проектная — это вечный стресс и сбор копеек по пустыням.

Парсинг — однозначно проектная деятельность. Но как превратить её в продуктовую? Как избежать неожиданных издержек и сократить стоимость одновременно? Мы придумали гибридный вариант — подписку.

Подписка означает, что клиенты платят регулярно. Мы постоянно совершаем ошибки в оценке сложности: недодумали, недопоняли, недооценили — приходится затратить больше, чем клиент заплатит. Несмотря на внушительный опыт, это происходит неизменно.

Например, мы подсчитали, что парсинг такого-то сайта обойдется нам в 20 тыс. руб. , а оказалось, что мы три недели потратили на настройку роботов. Такое случается, некоторая защита хитрее, чем это показывают первичные тесты.

В таких случаях спасительная подписка вытягивает. Наша недооценка компенсируются на второй или третий месяц подпиской.

Одним словом, подписка — это наше всё!

Когда начнете выходить на промышленный уровень, то организовывайте подписку, иначе будете в шоке от того, насколько всё сложно.

Дальнейшее развитие

Надо не стоять на месте, а развиваться, подстраиваться под запросы клиентов. Люди хотят парсить по отдельным регионам — это целый пласт исследовательской работы, к которой мы пока не готовы. Надеюсь, что в следующем году освоим.

По мере того как начнет расти объем данных, всё актуальнее будут становиться вопросы масштабирования архитектуры. Мы не были исключением и однажды, когда количество сайтов выросло и объем данных стал очень большим, — у нас всё стало работать через… ну, в общем, как обычно, далеко не самым эффективным образом.

Пришлось платить где-то под 200 тыс. руб. в месяц за аренду VPS/VDS серверов. Использование виртуальных серверов оказалось экономически нецелесообразным и мы перешли на выделенные bare metal серверы в нескольких дата-центрах. Раньше аренда одного выделенного сервера обходилась в 3 тыс. , теперь в 6 тыс. В месяц серверы нам обходятся примерно в 150 тыс. руб. , и аренда продолжает дорожать.

Перед заключением договора аренды мы рассказываем хостеру дата-центра в чем состоит суть нашего бизнеса, как мы работаем и тому подобное. Очень редко, может быть раз в год, хостеру поступают жалобы на работу наших роботов. Все возникающие претензии мы обрабатываем и улаживаем.

Сейчас мы постепенно приходим к необходимости своего маленького дата-центра. Вложившись в серверы и оборудовав серверную комнату, мы сможем не только окупить затраты, но и снять множество вопросов. Нам в комментариях даже советовали зимой приточную вентиляцию в серверную организовывать для снижения расходов.

Ещё один неосвоенный нами способ увеличения прибыля — матчинг (сопоставление) товаров.

Признаю, что если сделать шаг вперед и заняться матчингом товаров между разными продавцами, а уже потом продавать аналитическую отчетность, мы могли бы добиться больших результатов. Могу ошибаться, но именно этим занимаются наши конкуренты (или смежники, правильнее) . Финансовые результаты по выручке у них явно лучше.

Что удерживает? Ресурсоемкость. Матчить (сопоставлять) между собой товары по названию между разными игроками на постоянной основе очень ресурсозатратно. Мы пытались внедрять различные алгоритмы, которые частично автоматизируют этот процесс, но результаты были неудовлетворительные (попробуйте, например, сопоставить аптечные препараты с фасовкой-граммовкой-литражом) .

Вообще, следующим этапом развития может стать дальнейшая обработка собираемых нами данных — то, ради чего клиенты заказывают у нас парсинг.

Работу с данными можно разделить на две части: сбор и аналитика. Мы сосредоточились именно на сборе сырых данных, полностью игнорируя аналитику.

Мало собрать данные, с ними надо уметь работать. Например, есть сервисы, которые занимаются аналитикой маркетплейсов. Эти команды парсят данные, сразу же обрабатывают их, а затем предоставляют в удобном для понимания виде.

Нельзя сказать, что мы не попробовали. Пробовали ещё как! Но не справились. Нужно очень хорошо знать предметную область, чтобы делать качественную аналитику. Мы же пока продолжаем парсить всё, что «шевелится» — и не вникаем, как наши клиенты работают с этими данными.

Подытоживая, можно сделать уверенный вывод о том, что парсинг и всё, что с ним связано, — это направление бизнеса, которое невероятно перспективно. Потенциал трудно переоценить, он огромный.

Мы щедро делимся с командой. Очень много инвестируем в развитие, инфраструктуру, а также наши другие бизнесы: разработку мобильных приложений, защиту от скликивания рекламы, некоторые экспериментальные проекты.

То есть все деньги уходят на внутренние команды и на будущее. Я не могу сказать: хорошо это или плохо, правильно или неправильно — но надо же двигаться вперед, выходить на другие рынки, открывать новые направления деятельности.

Надеюсь, что вдохновил кого-то, кто решит попробовать себя в парсинге, преуспеет и однажды станет нашим конкурентом.

Дерзайте!

Напоминаю, что регулярно описываю наш опыт в Телеграме-канале «Русский ИТ бизнес».

Буду рад ответить в комментариях на все вопросы.

P. S. Возможно, вам также будет интересно:

2023 год: как преуспеть в парсинге сайтов и заработать все деньги мира (а это не просто) ?

Самостоятельный парсинг сайтов в 2023 году: 30 актуальных инструментов на любой вкус без программирования

Парсили сайты, парсим и будем парсить. И не нужно этому мешать!

1.4K показов 348 открытий

Источник: vc.ru

Leave A Reply

Your email address will not be published.