Что пользуется спросом на авито: «Авито» назвал самые продаваемые категории товаров за 2022 год

Содержание

Как «Аналитика спроса» на Авито помогает бизнесу

Авито позволяет бизнесу продавать товары даже без сайта. Однако получать прибыль и обходиться при этом без статистики невозможно. Чтобы компании, работающие на площадке, могли развиваться, был создан инструмент «Аналитика спроса». В этой статье мы разберемся, как он работает, чем может быть полезен бизнесменам и какие есть альтернативы.

«Аналитика спроса» на Авито: как работает и чем помогает бизнесу

Что умеет «Аналитика спроса»

Каким образом бизнес получает доступ к «Аналитике спроса»

Как «Аналитика спроса» помогает бизнесу

Как пользоваться инструментом «Аналитика спроса»

Как использовать полученные данные

Другие способы анализировать спрос

Количество объявлений

Официальные исследования

Аналитика через Вордстат

Что умеет «Аналитика спроса»

«Аналитика спроса» – сервис Авито для бизнеса. Он помогает узнать, какое количество звонков и сообщений получили объявления на площадке. Сначала инструмент был доступен только в категории «Товары» (за исключением запчастей и аксессуаров для авто), но в затем он появился и в «Недвижимости». В дальнейшем Авито планирует дать доступ к аналитике и представителям остальных категорий. В сервисе отображается статистика по следующим параметрам:

  • числу продавцов в данной категории;
  • сумме всех объявлений;
  • просмотрам объявлений в выбранной тематике;
  • числу контактов.

О контактах в Авито нужно рассказать подробнее. Они представляют собой просмотры номера телефона и сообщения в чате. Причем учитываются только уникальные пользователи. Например, если запрос номера и связь в чате осуществлял один и тот же человек, то эти действия засчитаются как один контакт. 

Особенности работы сервиса

  • Данные собираются ежедневно. Посмотреть их можно в динамике в интерфейсе на графиках. Доступны отчеты за год и месяц.
  • Информация по категориям подается в табличном формате. Пользователь также может сравнивать данные по смежным тематикам.

Каким образом бизнес получает доступ к «Аналитике спроса»

Инструмент для аналитики спроса нельзя приобрести отдельно, и в Авито не рассказывали о планах продавать его как отдельную услугу. Предоставление доступа к аналитике различается в зависимости от категории.

  • «Товары». Получить «Аналитику спроса» можно бесплатно, если использовать тарифы «Расширенный» или «Максимальный» при оплате за просмотры.
  • «Недвижимость». Здесь оплата осуществляется только за размещения, а «Аналитика спроса» предоставляется в тарифах «Расширенный» и «Максимальный».

Подробнее о начале продвижения читайте здесь: «Как запустить рекламу бизнеса на Авито».

Как «Аналитика спроса» помогает бизнесу

С помощью этого инструмента можно узнать, какое количество конкурентов работает в вашей категории, часто ли пользователи открывают объявления, запрашивают номер или пишут в чат.

Определяет спрос и предложение в нужной категории. «Аналитика» демонстрирует объем объявлений, количество просмотров, как часто в тематике приходят контакты. Эксперты рекомендуют смотреть не только на то, сколько объявлений размещено в вашей сфере, но и на число продавцов. Чем их больше, тем напряженнее конкуренция. Возможно, нужно будет внимательнее отнестись к поисковой оптимизации текстов и заказывать дополнительные услуги, чтобы стать более видимым для потенциальных покупателей.

Помогает оценить перспективу. Инструмент показывает, какое количество целевых действий получают объявления в категории. Это усредненные показатели по регионам, которые позволяют делать выводы о том, сколько просмотров и контактов вы сможете в перспективе получить. Важно, что в статистике учитывается, какая часть открытий объявления становится в дальнейшем контактами.

Этот показатель на Авито похож на CTR, о котором подробнее можно прочитать здесь: «Что такое CTR и как он влияет на успех рекламной кампании».

Оценивает количество потенциальных клиентов. Поскольку инструмент знает число контактов и объявлений в тематике, он способен предсказать уровень спроса. Чем больше значение, тем выше популярность категории или товара на Авито, тем лучше перспективы для бизнеса.

Авито считает, что количество контактов больше 1 – хороший показатель. Но если категория по-настоящему популярная, этот показатель будет выше.

Пример

В апреле 2022 года категория «Игровые приставки» на Авито предлагала 16 049 объявлений в Санкт-Петербурге. При этом число сообщений в чат и открытий номера составило 64 934. Выходит, среднее количество контактов на одно объявление – 4,05. Эту же цифру вы увидите в графе «Уровень спроса». Объявлений за год стало незначительно больше, зато число контактов сильно выросло, то есть спрос стал выше. Это значит, ниша перспективная и подходит для новых продавцов.

Как пользоваться инструментом «Аналитика спроса»

Когда вы подключаете тариф, сервис с аналитикой становится доступен в личном кабинете сразу под графой «Статистика». Как только вы на него нажимаете, попадаете на страницу с основным блоком информации. Уже на этом экране вы можете первично оценить конкуренцию. Видите, что в нише подается 1 700 000 объявлений в месяц? Она точно высококонкурентная.

Фильтры для статистики. Все имеющиеся данные можно отсортировать, чтобы получить нужную для анализа информацию. Сразу под заголовком вы найдете фильтр.

  • Категории – условное разделение из каталога Авито, где товары сгруппированы по общим признакам. Например, вы можете выбрать «Ноутбуки», «Электроника», «Бытовая техника» и т. д. Вы можете кликнуть на пункт из списка или ввести название в поиске самостоятельно.
  • Регион – можно выбрать любую часть России, где вы ведете или планируете вести бизнес.
  • Период – временные рамки, которые вас интересуют. Например, за месяц или сутки.

Каждая категория в дальнейшем разделяется на подкатегории. Вы выбрали «Электронику», которая содержит «Игры, приставки и программы», «Аудио и видео». Если перейдете в «Аудио и видео»,  увидите еще более мелкие группы «Усилители и ресиверы», «Наушники и микрофоны». Вы можете воспользоваться дополнительными фильтрами.

  • Поиск внутри категории – напишите название интересующего товара. Например, «Гарнитура» или «Наушники AirPods».
  • Цена – необязательный к заполнению фильтр. Он помогает максимально сузить статистику, чтобы понять уровень спроса в конкретном ценовом сегменте.

Показатели в аналитике. После заполнения фильтров вы получите данные для анализа и уже подсчитанный спрос.

Чтобы рассчитать уровень спроса, используется формула: число контактов / на объем объявлений в тематике. Этот показатель отражает количество открываний телефона (изначально он не показывается), сообщений, которые получает одно объявление в среднем. Авито помогает продавцам, добавляя оценку спроса: низкая, средняя или высокая.

С помощью «Аналитики спроса» легко сделать вывод о том, насколько популярна товарная группа среди покупателей. При оценке «низкий спрос» стоит серьезно задуматься, нужно ли вкладываться в эту нишу. Это особенно актуально для тех, кто планирует найти новые точки роста или увеличить ассортимент товаров (например, раньше вы продавали только комплектующие для ПК, а теперь будете торговать и ноутбуками). Графики помогают увидеть, как категория изменяется с течением времени. Например: как сильно растет спрос в сезон, востребованы ли товары из этой категории прямо сейчас (является ли ниша трендовой), может ли в перспективе быть подъем или спад.

Показатели интереса пользователей:

  • «Всего просмотров» – общее количество просмотров на все объявления ниши;
  • «Просмотров на объявление» – сколько раз в среднем просматривают одно объявление.

Эти показатели можно рассматривать, когда вы продаете товары с продолжительным циклом принятия решения перед приобретением. Например, люди долго думают и выбирают перед покупкой дорогого ноутбука или ювелирного украшения. Когда по статистике видно, что пользователи проявляют интерес к товару, но спрос при этом низкий, попробуйте поддержать объявления медийной рекламой и скидками, подарками. Вероятно, выбранная ниша нуждается в платном продвижении, чтобы резко повысить продажи.

Показатель для определения перспектив:

  • «Конверсия из просмотра в контакт» – процент пользователей, которые сначала увидели объявление, а потом написали сообщение или позвонили.

Эти данные указывают на то, имеет ли ниша потенциал для продаж, как много лидов приходит. Благодаря этому показателю можно сделать вывод, на каком этапе лучше всего применять платное продвижение.

Показатели для оценки конкуренции:

  • «Объявления» – как много предложений сейчас выложено в выбранной нише на Авито;
  • «Всего продавцов…» – как много людей и компаний сейчас работают в данной тематике.

Большие цифры – высокая конкуренция. В этом случае первый тест в тематике может стать очень затратным с точки зрения платного продвижения и проработки коммерческого предложения.

Показатели для оценки трендовости ниши: 

  • «Доля от всех объявлений в категории…» – какую часть рынка в выбранной категории занимают интересующие вас товары.

С помощью этой статистики можно понять, трендовый ли продукт или он аутсайдер на рынке.

Ключевые слова. Аналог Яндекс Вордстата для внутреннего использования на Авито. Во вкладке «Поисковые запросы» вы можете проверить спрос на те или иные ключевики, чтобы понять их востребованность на площадке. Разница с вкладкой «Спрос в категориях» заключается в том, что вы не ограничены рамками только своей ниши: поиск доступен во всех категориях Авито.

Какие настройки доступны:

  • Запрос – введите интересующее ключевое слово или словосочетание (например, «iPhone 13 Pro 128 gb»). После этого вы увидите график, как менялся спрос на протяжении выбранного периода времени;
  • Регион – откуда приходил запрос. Выберите город, где вы ведете бизнес или планируете расширение;
  • Временной промежуток – доступны периоды в 7 или 30 дней;
  • Категории – к какому разделу каталога относится ключевое слово;
  • Сравнение – можно ввести несколько запросов сразу и сравнить спрос на них.

С помощью вкладки «Поисковые запросы» можно не только оценивать конкуренцию в своей нише, но и формировать правильные заголовки у объявлений. Сравните несколько вариантов («варежки для сноуборда», «сноубордические варежки») и выберите тот, который пользователи вводят чаще, тогда получите больше переходов и, возможно, контактов.

Как использовать полученные данные

С помощью инструмента «Аналитика спроса» можно выдвигать и подтверждать гипотезы. Например, «открывать интернет-магазин, торгующий товарами с высоким спросом, лучше в городе-миллионнике» или «bluetooth-наушники – трендовый продукт». Предлагаем варианты, как пользоваться данными из «Аналитики спроса».

Анализ спроса при открытии регионального филиала. Компания может оценить, насколько высокий спрос в выбранной нише в разных регионах страны. Таким образом бизнес может выбрать наиболее перспективное направление для расширения географии продаж.

Добавление в ассортимент новинок. Вы можете узнать, на какие продукты увеличивается спрос прямо сейчас, и добавить их в свой каталог. Например, магазин на Авито торгует наушниками и хочет добавить колонки. С помощью инструмента предприниматель может узнать, какие модели пользуются наибольшим спросом, а какие можно игнорировать.

Поиск ниши по спросу. При запуске бизнеса, когда товар еще не закуплен, аналитика ниш на Авито помогает оценить ситуацию на рынке и понять, в какой категории можно развиваться.

Прогноз сезонного спроса. Динамика, отраженная на графике, помогает понять, как меняется спрос за год и зависит ли он от сезона или дня недели.

Другие способы анализировать спрос

Если вы не покупали бизнес-тариф на Авито, можете пользоваться другими источниками.

Количество объявлений

Объем объявлений по товару, который вы продаете, можно узнать, если ввести название в поисковую строку. Цифру вы видите на скриншоте. Важно указать регион, в котором вы работаете.

Официальные исследования

Авито ведет блог в помощь бизнесу. Переходите в раздел «Аналитика», чтобы узнать актуальные данные и инсайты по различным категориям. Среди актуальных материалов: какие IT-специальности стали более востребованными, подержанные автомобили с какими параметрами готовы покупать пользователи и пр. Блог помогает обнаружить точки роста, объяснить падение или резкое увеличение продаж.

Аналитика через Вордстат

До ввода вкладки «Поисковые запросы» в Авито Вордстат был единственным способом узнать спрос. Принцип поиска простой: введите интересующий ключевик и добавьте к нему слово «авито». При работе не по всей территории России нужно указать целевой регион.

Полученные данные не будут точными, потому что Вордстат показывает информацию только по запросам в поиске Яндекса. Однако вы сможете увидеть, какие товары ищут чаще, какие ключевики стоит включить в объявления.

Авито стремится поддерживать своих продавцов и предоставляет им инструменты для развития. «Аналитика спроса» помогает лучше понимать потребителей и планировать свою деятельность.

А если вы профессионально занимаетесь контекстной и таргетированной рекламой и в том числе рекламой через Авито, регистрируйтесь в системе click.ru, участвуйте в партнерской программе и возвращайте проценты от рекламных бюджетов клиентов.

Запустить рекламную кампанию

Количество объявлений на Avito выросло на 18% за год — E-pepper.ru

Игорь Бахарев

Специалисты онлайн-сервиса Avito изучили динамику спроса и предложения в популярных товарных категориях. Эксперты проанализировали объявления в разделах бытовой электроники, личных вещей и товаров для дома и дачи за последние 12 месяцев и выяснили, какие товары чаще всего предлагаются к продаже, а какие остаются наиболее востребованными.

По данным отчета, в октябре текущего года спрос на личные вещи, бытовую электронику и товары для дома вырос на 15% по сравнению с 2015 годом. Наибольшее количество запросов в этих категориях было сделано в сентябре, а наименьшее – в январе. 

«Подобная динамика, вероятно, обусловлена сезонными факторами: начало года – традиционный период «затишья» после новогодних праздников, а сентябрьский «пик» возникает за счет эффекта отложенного спроса», – отмечают в Avito. 

Самым популярным товаром остаются мобильные телефоны и смартфоны, доля которых в общей структуре запросов составляет 14,8%. Кроме того, высоким спросом пользуется женская одежда (11,7%), а также детские вещи для девочек и мальчиков (7,6% и 6,7% соответственно).

За год количество объявлений увеличилось на 18,1%. Чаще всего на продажу выставляют товары из категории «Личные вещи». Около четверти объявлений зафиксировано в подкатегории «Женская одежда», доли объявлений о продаже одежды для девочек и мальчиков составляют 14% и 10,7% соответственно.

Ранее аналитики Avito изучили спрос и предложение в категориях «Бытовая техника» и «Аудио и видео». Согласно результатам анализа, в третьем квартале 2016 года количество объявлений о продаже нецифровой техники, размещенных на площадке, выросло на 2%.

Смотрите также

Соцсети как канал продаж: какие площадки выбрал
бизнес

Как Zalando меняет стратегию работы с
поставщиками

Boxberry запускает франшизу в
России

СберМаркет добавил в выдачу полку с «релевантными
товарами»

Ozon сдался Avito почти без
боя

Как настроить и автоматизировать работу на маркетплейсе по модели FBS c помощью интеграции Ozon API и внутренних систем компании: кейс Novex и
Creonit

Яндекс Маркет поможет предпринимателям открыть первый
ПВЗ

«Сбермаркет» начал возить товары из «Пятёрочек» на Дальнем
Востоке

Селлеры Wildberries смогут поднять конверсию с помощью
видеообзоров

PickPoint прекращает работать в
России

Как мы использовали веб-трафик для продвижения приложения «Пятёрочка» и снизили стоимость первой покупки на
13%

Онлайн-рынок товаров для детей в 2022 году: аналитика
NielsenIQ

Актуальное сейчас

Сегодня 12:04

Соцсети как канал продаж: какие площадки выбрал
бизнес


Продвижение в соцмедиа изменилось после блокировки в России популярных соцсетей, следует из опроса, проведенного аналитиками ЮKassa. Многие бизнесмены попробовали перейти на разрешенные площадки и использов…

Сегодня 11:00

Как Zalando меняет стратегию работы с
поставщиками


Маркетплейс Zalando в общении с партнёрами меняет курс на стратегию «качество важнее количества». После многих лет стремления к максимальному росту, как продаж, так и ассортимента, торговая площадка внезапн…

Сегодня 9:48

Boxberry запускает франшизу в
России


Логистический оператор Boxberry запускает собственную франшизу нового формата. Она позволит компании расширить сеть в регионах, в 2 раза увеличить объёмы грузоперевозок и улучшить качество сервиса для всех …

Сегодня 9:45

СберМаркет добавил в выдачу полку с «релевантными
товарами»


eGrocery-cервис СберМаркет расширил возможности размещения рекламных полок на страницах сервиса. Теперь рекламодатели могут привлечь внимание к своему товару не только в каталоге и на главной странице, но и…

Сегодня 9:16

Ozon сдался Avito почти без
боя


Ozon прекращает
разработку сервиса «Объявления», который позволял частным лицам продавать товары. Конкурент Avito успел всего лишь полгода поработать в тестовом режиме в трех регионах России: Ростовской о…

05 Апреля 2023

Как настроить и автоматизировать работу на маркетплейсе по модели FBS c помощью интеграции Ozon API и внутренних систем компании: кейс Novex и
Creonit


Руководитель проектов в Creonit Алексей Балашов, рассказал, как команда Creonit реализовала для интернет-магазина Novex интеграцию с Ozon API, чтобы автоматизировать процессы взаимодействия маркетплейса и пр…

Задача прогнозирования спроса Avito — Kaggle — Сквозная реализация. | by Zishaan Khan

В электронной коммерции сочетание крошечных нюансов продукта может привести к существенному повышению интереса пользователя к покупке. Следующие детали, упомянутые ниже, могут иметь большое значение для развития интереса, если пользователь взглянул на продукт.

Итак, приведенные выше несколько примеров показывают, как один продавец может оптимизировать листинг продукта на веб-сайте электронной коммерции. Но что происходит, даже если продавец имеет полностью оптимизированный список своего продукта и не получает никакого количества продаж. Это приводит к проблеме анализа спроса на продукт, который продавец хочет продать. Это так важно, потому что если продавец вкладывает деньги в рекламу, а люди не посещают его товар или даже после посещения не заинтересованы в покупке товара, это явно объясняет какую-то проблему в товаре продавца.

Такие компании, как Amazon или Flipkart, тратят миллионы на рекламу, и если спрос на продукты не существует, это приводит к огромным потерям для компании или даже продавца, который перерасходует свои собственные деньги на рекламу своего продукта, если спрос на его продукт не существует. просто разочарование продавца может привести к большим проблемам в бизнесе.

В апреле 2018 года Avito запустил в Kaggle конкурс, основанный на предсказании спроса на тот или иной товар. Avito — российский сайт объявлений с разделами, посвященными продаже товаров общего назначения, работе, недвижимости, знакомствам, продаже автомобилей и услугам. Avito — самый популярный сайт объявлений в России и второй по величине сайт объявлений в мире после Craigslist. [Источник: Википедия].

Набор данных был создан командой Avito, в котором набор данных имеет различные категориальные характеристики, такие как идентификатор рекламы, заголовок рекламы, описание рекламы, изображение рекламы, item_id, user_id и т. д., а также Deal_Probability в качестве целевой переменной. Здесь вероятность сделки — это непрерывная переменная, которая находится в диапазоне от 0 до 1. Нули указывают наименьшую вероятность того, что предмет будет куплен, а 1 — наибольшую вероятность того, что предмет будет куплен. Итак, эта проблема — проблема регрессии в машинном обучении.

Структура блога:

1. Что такое прогнозирование спроса.

2. Почему важно прогнозирование спроса.

3. Набор данных Kaggle и его показатели производительности

4. Простой исследовательский анализ данных

5. Предварительная обработка данных

6. Разработка функций

7. Изучение наших моделей машинного обучения

9002 9.0 Лучшая модель оценки Развертывание на виртуальной машине — (в процессе)

10. Итоги и будущие работы

11. Ссылки

Что такое прогнозирование спроса?

Прогнозирование спроса — это процесс оценки будущего потребительского спроса за определенный период с использованием исторических данных и другой информации.

Надлежащее прогнозирование спроса дает компаниям ценную информацию об их потенциале на текущем рынке и других рынках, чтобы менеджеры могли принимать обоснованные решения о ценообразовании, стратегиях роста бизнеса и рыночном потенциале.

Без прогнозирования спроса предприятия рискуют принять неверные решения в отношении своей продукции и целевых рынков, а неосведомленные решения могут иметь далеко идущие негативные последствия для затрат на хранение запасов, удовлетворенности клиентов, управления цепочками поставок и прибыльности.

Почему важно прогнозирование спроса?

Существует ряд причин, по которым прогнозирование спроса является важным процессом для бизнеса:

  • Прогнозирование продаж помогает в бизнес-планировании, составлении бюджета и постановке целей. Когда у вас будет хорошее представление о том, как могут выглядеть ваши будущие продажи, вы можете приступить к разработке обоснованной стратегии закупок, чтобы убедиться, что ваши поставки соответствуют спросу клиентов.
  • Это позволяет предприятиям более эффективно оптимизировать запасы, увеличить оборачиваемость запасов и снизить затраты на хранение.
  • Это дает представление о предстоящем движении денежных средств, что означает, что предприятия могут более точно планировать расходы на оплату поставщиков и другие операционные расходы, а также инвестировать в развитие бизнеса.
  • С помощью прогнозирования продаж вы также можете заблаговременно выявлять и устранять любые перегибы в конвейере продаж, чтобы обеспечить стабильную эффективность вашего бизнеса в течение всего периода. Когда дело доходит до управления запасами, большинство владельцев бизнеса электронной коммерции слишком хорошо знают, что слишком мало или слишком много запасов может нанести ущерб операциям.
  • Предвидеть спрос означает знать, когда увеличить персонал и другие ресурсы, чтобы обеспечить бесперебойную работу в периоды пиковой нагрузки.

3. Понимание набора данных Kaggle и показателей его производительности.

Набор данных был большим, я сталкивался с различными проблемами при обработке больших данных, так как у меня меньше вычислительного устройства. Ядра Kaggle недостаточно для тех, кто планирует выполнять все операции на ядре Kaggle. Набор данных, предоставленный командой Avito, содержит все, изображения, текст, категориальные и непрерывные переменные. Давайте посмотрим на CSV-файл поезда.

  • item_id — Идентификатор конкретного объявления.
  • user_id — Идентификатор пользователя
  • регион — Объявления относятся к региону.
  • город — Объявление принадлежит городу.
  • parent_category_name — Категория объявлений верхнего уровня согласно рекламной модели Авито.
  • category_name — Мелкозернистая категория объявлений по рекламной модели Авито.
  • param_1 — Необязательный параметр из рекламной модели Авито.
  • param_2 — Необязательный параметр из рекламной модели Авито.
  • param_3 — Необязательный параметр из рекламной модели Авито.
  • заголовок — Заголовок объявления.
  • описание — Описание объявления.
  • цена — Цена объявления.
  • item_seq_number — Порядковый номер объявления для пользователя.
  • activation_date — Дата размещения объявления.
  • user_type — Тип пользователя.
  • изображение — Идентификационный код изображения. Привязывается к jpg-файлу в train_jpg. Не каждое объявление имеет изображение.
  • image_top_1 — Классификационный код изображения на Авито.
  • Deal_Probability — Целевая переменная. Это вероятность того, что реклама действительно что-то продала. Невозможно точно проверить каждую транзакцию, поэтому значение этого столбца может быть любым числом с плавающей запятой от нуля до единицы.

4. Простой исследовательский анализ данных.

Давайте изучим данные, проанализировав их.

4.1. Изучение отсутствующих значений данных.
Давайте проверим процент отсутствующих точек данных, присутствующих в нашем наборе данных для обучения и тестирования.

Процент отсутствующих данных в данных поезда.

Наблюдения :
Существует много NA для необязательных параметров — пользователи обычно игнорируют ввод необязательных параметров. Изображение — NA означает отсутствие изображения для объявления, как описано в разделе данных, который — «Не в каждом объявлении есть изображение». Цена — какой-то пользователь не ввел цену.

4.2 Анализ вероятности сделки

Диаграмма рассеяния для распределения вероятности сделки

Около 65% (1000000/1503424 = 0,66) объявлений имеют нулевую вероятность сделки. Ясно, что около 100 тыс. объявлений ничего не продали. Немногие объявления имеют вероятность 1, а остальные находятся в диапазоне от 0 до 1. Объявления

В раздачах по регионам с рекламой видно, что в одних регионах рекламы больше, чем в других, возможно, эти города популярны в России.

Блочная диаграмма вероятности сделки относительно регионы

Приведенная выше диаграмма показывает, что некоторые регионы имеют незначительные преимущества по показателю вероятности.

4.4 Распределение рекламы по городам:

Топ 25 городов по распространению рекламы, лучшие города – хорошие города России.

Топ-25 городов Распространение рекламы

4,5 Распределение рекламы по названию родительской категории

Распределение рекламы по названию родительской категории

Родительская категория «Личные вещи» преобладает в наборе данных.

Блок-диаграмма вероятности сделки относительно названия родительской категории

У родительской категории «Услуги» вероятность сделки выше, чем у других.

4.6. Название категории Разумное распределение рекламы

Распределение рекламы по названию категории

Распределение рекламы ясно показывает преобладание двух категорий над другой категорией. Эти категории: одежда, обувь, аксессуары, детская одежда и обувь.

Блочная диаграмма вероятности сделки по названию категории

Блочная диаграмма показывает, что некоторые категории имеют большую вероятность сделки, чем другие.

4.7 Тип пользователя Разумное распространение рекламы:

Распределение рекламы по типу пользователя

Существует только три типа и набор данных с более частным пользователем, за которым следует компания и магазин.

Box График вероятности сделки по типу пользователя

Вероятность сделки с частным пользователем лучше всех.

4.8 Распределение цен на рекламу.

График распределения цен на бревна

Журнал цен показывает не полностью гауссовское распределение. Когда мы делаем логарифм цен, мы можем проанализировать, что его максимальное значение лежит в диапазоне от 5 до 15.

4.9. Длина слова в заголовке объявления:

Длина слова распределение заголовка

Максимальное количество слов в заголовке от 1 до 6.

4.10. Анализ дат активации:

Даты различаются для обучающих и тестовых наборов. В данном наборе данных есть данные для обучения с 15 по 28 марта и для тестирования с 12 по 18 апреля 2017 года. Между данными для обучения и тестирования имеется разрыв в две недели.

5. Предварительная обработка данных

Предварительная обработка данных для любого набора данных — довольно сложная задача, потому что вы хотите обработать отсутствующее значение и очистить данные для подачи в модель машинного обучения. Если мы вводим значения NaN, мы должны позаботиться о связи между отсутствующими значениями и нашей целевой переменной, которая здесь является вероятностью сделки.

5.1 Обработка отсутствующих значений

Цена: Для цены отсутствует 85632 значения, что составляет примерно 5,6 % в сравнении. Я использовал здравый смысл и подход, чтобы заменить это значение этими отсутствующими значениями со средним значением его категории.

Изображение: Для изображений, отсутствующих в наборе данных, изначально я думал просто ничего не вменять, но я руководствуюсь здравым смыслом и вменяю изображение в отношении режима этого конкретного изображения родительской категории.

Для остальных функций , поскольку пропущенных значений много, я заменяю значения NaN строкой «отсутствует», чтобы это было действием в качестве новой категории.

5.2. Очистка текста:

Очистка текста и описания путем понижения текста и знаков препинания.

5.3. Изображения в массив:

Я преобразовал изображения в массив с помощью cv2, а затем изменил его размер до 128 x 128, поскольку у меня не так много памяти, чтобы справиться с этой проблемой, я сохраняю размерность низкой.

6. Разработка функций:

Создание новых функций может оказаться сложной задачей. Лучший способ получить фору в этом — погрузиться в предметную область и поискать исследовательские работы, блоги, статьи и т. д. Ядра Kaggle в связанных доменах также являются хорошим способом найти информацию об интересных функциях.

Мы реализовали несколько простых и проверили работоспособность модели.
Вот краткий обзор функций:

6.1. По регионам Минимальные, максимальные, средние и медианные цены:
Агрегация цен по регионам.

6.2. По городу Минимальные, максимальные, средние и медианные цены:
Агрегация цен по городу

6.3. Название родительской категории Мин. , макс., среднее и медианное цены: Агрегация цен, группирующих родительскую категорию.

6.4. Название категории Мин., Макс., Среднее и Медиана Цены:
Агрегация групп цен Название категории.

6.5. Регион и город Минимальные, максимальные, средние и медианные цены:
Агрегация цен по регионам и городам.

6.6. Тип пользователя и родительская категория с учетом минимальных, максимальных, средних и медианных цен: Агрегация цен, группирующих тип пользователя и имя родительской категории.

6.7. Тип пользователя и название категории с учетом Мин., Макс., Среднее и Медиана Цены: Агрегация цен по типу пользователя и названию категории.

6.8. Длина слов в заголовке и описании.

6.9. В заголовке и описании учитываются специальные символы, такие как ↓, ✔, ❀, ஜ, ! и т.д.

6.9. Предварительно обученные векторы слов FastText встраиваются в заголовок.

6.10. Встраивание предварительно обученных векторов слов FastText для описания.

6.11. Категориальная характеристика :
Я решил использовать слой встраивания в глубокой нейронной сети, поэтому я создаю пользовательскую функцию с токенизатором Keras для кодирования всех категориальных функций. Категориальные функции включают user_type, город, регион, parent_category_name, category_name, param_1, param_2, param_3, image_top_1.

  • Примечание:
    Для части развертывания я собираюсь отказаться от функции агрегирования, причина в том, что мои тестовые данные также имеют распределение, благодаря которому мы можем агрегировать функции и наши значения. Но для развертывания я собираюсь вставить одну точку данных в свою модель, чтобы агрегация невозможна. Даже здесь, если мы возьмем реальный сценарий, если мы предопределили наши значения агрегации здесь, мы можем иметь или не иметь новое категориальное значение. Вот почему я подумал зайти сюда.

7. Изучение наших моделей машинного обучения:

Для создания моей первой базовой модели я использовал различные подходы высшего ранга, и общим в их подходах является то, что большинство из них использует методы Boosting Ensemble. Они собрали различные ансамбли, некоторые из них рассчитаны даже на 30 базовых моделей. А вот обладатель первого ранга делится своими подходами к глубокому обучению, что весьма интересно и вдохновляюще. Поэтому я решил двигаться вперед с подходом глубокого обучения, поскольку моя основная цель не в том, чтобы победить тройку лучших в Kaggle, я подхожу к этой проблеме как к реальному бизнес-решению.

7.1. Первая базовая модель:
Итак, в моей первой базовой модели я использовал LSTM для обеих своих текстовых функций: заголовка и описания. Здесь используется слой встраивания и инициализируется предварительно обученными весами из русского языка FastText. Категориальная и другая инженерная функция отправляется на какой-то плотный слой, затем все объединяется и переходит на несколько плотных слоев.

Все функции активации здесь «RELU», а веса инициализируются с помощью He_Normal(). Используемый здесь LSTM также имеет recurrent_dropout, который равен 0,3. Здесь наша модель кажется немного подогнанной, я не сильно регулировал только один пакетную нормализацию и один слой отсева. Поскольку это наш первый подход к сокращению, наша модель выполняет достойную роль с частной оценкой 0,24619.и публичный балл 0,24175.

Первая базовая модель Поток

7.2 Добавление GRU и встраивание в базовую модель:

Как мы видели, мы получили приличный результат для начала, я начал с LSTM для текстовых данных. Одна вещь, которую я заметил, это то, что потери не уменьшаются при 0,23, поскольку они могут найти свои глобальные минимумы. Поэтому я попытался сначала изменить LSTM на GRU и повторно запустить обучение, это помогает нашей модели уменьшить потери с 0,23 до 0,227. Итак, я продолжал импровизировать модель, добавляя слой внедрения к каждому из категориальных данных, поскольку категориальные данные здесь очень важны.

7.3 Лучшая модель в финале:

Эта модель вдохновлена ​​танцем первого победителя с ансамблями. Ключевое отличие от моей предыдущей модели заключается в том, что я никогда не добавлял изображения в свою модель, в этой модели я экспериментировал с VGG16, Inception и InceptionResNetV2 для трансферного обучения, в котором InceptionResnetV2 работает лучше, чем VGG16 и Inception. После вывода базового уровня из InceptionResNetV2 я экспериментировал со слоем свертки, затем с максимальным пулом, а затем с плотным слоем, что повышает производительность модели трансферного обучения.

Я использовал однослойный GRU для текстовой функции и пытался сделать мою модель слабой, так как иногда модель получает переобучение. За всеми плотными слоями последовали пакетная нормализация и выпадение, чтобы упорядочить мою модель.

Эта модель лучше, чем две предыдущие модели. Вот одна вещь, которой я хочу поделиться со всеми вами, это то, что, поскольку этот набор данных большой, у меня нет таких ресурсов, чтобы работать со всеми наборами данных вместе с изображениями. Итак, здесь я экспериментировал только с 50 тысячами точек данных, исходный набор данных содержит 1,5 миллиона точек данных. Недостаток использования меньшего количества точек данных приводит к переобучению модели, я пробовал несколько способов упорядочить модель, но ничего не работает. Вышеупомянутые две модели, которые были обучены с полным набором данных, идеально подходят для моего набора данных перекрестной проверки. Модель не может изучить все распределение.

Очки за отправку Kaggle:

9. Развертывание на виртуальной машине:

Я использовал потоковый API с открытым исходным кодом для развертывания моей модели на моем локальном компьютере, вы должны написать все коды на python Без HTML, CSS или JavaScript , это весело па! Вы можете проверить видео ниже.

10. Резюме и будущие аспекты:

Этот проект довольно интересный, все типы данных для решения проблемы. Подводя итог этому проекту, мы построили хорошую модель с самого начала, первая модель способна дать правильное направление для движения вперед. Дальнейшее использование слоя GRU и Embedding увеличивает производительность модели. После этого изображение дает более важную информацию о нашей модели, которая помогает достичь хорошего результата. Я обучил модель до 75000 точек данных вместе с изображениями, в будущем я попытаюсь обучить свою модель целыми точками данных.

Все коды доступны в моем профиле Github. Вы можете получить к ним доступ, нажав здесь.

Если вам нравится этот блог, не стесняйтесь спрашивать или предлагать мне что-либо через LinkedIn. Пожалуйста, подключите меня на Linkedin!

Спасибо, что читаете мой блог!! Желаю отличного дня. 🙂

Референции:

  1. Решение 1-го места: «Танец с ансамблем»
  2. Блог Кун-Сян — решение 18-го ранга.
  3. 3. Блог Сешин Ли:
  4. 13-е место — Webber
  5. 3-е место — Team SuperAnova .
  6. Решение 4-го места — Team Wave на дистанции вверху.
  7. Особая благодарность Applied Roots и их наставникам.

deepa-sarojam/online-ad-demand-prediction-ml-prj — Jovian

  Курсы   Викторины   Блог   Мероприятия   Знания  Войти

Приобретайте практические навыки, создавайте реальные проекты и продвигайтесь по карьерной лестнице

Зарегистрируйтесь, чтобы присоединиться к более 300 000 амбициозным ученикам, создавать свои собственные проекты и продемонстрировать свои работы в Интернете

Обновленные

год назад

Hyperparam

Random-Forest-Regressor

Рандер-трек-регрессор

.

scikit-learn

xgbregressor

 Запустить в Binder Запустить в Colab Запустить на Kaggle Запустить локально (клонировать) Дублировать   Загрузить PDF0003

 

Обсуждения

Версия 16 (год назад)

Версия 16

(год назад)

Версия 15

(2 года назад)

Версия 14

(2 года назад)

20 Версия 0 )

Версия 12

(2 года назад)

Версия 11

(2 года назад)

Версия 10

(2 года назад)

Версия 9

(2 года назад)

Версия 8

(2 года назад)

Версия 7

(2 года назад)

Версия 6

(2 года назад)

Версия 5

(2 года назад)

Версия 4

(2 года назад)

Версия 3

(2 года назад)

Версия 2

(2 года назад)

Версия 1

(2 года назад)  Сравнить версии   Просмотреть изменения (Diff) 

Проект машинного обучения по прогнозированию вероятности сделки для онлайн-рекламы Avito

Для Avito Demand Prediction Challenge

Автор Deepa Sarojam, август 2021 г.

может иметь большое значение для повышения интереса.

Avito, крупнейший в России сайт тематических объявлений, затрудняется прогнозировать спрос на интернет-рекламу на основе ее полного описания (название, описание, изображения и т. д.), ее контекста (географическое место размещения, уже размещенные аналогичные объявления) и исторических данных. спрос на аналогичную рекламу в аналогичном контексте. С помощью этой информации Avito может информировать продавцов о том, как лучше всего оптимизировать их листинг, и дать некоторое представление о том, сколько интереса они должны реально получить.

Источник: https://www.kaggle.com/c/avito-demand-prediction.

  • item_id — идентификатор объявления.
  • user_id — идентификатор пользователя.
  • регион — Рекламный регион.
  • город — город объявлений.
  • parent_category_name — Категория объявлений верхнего уровня согласно рекламной модели Avito.
  • category_name — Мелкозернистая категория объявлений согласно рекламной модели Авито.
  • param_1 — Необязательный параметр из рекламной модели Авито.
  • param_2 — Необязательный параметр из рекламной модели Авито.
  • param_3 — Необязательный параметр из рекламной модели Авито.
  • title — Заголовок объявления.
  • описание — Описание объявления.
  • цена — Цена объявления.
  • item_seq_number — порядковый номер объявления для пользователя.
  • activation_date — Дата размещения объявления.
  • user_type — Тип пользователя.
  • изображение — Идентификационный код изображения. Привязывается к jpg-файлу в train_jpg. Не каждое объявление имеет изображение.
  • image_top_1 — Классификационный код изображения на Авито.
  • Deal_Probability — Целевая переменная. Это вероятность того, что объявление действительно что-то продавало. Невозможно точно проверить каждую транзакцию, поэтому значение этого столбца может быть любым числом с плавающей запятой от нуля до единицы.
  • test.csv — Данные теста. Та же схема, что и для данных о поездах, за вычетом Deal_Probability.
  • Критерии оценки

    Регрессионная модель должна быть оценена на среднеквадратичную ошибку 𝑅𝑀𝑆𝐸. 92}\]

    , где y — прогнозируемое значение, а y — исходное значение.

    Резюме

    В этой записной книжке мы рассмотрим Методы контролируемого машинного обучения . Модели регрессии, такие как линейная регрессия, Ridge, ElasticNet, Lasso, дерево решений и ансамблевые модели, такие как RandomForest, XGBoost, LightGBM, будут обучены прогнозировать еженедельные продажи с использованием Scikit Learn , LightGBM и XGBoost . Мы будем использовать Pandas , Numpy , Matplotlib , Seaborn и Plotly для проведения исследовательского анализа данных и сбора информации для машинного обучения.