24.04.2015, 16:38
Количество просмотров

Технологии Big Data успешно профилируют розничных покупателей. Часть 1.


  
    
  
    Олег Брагинский, независимый директор ряда крупных предприятий, ментор нескольких стартапов
  


Из почти двух сотен проектов по обработке сверхбольших массивов данных разного уровня структурированности за последние два десятка лет наиболее сложными мне показались три кейса для крупных сетей автозаправочных комплексов (АЗК) и пяток случаев анализа корпоративного бизнеса (B2B).
 - рис.1
Олег Брагинский, независимый директор ряда крупных предприятий, ментор нескольких стартапов

Из почти двух сотен проектов по обработке сверхбольших массивов данных разного уровня структурированности за последние два десятка лет наиболее сложными мне показались три кейса для крупных сетей автозаправочных комплексов (АЗК) и пяток случаев анализа корпоративного бизнеса (B2B).

Сегодня предложил бы пристально рассмотреть возможность извлечения полезных прикладных знаний для поддержки развития бизнеса рознично-топливной компании. Вопреки расхожему мнению, автозаправка с малым торговым залом мне кажется гораздо более сложным объектом исследования, чем крупный торговый центр и причин для этого несколько. Посетитель торгового центра может вольготно долго бродить по бутикам с ёмкой тележкой на колёсиках, отдыхая на скамеечках или фудкортах вне зависимости от погоды. Посетителя заправки поджимает очередь машин, выстраивающаяся за его транспортным средством, товар держится в руках или в пакете на весу, к кассе обычно осуществляется один подход, содержимое товарного чека серьёзно зависит от погодных условий, времени суток и направления движения.

Давайте пошагово пройдём реальный Big Data-кейс конкретной лидирующей сети АЗК. Посмотрим на него поочерёдно пристальным взглядом сквозь очки беспристрастного аналитика-практика и окинем придирчивым скептическим прищуренным взглядом собственника, которому нужны конкретные «применимые завтра» советы. Наберитесь терпения дочитать до конца и узнать много нового - надеюсь изменить Ваше мнение о том, что Big Data «это ещё не сегодня и пока не для меня».

Итак, приступаем.

Оценка предоставленной информации. Данные, которые обычно выгружает ИТ служба любого бизнеса в текущем состоянии не позволяют сделать качественное исследование, так как не обладают:
- чистотой и точностью
- достаточностью и уникальностью
- целостностью и полнотой,
должны пройти серьёзную доработку, перестройку и доопределение. Не торопитесь оправдывать или ругать своих специалистов по базам данных – не их вина, что им не была поставлена соответствующая задача подготовить информацию к нашим экспериментам.

Чистка данных. Механистический процесс, например, корректировки фамилий клиентов для последующего определения пола или номеров автомобилей для оценки транзакционной активности транспортных средств – въезд/выезд при наличии системы соответствующего распознавания. Анализу среди прочего не поддались:
- фамилии и инициалы анкет лояльности, что не позволило определить пол у 40% участников программы
- номера въезда/выезда транспортных средств – почти половина автомобилей не въезжала, но выезжала на АЗК или наоборот.

Точность данных позволяет использовать глубокие методики анализа. Желательно:
- стаж сотрудников указать в календарных днях
- платёжный терминал привязать к кассе, где он физически установлен
- конкретный сотрудник пробивающий чек, должен персонифицироваться с данной операцией.

Достаточность позволила бы проводить исследование клиентских предпочтений, а не событий, как в настоящее время. Не хватает самого главного – уникального идентификатора Клиента. Если платили платёжной картой или наличными, но «не прокатали» карту лояльности – имеем миллионы разрозненных чеков, которые предстоит эвристическими методами пытаться привязать к соответствующим конкретным физическим лицам. Наибольшие математические и организационные усилия предстоит приложить для выявления реальных клиентов и связанных с ними событий. Иначе будет возможен только анализ чеков, а для этого совсем не нужны методы Big Data.

Уникальность подразумевает, что каждое без исключений поле баз данных выбирается из словаря без дубликатов. Например, номер чека состоит из четырёх цифр, для приведения его к уникальному виду пришлось создать новых индекс, используя связку «дата-время-АЗС-чек».

Общая целостность информационных массивов позволила бы однозначно связать между собой элементы данных. Например, чек к номеру автомобиля или номер телефона на который вносились денежные средства через терминал самообслуживания к приобретённому топливу.

Полнота обеспечивает возможность проведения любых потенциальных исследований со всеми объектами, субъектами и связями между ними. Особое внимание предстоит уделить связям и сохранности объектов. Уволенные сотрудники, давно не посещающие клиенты, старые поставщики и более не продаваемые товары должны оставаться в системе.

Приступим к доопределению данных. При наличии системы распознавания автомобильных номеров, обычно имеем три поля: государственный номер транспортного средства, дата-время события, направление – въезд или выезд. Для целей анализа доопределим данные по каждому авто следующими параметрами:
А – время нахождения на текущей АЗС в этот раз - Заезд N
B – суммарное время нахождения на этой АЗС до Заезда N
C – суммарное время нахождения на любой АЗС до Заезда N
D – время до приезда на эту же АЗС в следующий раз – Заезд N+1
E – время до приезда на любую АЗС в следующий раз – Заезд N+1
F – время с первой фиксации номера на этой АЗС
G – время с первой фиксации номера на любой АЗС
Н – количество заездов на эту АЗС до Заезда N
I – количество заездов на любую АЗС до Заезда N

Далее, возможно рассчитать все параметры как минимальные, средние, медианные, максимальные и прогнозные, что позволит предсказывать:

когда автомобиль с указанным номером появится дата, время, длительность пребывания
где на какой АЗС номер АЗС
сколько циклов заправки пропустил количество пропущенных литров, баков
что сделать, чтобы автомобиль заправился персонифицированное полезное предложение

Запросим у обслуживающего банка-экваера файл платежей картами - содержит крайне много полезной информации, которую следует выделить в отдельные поля. Так, номер карты, даже в формате 40488550XXXXXXXXXX, позволяет определить:
- платёжная система – Visa/Master
- банк-эмитент – банк, выдавший карту City
- тип карты – кредитная/дебетная
- класс карты – электрон/классик/голд/платина.

Номер терминала привязывает платёж к кассе. Сумма транзакции в рублях вместе с датой и номером АЗС привязывают платёжную карту к чеку.

Первые шесть цифр номера карты (Идентификационный Номер Эмитента) позволяют определить наиболее популярные банки среди клиентов на каждой АЗС или по всей её совокупности. Может использоваться для получения преференций или проведения совместных акций.

Код авторизации совместно с Идентификационным Номером Эмитента (первые шесть цифр номера карты) позволяет определить соотношение транзакционной активности банка-эмитента к активности платежей по картам этого банка в сети АЗС.

Желательно ведение данных о праметральных событиях на каждой АЗС сети, которые могут существенно влиять на объем и структуру продаж:
A – атмосферная температура
B – скорость ветра - влияет на субъективное ощущение температуры
C – направление ветра, где север - направление от входной двери к основной кассе
D – атмосферная влажность воздуха
E – атмосферное давление
F – температура внутри АЗС
G – влажность воздуха внутри АЗС

Желательно ведение расширенных справочников реализуемых товаров:
A – маржа в %
B – энергетическая ценность в калориях
C – компонентные показатели (жиры, белки, углеводы)
D – срок годности
E – вес/объем
F – позиция в ряду веса/объёма (место в фасовочном ряду товара)
G – сколько можно взять 1 руку (грейпфрут – 1, минеральная вода – 3)
H – хрупкость упаковки (бьётся ли при падении)
I – деликатность товара (сминается ли при падении)
J – звонкость упаковки (гремит в транспортном средстве при толчках)
K – матовость упаковки (товары в матовой упаковке ассоциируются со здоровьем)
L – % доля упаковки в весе товара
M – ближайшее место употребления (в зале, на улице, в транспортном средстве)
N – цветовые паттерны упаковки (2х2, 3х3, 4х4, 5х5, 6х6, 7х7, 8х8)

 - рис.2
Наибольшие вычислительные и организационные усилия предстоит приложить для выявления реальных клиентов и связанных с ними событий

Желателен сбор информации о личности и поведении клиентов:
A – настроение до покупки
B – настроение после оплаты
C – говорил спасибо (был вежлив)?
D – говорил пожалуйста (был благодарен)?
E – торопился (был не терпелив)?
F – задавал вопросы (спрашивал совета)?
G – тихий/шумный
H – приятный/обычный/неприятный
I – приехал один?
J – выслушал дополнительное предложение?
K – принял дополнительное предложение?
L – общался на равных/заискивал/говорил свысока?
M – скуп (высчитывал что выгоднее купить)?
N – жаден (забрал мелочь)?
O – посещал туалет

Подобный подход, среди прочего, передаёт:
- самоощущение Сотрудника (настроение, усталость)
- взаимоотношения при текущем визите
- взаимопозиционирование Сотрудника и Клиента.

Желателен планомерный сбор информации о транспортных средствах клиентов (может предоставлять персонал, осуществляющий заливку топлива на основе визуальных наблюдений или задавая один вопрос на каждый визит):
A – производитель
B – марка
C – год выпуска
D – год приобретения
E – объем двигателя
F – объем бака
G – тип (хечбэк, седан, универсал, джип…)
H – цвет
I – предпочтительный вид топлива
J – используемые присадки к топливу
K – тип дворников
L – тип незамерзающей жидкости
M – салон (ткань/кожа)
N – параметры дисков (производитель, радиус)
O – параметры покрышек (производитель, профиль, шипы)

Полезно также отслеживать на какую заправочную колонку заезжает транспортное средство, если у водителя был выбор.

Теперь приступаем к повышению плотности информации, так называемому «связыванию данных». Данные сети АЗС имеют событийную структуру, основным сквозным связующим элементом на первых этапах обычно может быть только время. Как уже отмечалось, желательно, чтобы сквозным элементом был идентификатор Клиента. Пока можем произвести связывание следующих сведений:
A – зона объекта АЗС – сотрудник
B – терминал – касса
С – касса – сотрудник
D – сотрудник - чек
E – чек – клиент
F – клиент – транспортное средство
G – клиент – терминал самообслуживания
H – клиент – карта лояльности
I – клиент – платёжная карта
J – клиент – мобильный телефон.

Ряд связок удаётся восстановить с некоторым уровнем приемлемой достоверности:
F – итерационным алгоритмом, наподобие Sudoku. Сначала обнаруживаем промежутки времени, когда на АЗС находился один (любой) автомобиль; затем определяем диапазоны, в которых было два автомобиля, включая один известный; два известных из трёх и т.д. Таким образом ряд чеков свяжем в цепочки, потенциально принадлежащие реальным клиентам.
G – для клиентов, которые более одного раза воспользовались пополнением терминала в пользу того же оператора.
H – для клиентов, которые воспользовались действующими картами лояльности
I – для клиентов, которые имели уникальные карты по маске, выгруженной банками-партнёрами.
E – многопроходным fuzzy алгоритмом чеки разнесём наиболее вероятным клиентам по:
-типу топлива
– характеристика транспортного средства
- устойчивым типовым покупкам
– специфическое покупательское поведение
- временному режиму
– возможностью и вероятностью быть на АЗС
- напряжённости
– частотной потребностью в топливе.

Многократное посещение АЗС позволяет выявить временные диапазоны, в которых Клиент находился на объекте один, тогда возможно создание связок с:
• номером мобильного телефона
• топливной картой
• банковской картой
и самое важное – чеков между собой (уверенное множественное детерминирование Клиента).

Далее собственно приступаем к серии анализов, которые позволят определить типовые профили клиентов и их обычное поведение.

Следует оговорится, что данный метод сбора и обработки информации применим, даже если Вы не собрали большинство из описанных выше данных. Сведений которые сегодня есть в Вашем бизнесе, обычно достаточно, чтобы поднять маржу методами Big Data на 2-4% в первый год и достижение более амбициозных значений крайне маловероятно. Зато этот год можно провести с пользой, собирая новую информацию. Вам кажется это сложным и не привлекательным. Хорошо, мы же бизнесмены. Скажу так: организация постоянного сбора данных для сотни АЗС обойдётся Вам разово в 60 миллионов рублей, а дополнительной прибыли станете получать полмиллиарда рублей в год.

Рубрика:
{}
Теги: