di Silvio Gerli, Smartstat, e Marco Fattore, Università degli Studi di Milano Bicocca
Con questo articolo continuiamo il percorso di approfondimento sul lavoro del data scientist attraverso il racconto di casi reali ed emblematici. Nello scorso numero abbiamo illustrato una innovativa risposta a una domanda precisa e ben posta sul controllo sintetico delle performance della forza vendita (cfr Datavalue marzo/aprile 2015, p. 30-33). Presentiamo qui un altro caso molto interessante, realizzato con Sky Italia, e volutamente molto differente dal precedente, per mostrare come la data science non sia una disciplina limitata e confinabile in definizioni e schemi chiusi, ma anzi tenda ad occupare spazi nuovi, integrando componenti consulenziali, metodologiche e tecnologiche. Il risultato del progetto che stiamo per descrivere è stato lo sviluppo di un processo di sintesi e visualizzazione dei dati di navigazione e accesso al sito web aziendale, che supera i classici grafici a cui siamo abituati da anni, fornendo una vista dei dati organica, dinamica, più ricca di significato e più vicina alle esigenze di business.
La sfida
Già dalla richiesta iniziale del Committente, il progetto si inquadra subito come “open”, richiedendo un approccio “laterale” per valorizzare la capacità innovativa della data science. Sintetizzando, con il supporto di Aldo Agostinelli, Digital Sales & Mktg Director di Sky, e di Gian Piero Zanette, Digital sales analysis manager, insieme ad altri due componenti del proprio team (Erica Verde e Fiorenza Furlan) ha ingaggiato Smartstat in partnership con Spindox con la seguente richiesta: “Il digitale per Sky rappresenta un touchpoint fondamentale e sempre più strategico. Sky permette ai propri prospect di raccogliere informazioni e sottoscrivere nuovi abbonamenti e ai propri clienti di informarsi e gestire il proprio abbonamento attraverso le property digitali fruibili da tutti i device. In vista di azioni di marketing e commerciali, quali informazioni è possibile generare a partire dalla mole di dati provenienti dalla navigazione web anonima dei nostri utenti e sistematicamente raccolti sulla piattaforma Adobe?”. In realtà questa domanda non immediatamente concreta, volutamente “vaga”, è espressione di un approccio lungimirante: cominciare a mettere a frutto i flussi di dati in modo sistematico, cercando di generare nuove prospettive operative. Paradossalmente, a una domanda posta in modo aperto si risponde con un forte impianto metodologico, che consenta l'esplorazione di percorsi alternativi, senza venire meno a robustezza ed efficacia. Il progetto è stato quindi impostato con i seguenti passi operativi:
1. design e strutturazione della base dati sulla quale effettuare le elaborazioni e controllo della consistenza e dell'utilizzabilità dei dati ai fini del progetto;
2. identificazione degli obbiettivi possibili con i dati analizzati;
3. identificazione e condivisione delle feature e conseguente processo di estrazione e generazione delle stesse;
4. prototipizzazione dei processi di elaborazione e di visualizzazione con alcuni esempi.
1. Design e strutturazione della base dati - Controlli di qualità
Data la natura pilota del progetto, non è stato possibile accedere direttamente ai raw-data, ma esclusivamente ai dati disponibili dalla piattaforma di Adobe, sotto forma parzialmente aggregata (per esempio, il time stamp di ciascun accesso o evento sul sito è sostituito dall'indicazione dell'intervallo temporale, di ampiezza pari a 1 ora, in cui esso è avvenuto).
La base dati disponibile per le attività è quindi composta da tabelle relative a:
I. Eventi di accesso al sito Sky.
II. Eventi di navigazione successiva al primo accesso al sito.
III. Eventi di inserimento nel carrello dei pacchetti Sky.
IV. Eventi di acquisto dei pacchetti Sky.
Le verifiche di consistenza e di qualità hanno confermato la pertinenza e l'affidabilità dei dati, consentendo di passare alle fasi operative del progetto.
2. Identificazione degli obiettivi operativi
Sulla base dei bisogni espressi dal Committente, sono stati identificate tre linee di progetto distinte:
A) Fornire uno strumento sintetico descrittivo per la visualizzazione dei comportamenti di navigazione degli utenti, sul sito di Sky.
B) Individuare criteri e strumenti per l'analisi dei visitatori che popolano il proprio carrello e su coloro che acquistano pacchetti, con l'obiettivo di identificare e migliorare le azioni di autopromozione. C) Fornire spunti per il miglioramento delle azioni di upselling.
3. Definizione ed estrazione delle feature
Normalmente, la descrizione dei comportamenti dei cookie non avviene direttamente a partire dai dati elementari, ma da un layer intermedio di informazioni desunte da quelle elementari e che esprimono tratti interessanti dei visitatori. Per esempio, dal dato elementare sulla tecnologia utilizzate per l'accesso (sistema operativo con la versione, browser con la versione, plugin installati ecc.) si possono desumere informazioni sul rapporto che il soggetto ha con la tecnologia e quindi caratterizzarne il profilo. Queste informazioni “intermedie” sono dette “feature” e costituiscono normalmente il vero layer da cui generare i modelli di comportamento. Le feature vengono identificate ed estratte attraverso un processo euristico, creativo e trial & error, alla ricerca di ciò che è o interpretabile o maggiormente caratterizzante i comportamenti osservati.
Alla fine di questo importante processo sono state identificate un centinaio di feature mediante le quali profilare i cookie, il loro comportamento di navigazione (fasce orarie), l'approccio al portale (aree visitate), gli interessi (basati sulle keyword incontrate nel corso della navigazione), il rapporto con la tecnologia (a partire dalle informazioni sulla piattaforma tecnologica usata), la geo-localizzazione (a partire dagli indirizzi IP).
4. Output visivo e relativa prototipazione
A questo punto si sono affrontate le tre linee di progetto condivise con Sky e per ciascuna si è identificata una proposta differente.
A. Descrizione visiva della navigazione
Per descrivere la navigazione al sito dei visitatori, si è fatto ricorso alle Self-Organizing Map (o Mappe di Kohonen), che consentono di proiettare dati multidimensionali su una superficie a due dimensioni, e quindi visualizzabile. È lo stesso strumento illustrato nel primo numero di Datavalue, nell'ambito di un progetto svolto con IGPDecaux (cfr Datavalue gennaio/febbraio 2015, p. 34- 38) . Come ricorderemo queste mappe forniscono una topologia (una mappa) della distribuzione dei tipi di oggetto in esame (in questo caso i navigatori del sito). In questo caso sono state costruite per capire come si distribuiscono i navigatori del sito in base a tre prospettive:
1. Giorni della settimana.
2. Fasce orarie (ore lavorative, ore festive ecc.).
3. Aree tematiche del sito.
Ciascun profilo di mix delle caratteristiche prese in esame in ognuno dei tre casi corrisponde ad un colore. Il colore pieno è usato per profili con la presenza di una sola caratteristica (es: i rossi dell'ultima mappa sono coloro che navigano solo sull'area calcio). Mentre colori mischiati e sfumati per i vari profili che presentano la compresenza di più caratteristiche in misure differenti. Questi profili sono disposti sul mosaico in modo da raggruppare profili vicini e preservare tutti i mix e le zone di confine (vedi immagine1).
Dalle mappe emergono alcune evidenze: il comportamento degli utenti non mostra pattern significativi rispetto ai giorni della settimana nei quali si naviga, rivela alcuni pattern più marcati in termini di fasce orarie e pattern decisamente evidenti rispetto alle aree tematiche del sito. Si vede come alcune aree tematiche siano distinte e senza sovrapposizioni (per esempio Cinema e News), mentre altre siano contigue e in parte sovrapposte fino a sfumare una nell'altra (come Calcio e Assistenza). Ci significa che mentre non vi è un numero significativo di visitatori dell'area Cinema che navigano anche l'area News, vi sono visitatori dell'area Calcio che visitano l'area di Assistenza.
Molto interessante è anche osservare come la mappa cambia nel tempo (da un anno all'altro, per comprendere come cambia la propria utenza) o come muta al cambiare delle stagioni. Vediamo qui a sinistra come esempio le mappe relative a due stagioni differenti (vedi nell'Immagine 2).
B. Criteri di ottimizzazione dell'autopromozione
Quanto realizzato mappando gli utenti può essere utilizzato per identificare dove (nella mappa delle aree) o quando (nella mappa delle fasce orarie) navigano principalmente coloro che acquistano i diversi tipi di pacchetto. In questo modo si possono impostare azioni di auto-pubblicità in modo più efficace, uscendo anche dallo schema “pubblicità calcio sull'area calcio”, “pubblicità cinema sull'area cinema” e così via. Sul tema dell'auto-pubblicità si è poi deciso di sviluppare un modello più raffinato, che apre a diversi tipi di applicazioni, alcune più semplici e immediate e altre più efficienti, ma che necessitano di adeguamenti tecnologici.
È stato stimato statisticamente quanto ciascuna delle circa cento feature estratte dai cookie impatti sulla probabilità che un cookie acquisti “un certo” prodotto Sky. Questo ha portato stimare per ognuna della feature uno score di “impatto” per ogni pacchetto. Vediamo di sotto un estratto di una di queste tabelle che evidenzia solo due righe: quella relativa alla feature che misura la percentuale di pagine vista nella pausa pranzo in giorni lavorativi e quella relativa alla percentuale di pagine di previsione weekend viste rispetto al totale (vedi Tabella 1).
Questa tabella può essere letta in orizzontale, per decidere in modo puntuale quali pacchetti promuovere indipendentemente dal chi la sta vedendo (ad esempio nelle diverse aree del sito o nei diversi momenti della giornata). Nell'esempio riportato nella tabella emerge come, nel periodo analizzato, in pausa pranzo navigano soprattutto coloro che sono propensi ad acquistare il pacchetto calcio e il pacchetto famiglia, mentre quelli che vedono le previsioni del weekend sono poi quelli che più probabilmente acquistano il pacchetto sport. Ma la tabella può anche essere letta in verticale, in modo da proporre al singolo cookie il pacchetto che più probabilmente potrebbe acquistare, in base al suo particolare e unico profilo di feature. Questo necessita di un sistema di erogazione in grado di ricevere dal modello le probabilità di interesse per ogni singolo pacchetto del cookie che vede qualsiasi pagina del sito. Si può andare anche oltre e analizzare tutti questi dati nei diversi anni, per cogliere le dinamiche di comportamento dei visitatori e reagire ai cambiamenti, o nelle varie stagioni per calibrare meglio le azioni, contestualizzandole al periodo corrente.
C. Strumenti di ottimizzazione dell'upselling
Individuare la proposta di upselling giusta per un certo cliente implica agire a livello disaggregato, sul singolo utente. L'idea di base è stimare, con un modello analogo a quello precedente, la probabilità che un certo cookie, con un certo profilo e che stia mettendo nel carrello un certo prodotto, acquisti anche un altro prodotto dell'offerta Sky, e quindi proporgli di aggiungere il prodotto con la stima di probabilità più altra nel momento in cui il carrello viene aperto. Appena un utente metterà un prodotto nel carrello, il suo profilo verrà passato al modello statistico, ottenendo in risposta gli score di propensione all'acquisto degli altri 4 pacchetti Sky. Anche in questo caso, è utile considerare modelli stagionali, perché le evidenze raccolte nell'attività pilota indicano l'esistenza di comportamenti e attitudini differenti nelle diverse stagioni e legati alla periodicità di eventi e fenomeni sportivi.
Applicazioni ed evoluzioni
Come si è appena visto e come spesso capita, valutando tanti approcci, in realtà si è arrivati a più di un risultato interessante e si è deciso di presentarli tutti. Il progetto pilota ha soddisfatto le esigenze del Committente, fornendo viste e “insights” giudicati interessanti e ricchi di chiavi di lettura.
Il passo successivo sarà quello di implementare un processo ingegnerizzato che generi sistematicamente gli output illustrati in precedenza, in modo da monitorare l'evoluzione dei comportamenti dei visitatori e intercettare tempestivamente segnali di cambiamento. Contemporaneamente, sono già state immaginate possibili evoluzioni, per affrontare temi legati all'incremento del volume di navigazione sul portale (attraverso l'implementazione di un motore di suggerimento intelligente), all'aumento del tasso di “conversion” dei prospect provenienti da campagne esterne (integrandosi con i dati presenti sulla DMP), alla riduzione del tasso di churn (attraverso un'analisi e una profilazione più raffinata dei comportamenti). Temi che, se affrontati con metodologie appropriate e la giusta componente di pensiero laterale, porteranno a nuovi e interessanti risultati.