
Kaggle, la piattaforma di data science acquisita da Google, è iniziata come punto di incontro virtuale per i fanatici dell'apprendimento automatico per competere sui punteggi di precisione predittiva.
Si è evoluto in un coltellino svizzero per la scienza e l'analisi dei dati, uno che può aiutare i professionisti dei dati, compresi i marketer basati sui dati, a elevare il loro gioco di analisi.
Nonostante sia un servizio gratuito, Kaggle può aiutare ad affrontare un numero crescente di sfide relative ai dati:
- Come trovare fonti di dati affidabili per arricchire i dati di clienti e marketing esistenti;
- Come trovare idee, ispirazione e codice pertinente per una nuova analisi dei dati senza reinventare la ruota;
- Come collaborare in modo efficiente a un progetto di dati con i colleghi;
- Come applicare l'apprendimento automatico e l'intelligenza artificiale ai progetti di analisi di marketing;
Questo è, ovviamente, solo un elenco parziale. Questo post si concentra su questi e altri casi d'uso di marketing per Kaggle.
Che cos'è Kaggle?
Kaggle è stato lanciato nel 2010. È diventato noto come una piattaforma per l'hosting di concorsi di apprendimento automatico. I concorsi erano in genere sponsorizzati da grandi aziende, governi e istituti di ricerca.
Il loro obiettivo era (ed è tuttora) quello di sfruttare l'intelligenza collettiva di migliaia di data scientist in tutto il mondo per risolvere un problema relativo ai dati.
Nel 2017, Kaggle è stata acquisita da Google. Dopo l'acquisizione, ha iniziato a espandersi in più aree della scienza e dell'analisi dei dati. L'obiettivo è chiaro: diventare uno sportello unico per i professionisti dei dati. (Attualmente è stato rinominato come "la sede della scienza dei dati".)
Di seguito, discuto cinque caratteristiche nuove e pertinenti per gli esperti di marketing, indipendentemente dalle capacità tecniche:
- Set di dati Kaggle;
- Analisi della community di Kaggle;
- Notebook Kaggle;
- Integrazioni cloud Kaggle;
- Apprendimento automatico con Kaggle.
Per sfruttare al meglio Kaggle, è utile avere una certa capacità di lavorare con il codice. Se non codifichi comunque, non preoccuparti: questo non è un post tecnico.
1. Set di dati Kaggle: accedi a dati pertinenti e di alta qualità.
Sei mai stato nella seguente situazione? Stai guardando un file di dati di grandi dimensioni con molti numeri ma poche spiegazioni. Stai cercando di capire cosa rappresentano ogni riga e colonna e nessuno sembra avere una documentazione precisa.
E se potessimo garantire che i nostri set di dati fossero chiaramente documentati? Questo va oltre il semplice avere un dizionario di dati per le definizioni delle caratteristiche.
E se sapessimo chi ha raccolto i dati, le fonti e la metodologia che hanno usato e se mancano dei dati? E, se sì, perché? È casuale? C'è uno schema o una ragione dietro? Non sarebbe bello sapere anche se qualcuno, da qualche parte, mantiene attivamente il set di dati?
Questa è l'idea alla base Set di dati Kaggle, una raccolta di migliaia di set di dati di alta qualità, tutti con un punteggio di qualità automatico basato sulla disponibilità di metadati. Questi set di dati sono disponibili per la ricerca e hanno tag utili ad essi associati (ad es. Industria, tipo di dati, analisi associate, ecc.)
Laddove applicabile, anche le fonti dei dati sono verificate. E c'è un ulteriore vantaggio: dato un set di dati iniziale, Kaggle può formulare raccomandazioni per set di dati pertinenti e complementari.
Ci sono oltre 20.000 set di dati in Kaggle, inclusi censimento, occupazione e dati geografici, a cui gli analisti possono accedere e analizzare direttamente dai loro browser. Ancora più importante, esiste una grande varietà di set di dati relativi a marketing, e-commerce e vendite.
Come trovi i set di dati su Kaggle?
Non potrebbe essere più semplice:
- Connettiti a kaggle.com. (Esiste un accesso Google opzionale.)
- Cerca la sezione dei set di dati nella parte superiore della pagina.
- Immettere una parola chiave per cercare nel database dei set di dati.
- Scansiona i risultati, rivedi i punteggi di qualità del set di dati, i punteggi di interesse e le brevi descrizioni.
- Seleziona il set di dati più adatto a te.
Set di dati bonus: dati di Google Analytics dal negozio di articoli Google
Se lavori con Google Analytics, c'è un bonus per te: un set di dati associato al primo concorso di apprendimento automatico di Kaggle, basato sui dati di Google Analytics e concluso all'inizio di quest'anno.
Gli analisti digitali possono accedi a dati non elaborati a livello di hit (con implementazione completa dell'e-commerce) che coprono un intero anno di attività dei clienti nel negozio di articoli di Google.
Lavorare con questo set di dati può essere prezioso in termini di comprensione della struttura sottostante dei dati di Google Analytics e sperimentazione di una serie di tecniche statistiche e di data mining avanzate che non possono essere applicate quando i dati sono in forma aggregata (che è la norma con lo standard Statistiche di Google.)
2. Analisi della community di Kaggle: avvia subito l'analisi rivedendo il lavoro degli altri.
Quando si inizia ad analizzare i dati di marketing, è utile trovare set di dati pertinenti da combinare con quelli originali. Ma è ancora meglio se riesci a vedere tutto il lavoro esistente che è stato pubblicato su un determinato set di dati da altri Kagglers. Questo può essere una fonte di ispirazione ma anche un risparmio di tempo, soprattutto nella fase iniziale di un'analisi.
A volte è scoraggiante scegliere tra tutte le analisi disponibili. Simile a un social network, Kaggle ti mostra in che modo la comunità ha interagito con ogni opera, il che può aiutarti a individuare idee e analisi che si distinguono. È anche una buona opportunità per interagire e fare rete con i membri della comunità Kaggle che hanno interessi sovrapposti.
Un buon esempio di ciò è il set di dati di Google Analytics della sezione precedente. È accompagnato da centinaia di approcci su come analizzare i dati di analisi digitali della comunità Kaggle, compresi alcuni dei maestri Kaggle.
Come trovi le analisi di marketing pertinenti su Kaggle?
- Dopo aver selezionato un set di dati come descritto nel passaggio precedente, noterai che sono associati diversi Notebook indipendenti. (I quaderni sono discussi di seguito in maggiore dettaglio.)
- Ogni Notebook rappresenta un'analisi che include narrativa, codice e output, come visualizzazioni e tabelle di dati con statistiche riassuntive.
- Per iniziare, seleziona quello con il maggior numero di voti positivi, segno di qualità e approvazione da parte della community.
- Se l'analisi è davvero di grande interesse, è possibile "biforcare" il Notebook, generando così una copia sia del codice che dei dati.
- Quindi, esegui lo script così com'è o apporta le modifiche creando la tua versione. Un'opzione interessante è quella di sostituire i dati dell'autore originale con il proprio set di dati simile prima di eseguire il codice.
3. Notebook Kaggle: accedi a un potente laptop sul cloud.
Ormai hai selezionato un set di dati e raccolto alcune buone idee dalla community di Kaggle per aiutarti a iniziare. Come passaggio successivo, vorrai applicarlo ai tuoi dati.
Qual è il posto più adatto perché tutto ciò accada? Un'opzione ovvia è il tuo desktop o laptop locale. In alternativa, puoi seguire Kaggle lavorando con i Notebook Kaggle (precedentemente noti come Kaggle Kernels). Ciò ha dei vantaggi, soprattutto nei casi in cui:
- Il set di dati ha dimensioni di diversi gigabyte e non è pratico spostarsi o caricarlo nella memoria locale ogni volta che lo si analizza.
- L'attività è intensiva dal punto di vista computazionale e non vuoi rallentare il tuo laptop per il resto della giornata.
- Stai pensando di condividere la tua analisi con i collaboratori.
Diamo un'occhiata più da vicino.
Notebook e calcolo
Un Notebook Kaggle è essenzialmente un potente computer a cui Kaggle ti consente di accedere nel cloud. Era disponibile solo per l'uso con dati pubblici durante le competizioni. Di recente, Kaggle ha iniziato a offrirlo per progetti privati gratuitamente e con l'opzione di utilizzare set di dati privati.
Visivamente, i taccuini di Kaggle sembrano dei taccuini di Jupyter, che contengono calcolo, codice e narrativa, ma vengono forniti con alcuni extra:
- Sono dotati di hardware di elaborazione, CPU e GPU per analisi impegnative dal punto di vista computazionale. Questa potenza di elaborazione è utile se si dispone di un calcolo lungo o si prevede di restituire un volume elevato di dati dopo una chiamata API.
- Hanno una memoria RAM di 16 gigabyte, che può essere utilizzata per adattare set di dati di grandi dimensioni alla memoria. (Questa è una capacità maggiore rispetto al laptop medio.)
- Nei notebook sono preinstallate tutte le più recenti librerie software, nonché le versioni di R e Python, i principali linguaggi di programmazione per la scienza e l'analisi dei dati.
- È possibile collegare uno o più set di dati a un Notebook con un solo clic, con una dimensione totale fino a 100 gigabyte.
Notebook e collaborazione
Puoi condividere le tue analisi con i colleghi, senza lo temuto scenario "ma funziona sulla mia macchina". Quando condividi un Notebook privato con i tuoi collaboratori, questi accedono automaticamente allo stesso ambiente computazionale isolato, comprese le librerie software e la versione dei linguaggi di programmazione.
Grazie a Docker, la popolare tecnologia di containerizzazione, non è necessario installare o aggiornare software e non c'è rischio di causare conflitti software.
Al termine del lavoro, seleziona la visibilità pubblica o privata per il notebook e condividila con i collaboratori. Possono visualizzare ed eseguire l'analisi in modo interattivo con un clic, direttamente dal loro browser.
4. Integrazioni cloud Kaggle: accedi alla tecnologia Google Cloud.
Lavorare all'interno dell'ambiente Kaggle ti consente di acquisire flussi di lavoro cloud. Offre inoltre esposizione a nuovi strumenti e tecnologie: opportunità per acquisire nuove competenze, molte delle quali sono fondamentali per gli esperti di marketing e gli analisti digitali.
Questo grazie in gran parte alle integrazioni di Kaggle con BigQuery e BigQuery ML e Google Data Studio.
Non discuterò queste integrazioni in dettaglio qui: CXL ha diverse fonti (linkate sopra) con dettagliate procedure dettagliate sui prodotti. Quando si tratta di come funziona con Kaggle, l'essenza è che puoi:
- Accedi ai dati memorizzati in BigQuery direttamente tramite Kaggle con un po 'di codice SQL, quindi analizzali direttamente su Kaggle con R o Python.
- Costruire e valutare modelli di regressione e clustering senza una vasta conoscenza dei framework di apprendimento automatico.
- Carica un set di dati in Kaggle, modellalo e quindi, tramite il connettore Data Studio, esplora visivamente i dati nell'interfaccia di Data Studio o crea dashboard da condividere con il tuo team.
C'è anche un'integrazione con Fogli Google e uno nuovo con Google AutoML (vedi la sezione successiva). Non sarei sorpreso di vedere più integrazioni poiché Kaggle è ora parte di Google Cloud.
5. Apprendimento automatico con Kaggle: apprendimento automatico di alta qualità e intelligenza artificiale con codice zero.
L'integrazione con AutoML di Google è stata annunciata a novembre 2019. Merita una sezione a parte a causa del suo potenziale impatto.
Come concetto, AutoML non è del tutto nuovo, ma renderlo accessibile come prodotto in blocco tramite Kaggle è uno sviluppo degno di nota. Le competenze umane richieste per lo sviluppo dell'apprendimento automatico sono scarse, un fatto spesso sollevato come un collo di bottiglia per il settore.
AutoML può ridurre la barriera all'ingresso per lo sviluppo di applicazioni di apprendimento automatico nel marketing. Consente agli esperti di marketing con una comprensione generale del processo di apprendimento automatico di utilizzare in modo sicuro potenti e avanzati modelli di intelligenza artificiale e senza bisogno di essere programmatori.
AutoML, che è ora disponibile su Kaggle, può anche risparmiare enormi quantità di tempo impiegato nello sviluppo e nel test di un modello manualmente (il caso tipico in questo momento).
Questo, ovviamente, non sarà "AI con la semplice pressione di un pulsante". Il marketer (o chiunque applica AutoML) dovrà comprendere le basi del processo. A differenza di altre funzionalità di Kaggle, il suo utilizzo può comportare costi di calcolo.
In ogni caso, AutoML è un modo pratico per iniziare con l'apprendimento automatico e l'intelligenza artificiale per il marketing, direttamente all'interno di Kaggle.
Conclusione
Kaggle non copre tutti gli aspetti di un flusso di lavoro di dati e analisi. Non è lo strumento per sviluppare sistemi a livello di produzione o archiviare e gestire tutto il codice di analisi e i manufatti. Tuttavia, è uno strumento pratico di collaborazione con il quale gli esperti di marketing possono accedere a set di dati pertinenti, esplorare i dati e ottenere idee per avviare le loro analisi.
Computazionalmente, è come un potente laptop basato su cloud che è sempre disponibile per progetti pubblici o privati. È anche un ponte per molti altri servizi cloud forniti da Google, come BigQuery e Google Data Studio.
Ultimo ma non meno importante, AutoML ha il potenziale per essere un punto di svolta. Riduce la barriera all'ingresso e consente ai professionisti del marketing di essere direttamente coinvolti nello sviluppo dell'IA e dell'apprendimento automatico per i progetti.
Acquisire familiarità con i Notebook Kaggle, le integrazioni Cloud e tutti gli altri elementi dell'ambiente Kaggle può rendere molto più semplice una futura transizione verso una piattaforma AI completa, inclusa la piattaforma AI di Google.
Il modo migliore per iniziare? Esplora i set di dati e i modi in cui la community di Kaggle li ha analizzati. Prova il set di dati di previsione delle entrate di Google Analytics e i Notebook di analisi o il set di dati di ottimizzazione delle conversioni con analisi del ROI per le campagne di marketing di Facebook.
Felice Kaggling.