Voice è la nuova interfaccia che ci circonderà presto in molti luoghi e in molti modi. I contenuti vocali per i dispositivi Amazon Echo, Google Home e Samsung sono sviluppati da marchi grandi e piccoli.
Stiamo sviluppando strategie di contenuti ad attivazione vocale per i nostri clienti qui in Convince & Convert, aiutandoli a trarre vantaggio da questa opportunità di interazione con i consumatori in rapida crescita (per ulteriori informazioni su ciò che facciamo nei contenuti vocali, vedi Perché The Time is Now for Voice- Contenuto attivato).
Recentemente ho partecipato a Voice Summit 2019, segnalato per essere il più grande raduno di settore mai visto di strateghi, sviluppatori, tecnologi, fornitori e piattaforme hardware di contenuti vocali.
Ecco 8 tendenze dei contenuti vocali che ho sintetizzato durante il mio tempo all'evento e attraverso il nostro lavoro con i clienti sulle app vocali.
Tendenza del contenuto vocale n. 1: il miglior contenuto vocale inizia con le esigenze degli utenti
Simile ai primi giorni delle app mobili e persino dei siti Web, gli strateghi e gli sviluppatori hanno la tendenza a pensare: "Facciamo un'app vocale!" Invece, l'approccio migliore è considerare attentamente e ricercare il modo in cui i consumatori interagiscono con il marchio, ciò che realmente devono sapere da quel marchio e se / se il contenuto vocale è un modo adatto per fornire. Dopotutto, non esiste una legge che dice che DEVI avere contenuti ad attivazione vocale. È davvero una Youtility? Se è così, costruiscilo. In caso contrario, non farlo!
Ad esempio, l'abilità Alexa "Chiedi a Purina" di Purina è nata dall'esigenza dei consumatori di capire come si comportano le diverse razze canine e quale razza potrebbe essere più appropriata come nuovo animale domestico. Hanno preso in considerazione l'inclusione di promozioni audio per gli acquisti di cibo per cani, ma hanno scartato questa idea dopo aver realizzato che avrebbe ingombrato la risorsa di informazioni, secondo i rappresentanti di Mobiquity, la società che ha sviluppato l'abilità.
Tendenza del contenuto vocale n. 2: Convergenza di voce e chat
Le applicazioni vocali più efficaci oggi sono in genere notizie, domande e risposte sul recupero di informazioni o giochi. Sul fronte "Domande e risposte sul marchio", come nell'esempio di Purina sopra menzionato, il flusso di interazione di queste app è molto simile al modo in cui i consumatori utilizzano i chatbot.

Fonte immagine: Newsroom KLM – KLM Royal Dutch Airlines
In effetti, l'abilità Alexa di informazioni sul cane Ask Purina funzionerebbe abbastanza bene come chatbot su un sito Web e / o tramite Facebook Messenger o WhatsApp.
Anche KLM Airlines ha visto questa convergenza, ma è arrivata dalla direzione opposta. Hanno preso la loro app di messaggistica di successo (e spesso usata) e l'hanno portata su un'abilità vocale Alexa per i dispositivi Amazon Echo.
Sia che tu stia passando dalla voce alla chat, sia dalla chat alla voce, è vero che molti casi d'uso basati sulle informazioni funzioneranno in modo simile in entrambi gli scenari.
Questo è solo uno dei motivi per cui siamo felici di collaborare con Voicify. Voicify è un sistema di gestione dei contenuti vocali che consente anche di trasferire istantaneamente Alexa Skills e Google Apps su un chatbot con pochissimo lavoro di sviluppo aggiuntivo.
Tendenza del contenuto vocale n. 3: convergenza di voce e effetti visivi
Come accennato sul palco dell'evento Voice Summit 19, le interfacce che sono state storicamente prime per prime (come il laptop o il display del veicolo) ora aggiungono voce. Uso Siri sul mio MacBook ogni giorno. Al contrario, le interfacce che sono state storicamente prime vocali (come Amazon Echo) ora includono elementi visivi.
Molti degli altoparlanti intelligenti appena acquistati includono schermi e i dispositivi Amazon Echo Show e Google Home Hub hanno un prezzo di routine inferiore a $ 100.
Questo ha alcune conseguenze.
Innanzitutto, aumenta geometricamente la complessità dello sviluppo di app vocali.
In secondo luogo, apre molte utilità aggiuntive. L'app Purina sarebbe più utile se potessi vedere immagini di razze canine su un altoparlante intelligente con uno schermo. Per non parlare del fatto che la voce è più veloce come input ma più lenta come output. Secondo Tobias Dengel di Willowtree, digitiamo in media 40 parole al minuto (wpm), ma parliamo 130. Al contrario, possiamo leggere 250 wpm, ma possiamo solo ascoltarne 130. Ciò ha un sacco di potenziale per rendere il contenuto vocale davvero multi -modale e user-friendly se possiamo parlare di ciò che vogliamo e leggere i risultati.
Digitiamo in media 40 parole al minuto (wpm), ma parliamo di 130. #voice Clicca per Tweet
Ma in terzo luogo, se gli altoparlanti intelligenti diventano principalmente dispositivi con schermi, cosa li differenzia da tablet, laptop piccoli o telefoni di grandi dimensioni?
Mentre preferisco gli altoparlanti intelligenti con uno schermo (sono un devoto dell'hub di Google Home, personalmente), non sono sicuro che sfumare le differenze tra un altoparlante intelligente e un iPad sia in definitiva una vittoria per questi dispositivi.
Tendenza contenuto vocale n. 4: formattazione dello scontro diventa un problema
Durante la breve storia degli altoparlanti intelligenti e dell'epoca dei contenuti vocali, Amazon è stato il grande capo. I loro dispositivi Echo fondamentalmente hanno creato la categoria, e quel vantaggio della prima mossa più il loro enorme potere promozionale hanno permesso ad Amazon di correre fuori nel mondo degli altoparlanti intelligenti.
Più di recente, tuttavia, Google (e in misura molto minore, Apple) è saltato nella mischia con i propri dispositivi hardware, cercando di superare Echo Echo, con vari gradi di successo. Recenti rapporti del settore suggeriscono che la quota di mercato di Google degli oratori intelligenti si sta avvicinando al 25% e, date le loro tasche profonde e l'interesse a dominare qualsiasi cosa relativa alla ricerca (oltre alla proprietà dell'entità casa intelligente Nest), non andranno da nessuna parte.
Ciò fornisce ai consumatori una gamma crescente di scelte di altoparlanti intelligenti sul lato hardware, ma crea un processo complicato e inefficiente per gli sviluppatori di contenuti vocali. Oggi, le basi tecnologiche di un'abilità Amazon Alexa e di un'app Google Home sono abbastanza diverse. Per non parlare della nuovissima piattaforma vocale Samsung Bixby, che è progettata quasi al contrario di come lo fanno Amazon / Google.
Quindi, il mondo dei contenuti vocali è nel mezzo di un dilemma standard che è redolente di Betamax contro VHS, Internet Explorer contro Netscape, iOS contro Android e Joe Jonas contro qualunque sia il nome dei suoi fratelli.
Sarebbe MOLTO meglio se esistesse un unico percorso di sviluppo per i contenuti vocali. Ma non sto trattenendo il respiro che vedremo una cosa del genere, motivo per cui i sistemi di gestione dei contenuti vocali come Voicify sono fondamentali oggi. All'interno di Voicify, quando creiamo contenuti vocali, la tecnologia Voicify modifica e distorce automaticamente le interazioni e gli script per funzionare su dispositivi sia Amazon che Google, senza dover riscrivere l'applicazione vocale. Una vittoria, certo.
Trend dei contenuti vocali n. 5: marketing e distribuzione sono fondamentali
Essendo l'ecosistema più grande e di più lunga durata, Amazon, ovviamente, ha il maggior numero di applicazioni vocali approvate e in esecuzione, oltre 60.000 solo negli Stati Uniti. Ogni giorno vengono aggiunte alcune dozzine di nuove competenze. E la capacità dei consumatori di scoprire nuove utili competenze non è un momento saliente dell'attuale sistema Alexa. È essenzialmente l'equivalente online e / o ad attivazione vocale di camminare attraverso una biblioteca molto grande con una sorprendente varietà di libri, molti dei quali di merda, e un bibliotecario di quarta classe che risponde a cuor leggero alle domande tra morsi di casseruola fatta in casa.
Detto in questo modo: se vuoi che le persone trovino e utilizzino i tuoi contenuti attivati dalla voce, quella responsabilità ricade sulle tue spalle. Aspettatevi NIENTE da Amazon e Google in termini di promozione e rilevabilità. In questo modo, non rimarrai deluso quando è esattamente quello che ricevi.
Quando lanci contenuti vocali, devi semplicemente attivare una campagna di sensibilizzazione e di prova approfondita e multimodale che sfrutti una combinazione di fuori casa, e-mail, social, direct mail, note sugli ostaggi e persone che si travestono da pagliacci e in piedi agli angoli delle strade. Il tuo chilometraggio può variare.
Oggi, le capacità dei contenuti vocali superano di fatto la comprensione da parte dei consumatori di tali capacità. È un'inversione interessante. Comcast (uno dei nostri clienti preferiti) ha parlato su un panel al Voice Summit 19 e ha riferito che i suoi clienti hanno emesso circa 9 miliardi di comandi nei loro telecomandi X1 ad attivazione vocale nel 2018. Ma la stragrande maggioranza di questi comandi vocali è per lo stesso piccolo insieme di richieste. Attualmente stanno lavorando a nuovi modi per insegnare ai clienti tutte le altre cose che il telecomando vocale può fare. A modo tuo, dovrai fare lo stesso quando distribuisci i contenuti ad attivazione vocale.
Tendenza contenuto vocale n. 6: funzionalità volutamente limitata

Martine van der Lee di KLM Airlines
Uno dei miei punti preferiti al Voice Summit 19 è venuto da Martine van der Lee di KLM Airlines, che ha notato che quando le app vocali hanno molte funzionalità, lavorare con loro diventa più frustrante, non meno.
Ha sottolineato con precisione che il contenuto vocale con diverse opzioni (essenzialmente una raccolta di app all'interno dell'app ombrello) richiede un'interazione IVResque tra utente e dispositivo. "Vuoi fare questo, o questo, o questo, o questo, o questo?" È l'inferno dell'albero del telefono, ma attraverso un altoparlante intelligente. Non bene.
Per ora, l'approccio migliore è trovare un caso d'uso degno e costruire la tua app di contenuti vocali per fare solo un paio di cose, estremamente bene. È meglio avere più app o competenze piuttosto che inserire più opzioni in un'esecuzione vocale esistente. Si noti che l'uso di schermi negli altoparlanti intelligenti (vedi sopra) potrebbe migliorare questo problema, eventualmente.
Tendenza del contenuto vocale n. 7: opportunità di contenuto vocale interno sopra
Mentre la maggior parte delle competenze vocali e delle app sono state sviluppate per l'uso da parte dei consumatori, ci sono molti casi d'uso interessanti per contenuti attivati dalla voce focalizzati internamente. Soprattutto dal momento che l'utilizzo delle app può essere bloccato in modo tale che solo le persone / gli indirizzi e-mail approvati abbiano accesso, il potenziale di comunicazione interno è significativo.
Ad esempio, un'app vocale "Chiedi risorse umane" che gestisce le domande più comuni su buste paga, assicurazione, polizze vacanze, ecc. Un'app vocale "controllo inventario" che analizza istantaneamente le scorte attuali a disposizione per vedere se una parte particolare è disponibile. Oppure un'app "meeting killer" in cui i partecipanti di una squadra registrano ciascuno un breve aggiornamento del progetto e tutti gli aggiornamenti vengono raggruppati in un unico file audio. Ascolto facile, efficiente in termini di tempo e nessuna sala conferenze necessaria!
Tendenza contenuto vocale n. 8: l'etica è in prima linea
Si è parlato molto di etica al Voice Summit 19. È bello vedere i pionieri di un'industria emergente pensare attraverso alcune delle ramificazioni sociali del loro lavoro fin dall'inizio, piuttosto che cercare di gerrymander considerazioni etiche dopo che il treno ha da tempo ha lasciato la stazione (tosse, tosse – social media – tosse, tosse).
Il New York Times ha condotto uno studio approfondito degli abbonati sulla fattibilità e gli atteggiamenti nei confronti degli altoparlanti intelligenti e dei contenuti vocali e ha scoperto che la stragrande maggioranza degli utenti degli altoparlanti intelligenti crede che la voce predefinita utilizzata dagli altoparlanti sia "bianca" nella loro flessione e prospettiva. Questo, di per sé, ha delle implicazioni.
Per contrastare questo, KLM Airlines ha registrato le voci di centinaia di dipendenti e ha creato un motore di linguaggio polifunzionale personalizzato che dovrebbe essere il più neutro possibile.
Altre considerazioni etiche in questa fase iniziale includono la capacità (o la mancanza di ciò) degli altoparlanti intelligenti di ascoltare la tonalità e rispondere in modo diverso in base alle esigenze di empatia percepita, ecc.
E, naturalmente, una grande considerazione è la sfiducia dei consumatori nei confronti della natura di ascolto degli altoparlanti intelligenti in generale. Il mio buon amico Tom Webster di Edison Research ha mostrato i suoi dati che hanno mostrato che la preoccupazione dei consumatori per la privacy degli smart speaker è aumentata notevolmente nell'ultimo anno.
Il 60% delle persone è preoccupato per la privacy e il potenziale degli hacker che accedono alle loro informazioni tramite altoparlanti intelligenti. #voce Clicca per Tweet
Perché questo conta
Il contenuto ad attivazione vocale tramite altoparlanti intelligenti e altri dispositivi è un campo emergente in fase iniziale. Tuttavia, la rapida adozione di questi dispositivi suggerisce che la voce continuerà a crescere come ecosistema di interazione. Ti terremo informato non appena vedremo queste tendenze vocali svilupparsi e spostarsi nel tempo. Nel frattempo, se possiamo aiutarti a pensare attraverso il tuo approccio alla voce, faccelo sapere.