Nach Content First und Mobile First heißt es jetzt Voice First. Gemeint ist damit die rein sprachliche Steuerung und Kommunikation über sämtliche digitale Geräte und Ebenen hinweg. Alexa, Siri, Cortana & Co. machen es vor: Digitale Sprachassistenten sind nach den Chatbots der nächste ernstzunehmende Ansatz, KI-Hürden zu überwinden und mehr „Human Touch“ in die Beziehung Mensch und digitale Welt zu bekommen.

Digitale Sprachassistenten und Content Marketing: Interview mit Robert C. Mendez – Airmotion Media© Fotos: Internet of Voice

 

Einem, dem die Stimme bei diesem Thema ganz sicher nicht versagt, ist Robert C. Mendez. Der Geschäftsführer von Internet of Voice ist einer der renommiertesten Vordenker für Digitale Sprachassistenten in Deutschland. Zudem ist er Mitveranstalter der „Smart Voice Conference 2018“ am 13. November in Köln. Seiner Meinung nach haben Voice First und Smart Voice das Potential, auch die Content-Marketing-Welt gehörig aufzumischen. Wir wollten mehr wissen und haben ihn zum Interview getroffen.

Airmotion Media: Hallo Robert, welche Rolle wird Sprachsteuerung in fünf Jahren spielen?

Robert C. Mendez: Interessanterweise denken alle im Bezug zu Sprachassistenten immer gleich an Sprachsteuerung. Dabei heißen die Systeme doch aber „Sprach-Assistenten“ und nicht „Sprach-Schalter“. Die Steuerung von Software und Geräten ist lediglich eine von vielen Funktionen die ein Sprachassistent seinen Nutzer anbietet und dabei sogar noch die dümmste aller Funktionen. „Licht an“ oder „Schick Oma eine SMS“, erfordert nur wenig Intelligenz für einen „Assistenten, der sprechen kann“. Grundsätzlich sind Sprachassistenten persönliche Assistenten.

Ist die Funktion Sprachsteuerung damit bereits schon wieder „oldschool“?

Nein, sie bleibt natürlich ein wichtiges Thema – mindestens dort, wo Voice First nicht zu 100 Prozent umgesetzt werden kann.
Okay, danke für die Klarstellung. Wie sieht die Zukunft der Sprachassistenten aus?

Laut ersten Zahlen soll bis 2021 mindestens ein Viertel der Weltbevölkerung in irgendeiner Weise mit Sprachassistenten interagieren (einige sprechen sogar eher von einem Drittel als einem Viertel). Hinzu kommt, dass Sprachassistenten eine unumkehrbare Entwicklung sind, die von den Großen unter den Digitalkonzernen mit viel Einsatz angetrieben werden – too big to fail! Digitale Sprachassistenten werden schon bald in einigen Markt-, Arbeits- und Lebensbereichen viele Dinge verändert und auch manchmal stark umgekrempelt haben.

Das klingt ja ein Stück weit nach digitaler Revolution?

Eine Revolution ist es nicht, sehr wohl aber Evolution und Innovation. Und eigentlich sogar durch einen „Rückschritt“: hin zur natürlichen Kommunikation mit der Maschine per Sprache. Je nach Lebens- und Arbeitsbereich kann sich das durchaus stark auswirken. Vor allem dort wo Personalisierungsfunktionen greifen und der Bildschirm aktuell noch seine Domäne hat.

Es gibt ja schon „Alexa-SEO“. Wie unterscheidet sich dieses von konventionellem SEO?

Nein, das gibt es noch nicht! Das Märchen von „Voice Search“ wird besonders bzw. nur im Marketing gerne erzählt. Aktuell kann man seine Inhalte im Internet nicht wirklich auf Voice optimieren: Es gibt schlichtweg noch keine Funktion der Suchmaschinen, die eine mögliche Relevanz auf Voice auswertet und etwa als Ranking-Faktor in die Ergebnisse ausspielt.

Aber professionelle „Voice Search Optimierung“ wird doch schon hier und da angeboten?

Schon, doch diese von (meist merkwürdigen) Agenturen empfohlenen Maßnahmen sind lediglich übliche und völlig normale SEO-Maßnahmen. Sie haben wie geschildert mit Voice noch nichts zu schaffen. Auch bietet sich aktuell auch kein Vorteil für die Ausgabe von Inhalten per Voice, egal ob strukturierte oder unstrukturierte Daten vorliegen. Mehrere, auch breit angelegte Studien haben dies gezeigt.
 

Sie benötigen Unterstützung bei der Erstellung von Qualitäts-Content?


 
Und was meint Google dazu?

Google hat vor kurzem das von schema.org angelegte Markup als „akzeptiert“ kommuniziert. Doch das hat das zeitgleich eine entsprechende Verwunderung in den Entwicklerforen ausgelöst, da noch immer völlig unklar ist wie mit gesprochener Sprache wirklich umgegangen werden soll. Auch hat Google noch in keinster Weise mitgeteilt, ob und wie dieses Markup die Rankingfaktoren beeinflussen wird. Es wird meines Wissens aktuell lediglich von einigen Screenreadern genutzt, mehr nicht – noch nicht! Denn, dass Voice irgendwann auch als Rankingfaktor Einfluss haben wird, ist klar. Eine entsprechende Richtlinie zum Erkennen von sprechbaren Inhalten hat es bereits vor Monaten gegeben. Es heißt also abwarten, wann Voice-SEO dann wirklich kommt und in welcher Form. Seine Inhalte schon jetzt auf natürliche Sprache anzupassen, kann daher keineswegs schaden. Den Versprechen übereifriger Agenturen hingegen sollte man aber noch nicht allzu viel Glauben schenken.

Können Unternehmen schon jetzt via Alexa & Co. verkaufen? Abgesehen von Amazon selbst natürlich.

Jein! In den USA geht das bereits und auch hier bei uns rollt z.B. Google gerade Google Pay aus: Das schafft die Voraussetzung, um dann über Google Express mit seinem Google Assistant einkaufen zu können. Auch Amazon führt aktuell „In-Skill-Payments“ ein, damit Unternehmen mit Alexa über Amazon Pay kassieren können. Es dauert also alles noch ein wenig bis zur Vollkommenheit hier bei uns, ist aber definitiv in der Mache.

Wie aufwendig und kostenintensiv ist es, einen Sprach-Skill zu programmieren?

Was kostet ein Auto? Es kommt wie so oft auf den Fall an. Einfache Rein-Raus-Skills und -Actions, die kein großartiges Dialogmodell erfordern, sind durchaus auch mit kleinen Budgets umsetzbar. Das Ganze angereichert um Frage-Antwort-Features oder Steuerfunktionen und schon sieht es etwas anders aus. Je mehr Intelligenz und Dialog gefragt ist, um so komplexer der Skill bzw. die Action – und umso höher die Kosten. Und neben der Programmierung gibt es ja auch bei Sprachassistenten Rechte zu klären, Inhalte zu gestalten und vieles mehr – wie in fast jedem Medienprojekt! So gesehen ist von niedrig vierstellig bis höher sechsstellig eigentlich alles drin. Aktuell dürften die meisten Budgets irgendwo zwischen 1500 und 150.000 Euro liegen.

Für welche Unternehmen lohnt sich ein Voice-First-Engagement?

Eigentlich für jedes, das vorausschauend plant. Denn das Thema ist im Markt bisher noch nicht wirklich angekommen und will verstanden werden, bevor es dann wirklich ans Budget geht. Leider ist es aber häufig noch so, dass viele Unternehmen zwar schon von Digitalisierung & Co. gehört haben, sich aber weiterhin auf ihren alten Semmeln ausruhen. Ein Thema wie Voice First bzw. Smart Voice ist dann natürlich noch weiter zurückgesetzt.

Wie wirkst Du dem entgegen?

Wir von Internet of Voice verstehen uns als Ideenfabrik für Digitale Assistenz, mit der Mission den Markt zu öffnen und zu gestalten. Ein großer Schritt in diese Richtung ist die von uns veranstaltete Smart Voice Conference am 13. November in Köln. Dieses Event soll helfen, Unternehmen und Marken den Weg zum Digitalen Sprachassistenten zu ebenen.

Digitale Sprachassistenten und Content Marketing: Robert C. Mendez von Internet of Voice im Interview mit Airmotion Media

Was genau können und sollen die Unternehmen dort erfahren?

Digitale Sprachassistenten bringen viele gute Eigenschaften mit. Um davon zu profitieren, müssen sich die Unternehmen jedoch von alten, mühsam erlernten Gewohnheiten lösen – beispielsweise von der Tastatur und in einigen Punkten auch vom Bildschirm. Gerade dieses „Loslassen der Vergangenheit“ fällt ja deutschen Unternehmen oft unsagbar schwer. Doch Sprachassistenten werden sich ab einem gewissen Punkt in der grade stattfindenden Entwicklung an manchen Stellen sehr schnell durchsetzen. Und da besteht natürlich die Gefahr, dass ein Unternehmen den Anschluss verliert. Erst recht, wenn es mit seinem Geschäftsmodell sehr stark am Bildschirm klebt.
Wir sind davon überzeugt, dass sich die Auseinandersetzung mit Digitalen Sprachassistenten für Unternehmen und Marken lohnt. Es ist definitiv eine Investition in die Zukunft bzw. in einen Bereich, der ja eigentlich auch schon da ist. Dies möchten wir auf der Smart Voice Conference (und gern darüber hinaus) vermitteln und zu verstehen geben.

Was sind die besonderen Herausforderungen im „Content Marketing via Sprache“?

Niemand schreibt wie er spricht. Entsprechend muss der Content umgeformt werden. Voice First muss der Ausgangpunkt für die Kommunikation mit dem Nutzer sein. Mit anderen Worten: Alle Inhalte, die bisher auf den Bildschirm ausgerichtet wurden, auch Chatbots, gehören auf die gesprochene Sprache umgestellt, um Voice First zu werden.
 

Heißt das, der Bildschirm geht verloren?

Nein. Es bedeutet, dass der „Grad der Nutzung“ von gesprochener Sprache im entsprechenden Anwendungsfall gefunden und eingestellt werden muss. Genau dies ist die Herausforderung, besonders für das Marketing. Das Marketing muss sich auch darauf einstellen, dass ein persönlicher Sprachassistent auch eine Gatekeeper-Funktion hat. Eine starke Personalisierung findet statt. In der Folge wird aus einer Zielgruppe nun eine Zielperson oder sogar die „Zielmaschine“ – der persönliche Sprachassistent.

Das klingt ganz schön abstrakt. Auf was muss sich ein Content Marketer in der Praxis gefasst machen?

Sprache ist emotionaler ist als jedes Bild. Daher gilt es, der Marke einen Klang zu geben – ein „Voice Brand“. Wie klingt also zum Beispiel eine Marke für Werkzeuge? Oder eine für Unterwäsche? Da dürften in nächster Zeit tolle, peinliche aber auch schlimme Dinge ihren Weg zum Empfänger finden…

Was schlägst Du demnach vor?

In jedem Fall sind herkömmliche, massentaugliche Holzhammermethoden und Werbemittel ungeeignet für ein Dialogmodell, wie es der Digitale Sprachassistent vorsieht. Natürliche Dialoge gehören fein gestaltet, es braucht daher auch feinstes Content Marketing dafür. Der Beruf des Linguisten dürfte durch Sprachassistenten definitiv eine Aufwertung erhalten – neben dem Web-Designer wird es sicher bald einen „Voice-Designer“ geben.
Machen wir uns aber nichts vor: Das (Content) Marketing steht in punkto Sprachassistent vor einer steilen Lernkurve. Und wenn es sich so mancher Marketer in seinen Sessel über die letzten Jahre recht bequem gemacht hatte, wird er aufspringen und arbeiten müssen, um nicht das Nachsehen zu haben. Alleine die Tatsache, dass der Bildschirm einige Anteile an die Sprache abgeben muss, dürfte so einige Einnahmenquellen und Vermarktungsprozesse auf die Probe stellen.

Der Zugang über die Sprache ist ja sehr persönlich: Glaubst Du, dass man via Smart Voice wirklich Werbung im Wohnzimmer machen kann?

Ja! Es gibt schon zig erfolgreiche Anwendungsfälle. Je nach individueller Lebenssituation sieht jeder natürlich anders aus. Allen gemein ist der getroffene „Punkt der Erfüllung“: Die eine optimale Information, die der Sprachassistent an seinen Nutzer weitergibt und die in ein Dialogmodell passt, ohne zu stören. Diesen Punkt der Erfüllung möglichst immer zu treffen, muss das Ziel sein. Wichtig ist auch, den Digitalen Sprachassistenten nicht als Kanal, Mediaplattform oder Gatekeeper zu sehen, sondern als (virtuelle) Person. Er ist der beste Freund oder eben der Assistent seines Nutzers.

Und wie gewinnt dieser Assistent das Vertrauen seines Nutzers?

Störformate wie zum Beispiel Jingles, Pre- oder Postroles passen nur noch selten. Tipps, Fragen und Antworten und eben persönliche Dialoge, sind die beste Herangehensweise, um den Empfänger zu erreichen. Je intelligenter und natürlicher der Sprachassistent beim Nutzer ankommt, umso größer wird das Vertrauen des Nutzers in ihn sein und umso einfacher wird es für das Marketing, Informationen an- bzw. unterzubringen. Diese müssen entsprechend natürlich formuliert sein und wirken.

Mit welchen Akzeptanzproblemen hat das Medium noch zu kämpfen?

Mit den Gleichen wie alle Medien, die sich erst durchsetzen mussten. Natürlich wird durch die Angstmache der Medien besonders auf den Datenschutz geschaut. Dabei braucht der Sprachassistent aber eigentlich keine andere Pflege als andere Medien auch. Dort wo gesprochen wird, gibt es natürlich etwas andere Ansprüche an den Datenschutz – genauso wie beim Telefon oder einer Videokonferenz aber auch. Ein echtes Akzeptanzproblem haben Sprachassistenten eher weniger, da die Mehrheit der Leute gadgetverrückt ist und immer das neueste „Zeug“ haben will, egal ob man es braucht oder nicht.

Und die Trauer darüber, künftig mehr sprechen und weniger tippen zu müssen, dürfte sich bei vielen in Grenzen halten.

Genau, besonders Menschen mit bestimmten Einschränkungen wissen Sprachassistenten hoch zu schätzen. Man erreicht nun auch die Personen, für die Bildschirm und Tastatur bisher eher eine Hürde bei der Nutzung von Medien darstellten. Diese Barrierefreiheit, die die Nutzung der natürlichen Sprache bietet, erhöht die Akzeptanz zusätzlich.
Wenn es also bei der Akzeptanz hapert, dann wohl am ehesten, weil man den Sprachassistenten bisher zu wenig verstanden hat. Und genau aus diesem Grund machen wir ja unsere Konferenz am 13. November in Köln und halten wo nur möglich Vorträge und Workshops ab. Bisher fahren wir mit dieser Strategie richtig.

Wir bedanken uns vielmals für das Interview!

 
Lesetipp: Was wären Alexa und Co. ohne sinnvolle Inhalte? Wie denken Content-Profis über das neue Medium digitale Sprachassistenten? Airmotion-Media-CEO Tobias Lobe stand Herrn Mendez via „Smart Voice Interview“ Rede und Antwort. Hier geht es zum Video