„Co tam słychać w wielkim świecie?” – pytamy tak zwyczajowo kogoś, kto wrócił z podróży, lub pracuje na tzw. „stanowisku”. Od niedawna podobne pytanie możemy zadać gadającej maszynie we własnym domu. A ona nam wszystko powie. Czy przyszłość mediów to interaktywne, reagujące na nasze potrzeby i polecenia, inteligentne radio?

   Nie widzimy tego jeszcze za bardzo w Polsce, nie tylko z powodu zapóźnień technicznych, ale również dlatego, że systemy rozpoznawania mowy i generowania jej przez sztuczną inteligencję, nie są jeszcze dla języka polskiego tak dobrze rozwinięte jak dla angielszczyzny i kilku innych języków. Za oceanem urządzenia takie jak głośniki Echo oparte na systemie Alexa Amazona, Google Home i Apple HomePod masowo wchodzą do gospodarstw domowych. Zajmują miejsce obok AGD, telewizorów i sprzętu grającego, bardzo często jako centra sterowania tymi wszystkimi urządzeniami. Coraz częściej też służą użytkownikom jako przekaźniki informacji, czy to o pogodzie, czy notowaniach giełdowych, o wydarzeniach w najbliższej okolicy i na szerokim świecie.

   Przyporządkowując inteligentne głośniki, a raczej asystentów głosowych, bo tym co ważne jest system oparty na uczeniu maszynowym, a nie sam sprzęt, do klasyfikacji Marshalla McLuhana, trzeba by Alexę czy Google Assistanta zaliczyć do „mediów gorących”, podobnie jak radio. W sensie technicznym dla materiałów medialnych, rozwiązanie to przypomina spersonalizowany internetowy agregator treści, oparty jednak nie na tradycyjnym interfejsie komputerowym, ekranie, klawiaturze, wyświetlaczu dotykowym, lecz na komunikacji głosowej. Interfejs głosowy uważany jest zresztą za przyszłość wszelkiej naszej interakcji z maszynami.

   Scenariusz, jaki możemy sobie wyobrazić, to wykorzystanie sztucznej inteligencji oraz interfejsu głosowego do przeprowadzenia tradycyjnego przeglądu prasy i najnowszych doniesień. Możemy np. do asystenta cyfrowego zwrócić się mniej więcej tak: „Słyszałem, że dziś było trzęsienie ziemi. Czy możesz mi o tym więcej opowiedzieć?”. W odpowiedzi urządzenie samo przeszukuje serwisy informacyjne, czyta najważniejsze i najnowsze doniesienia na ten temat, zaprasza do komputera/telewizora/smartfony w celu wyświetlenia zebranych relacji filmowych i zdjęć.

Długo oczekiwana rewolucja

   Koncept głosowego interfejsu użytkownika (VUI- voice user interface) jest znany od dziesięcioleci. Każdy, kto wiele lat temu oglądał „Star Trek” lub „2001: Odyseja Kosmiczna” spodziewał się zapewne, że około roku 2000 wszyscy będziemy kontrolować komputery za pomocą głosu. Zresztą nie tylko autorzy s-f dostrzegali potencjał tego typu interfejsów. W 1986 roku badacze Nielsena zapytali specjalistów z branży IT jaka ich zdaniem będzie największa zmiana w interfejsach użytkownika do roku 2000. Najczęściej wskazywali oni właśnie na rozwój głosowych interfejsów. Nadzieje pokładane w tego typu rozwiązaniach mają swoją przyczynę. Komunikacja werbalna jest przecież najbardziej naturalnym sposobem świadomej komunikacji między ludźmi, więc wykorzystanie tego sposobu do interakcji człowiek-maszyna wydaje się być równie naturalnym rozwiązaniem.

   Jeden z pierwszych VUI, o nazwie Shoebox, został stworzony już na początku lat 60. przez IBM. Był prekursorem dzisiejszych systemów rozpoznawania głosu. Dalszy rozwój systemów VUI był ograniczony mocą obliczeniową. Rozbijanie i interpretowanie mowy ludzkiej w czasie rzeczywistym wymaga dużej mocy obliczeniowej, a dotarcie do punktu, w którym było to możliwe, zajęło ponad 50 lat.

   Masowo produkowane urządzenia z interfejsem głosowym zaczęły pojawiać się już w połowie lat 90., ale wielkiej popularności wówczas nie zdobyły. Obecnie wkraczamy w nową erę komputerów, gdy postępy w uczeni maszynowym i sztucznej inteligencji stwarzają potencjał do rozmowy jako nowy sposób interakcji z technologią. Kolejnym ważnym czynnikiem, który miał duży wpływ na rozwój VUI jest liczba urządzeń, które obsługują interakcję głosową. Obecnie połowa światowej populacji posiada smartfony, które mogą być wykorzystywane do interakcji głosowej, i, jak się zdaje, większość użytkowników jest gotowa zaadoptować interfejsy głosowe.

   Nową jakością ostatnich lat jest przede wszystkich znaczny, oparty na nauce maszynowej, postęp w rozwoju rozpoznawana naturalnego mówionego języka i syntezowaniu równie naturalnych odpowiedzi. Poza tym od kilku lat ogromnie rozwinęły się systemy internetu rzeczy, co sprawia, że inteligentny i połączony z siecią może być każdy sprzęt domowy, od telewizora, przez włącznika światła, po pralki i lodówki.

Najlepsze własne umiejętności

   Dla mediów w tradycyjnym rozumieniu, radzących sobie w epoce internetu ze zmiennym powodzeniem, głos może być nową szansą, obiecującym kanałem komunikacji z odbiorcami poszukującymi wartościowych i przydatnych informacji na żądanie. Nad rozwojem odpowiednich funkcji asystentów głosowych, zwanych np. w Alexa „umiejętnościami” (ang. „skills”) pracują już od pewnego czasu znane firmy medialne, np. BBC, „Washington Post” i amerykańskie radio publiczne.

   Termin „umiejętności” wywodzi się z platformy Alexa Amazona. Na platformie Google’a, odpowiednikiem umiejętności są „działaniami” (ang. „action”). Z punktu widzenia mediów w obu przypadkach chodzi o zbudowanie metod interakcji użytkowników z treściami przez nie oferowanymi.

   Trzeba rozumieć, że owe „umiejętności” występują w dwu zasadniczych odmianach. Pierwsza nich są funkcje związane z marką producenta treści. Dobrym przykładem może być tutaj „Wall Street Journal”, który stworzył na platformach głosowych  umiejętność zwaną „The Wall Street Journal What's News”. Można by to uznać za odpowiednik strony internetowej gazety w internecie głosowym. Drugim typem umiejętności i znacznie większym wyzwaniem dla mediów, są umiejętności ogólne. Opanowanie ich pozwala środkom przekazu odnaleźć się w odpowiedziach na takie pytania zadawane głośnikom jak np.: „Alexa, podaj mi najnowsze newsy giełdowe,” lub „Alexa , powiedz proszę, co tam nowego w świecie technologii”. Podczas, gdy pierwszy typ przypominał tworzenie własnej strony, drugi kojarzy się silnie z pozycjonowaniem treści w internecie, tym razem dźwiękowym.

   Jedną z opcji dla mediów stawiających w tym świecie pierwsze kroki jest wykorzystanie umiejętności już istniejących. Mogą wykorzystać gotowe narzędzie agregujące, czyli umiejętność o nazwie „Alexa Flash Briefing”. Trzeba jednak pamiętać, że to usługa pod kontrolą właściciela platformy. Podobnie, jak zawsze mediach cyfrowych, najlepiej jest rozwijać własne kompetencje i „umiejętności.”

Nowa szansa dla mediów

   Przeprowadzone połowie 2018 r. badanie Adobe Analytics wykazało, że inteligentne głośniki zagościły już w 32 proc. amerykańskich gospodarstw domowych, przy czym z sondaży wynika, iż większość z nich używa ich codziennie. Forrester Research prognozuje (marzec 2018 r.), że do  2022 r będzie je miała połowa amerykańskich gospodarstw domowych. Jak szacuje z kolei firma Gartner, do końca 2018 r. 30 proc. naszych interakcji z technologią będzie odbywać się w drodze rozmów z systemami opartymi na głosie. Brytyjska firma badawcza IHS Markit oblicza, że pod koniec tego roku globalna liczba asystentów cyfrowych opartych na AI na rynku sięgnie czterech miliardów, a liczba ta może wzrosnąć do 7 miliardów w 2020 roku.

   Wyniki badań bardziej szczegółowych brzmią obiecująco dla mediów. Według raportu Edison Research dla NPR (amerykański publiczny nadawca radiowy), 77 proc. konsumentów uważa, że wiadomości są ważnym powodem do posiadania inteligentnego głośnik w domu, zaś co trzeci badany słuchał informacyjnych serwisów przekazywanych przez asystentów głosowych. Jeszcze inne badanie przeprowadzone przez Uniwersytet Oksfordzki w USA, Wielkiej Brytanii, w Niemczech i w Korei, pokazuje, że 43 proc. posiadaczy korzystało ze swoich inteligentnych głośników, w celu „uzyskania dostępu do najnowszych wiadomości”.

   Komentując te wyniki, Greg Sterling, redaktor naczelny serwisu Search Engine Land, napisał, że urządzenia tego typu pozwalają po prostu na większy komfort w korzystaniu z oferty mediów, rozrywki, muzyki, Netflixa itp. „Wiele dostawców informacji, którzy stracili czytelników w erze cyfrowej, może widzieć nową technologię jako okazję” - pisze Sterling. Zdaniem Ricka Edmondsa, analityka z Instytutu Poyntera, choć trudno liczyć na szybkie efekty biznesowe, to jednak trudno nie dostrzec, że pojawia się nowy „sposób na zdobywanie większej rzeszy odbiorców.”

   I niektórzy rzeczywiście te okazję dobrze dostrzegli. Nie dziwi przykład „Washington Post”, którego właścicielem jest założyciel Amazona Jeff Bezos, i to, że newsy i inne treści tworzone przez dziennik dostępne są na urządzeniach Alexa, choć również w HomePod firmy Apple. W USA staje się to coraz powszechniej wykorzystywany kanał dystrybucji treści. Wspomniane amerykańskie radio publiczne, część tamtejszych gazet lokalnych, ale także „New York Times” i CNN, tworzą na potrzeby systemów głosowych krótkie „briefingi” audio.

   Przygotowanie serwisów informacyjnych audio to pierwszy krok. Warto pamiętać, że inteligentne głośniki to nie odbiorniki radowe lecz urządzenia zaprojektowane na interaktywność i komunikację w obie strony. Niektórzy próbują z tym eksperymentować. Jeden z eksperymentów była zrealizowana przez BBC na platformy Alexa Amazona i Google Home pod koniec 2017 roku, 20-minutowa produkcja nazwana „interaktywną komedią science fiction”, pt. „The Inspection Chamber”. Słuchacz mógł przez swój głośnik włączyć się do akcji i „odegrać w niej swoją rolę.” Podobne interaktywne „doświadczenie” audio dla użytkowników cyfrowych asystentów przygotował również Netflix, w ramach promocji serialu „Zagubieni w kosmosie.”

   Zaproponowany kilka tygodni temu przez BBC  projekt pt. „Rozmowy z maszynami” można by uznać wręcz za wprowadzenie nowego gatunku medialnego. Nazwana „audio-dramatem” forma pozwala słuchaczom audycji przyłączyć się i prowadzić dwukierunkową rozmowę za pośrednictwem inteligentnego głośnika. Słuchacz staje się częścią programu, ponieważ interaktywny charakter urządzenia, np. Amazon Echo lub Google Home skłania go do odpowiadania na pytania i wstawiania własnych wypowiedzi do scenariusza. Można to porównać do prowadzenia dyskusji na otwartym dla wszystkich forum społecznościowymi, nie za pomocą wpisywanych komentarzy, lecz treści głosowych.

Wielka czwórca zmonopolizuje?

   Są i wątpliwości co do tego inteligentnego i interaktywnego „radia”. Z jednej strony rodzą się pytania o wiarygodność dostarczanych tą drogą informacji, czyli kwestia wiarygodności źródeł informacji. Z drugiej, na co wielu komentatorów zwraca uwagę, platformy głosowe to kolejny obszar dominacji technologicznej  „wielkiej czwórcy” – Google, Amazona, Facebooka i Apple (GAFA). To te firmy a nie kto inny, będą gatekeeperami dostępu do jeszcze nowszych mediów. Mogą korzystać z bezcennych danych, które przekazujemy systemowi, nawiązując z nim konwersacje a, zdaniem niektórych, nie cofną się przed podsłuchiwaniem naszego prywatnego życia domowego.

   Być może sposobem na dominację czwórcy GAFA jest propozycja IBM, który wprowadził w marcu 2018 r. na rynek nową usługę Watson Assistant, przeznaczoną dla firm, które chcą same budować wirtualne systemy asystenckie aktywowane głosowo.  Na czym miałaby polegać przewaga rozwiązania IBM? Jak twierdzą przedstawiciele firmy, przede wszystkim na daleko większych możliwościach personalizacji i ochronie prywatności. Po pierwsze, Watson Assistant nie ma żadnego narzuconego znaku towarowego. Firmy mogą tworzyć własne rozwiązania na tej platformie i oznaczać je swoją marką. Po drugie, mogą szkolić swoje systemy asystenckie używając własnych zestawów danych, a IBM twierdzi, że łatwiej jest w jego systemie dodawać funkcje i polecenia niż w innych technologiach VUI. Po trzecie, Watson Assistant nie przekazuje IBM informacji na temat aktywności użytkowników – twórcy rozwiązań na platformie mogą zachować cenne dane tylko dla siebie.

   Media oparte na interfejsie głosowym należą, jak już była o tym mowa, do „gorących”. Poza tym przekaz głosowy ma pewne specyficzne cechy, na które zwracają uwagę niektórzy badacze. „Przekaz głosowy w tych rozwiązaniach jest wzorowany na modelu zaufania, czymś w rodzaju kolegi, partnera, kogoś bliskiego” - ostrzega Judith Donath, badaczka z Berkman Klein Center na Uniwersytecie Harwardzkim, która zapowiada wydanie książki o tej technologii, zaufaniu i oszustwie. Jej zdaniem można sobie wyobrazić, że głosy generowane komputerowo mogą nieść ze sobą te tony i barwy emocjonalne, których odbiorcy szczególnie oczekują, wkradając się w ich sferę najgłębszego zaufania.

   Ludzie radia nazywają radiowców, którzy za pomocą głosu, tonacji, sposobu mówienia, potrafią niezwykle silnie emocjonalnie angażować słuchaczy – „szamanami eteru”. Pani Donath chce nam powiedzieć, że w miarę rozwoju technologii i postępów uczenia maszynowego powstać może narzędzie o sile oddziaływania podobnej do najlepszych magów radia. W każdym razie poziom zaufania i emocjonalnego zaangażowania będzie nieporównywalny z tekstami drukowanymi na papierze czy wyświetlanymi na ekranie komputera lub smartfona.

   Z drugiej strony – nie potrzeba maszyny. Również obdarzony podobnymi talentami człowiek może wykorzystać swoją umiejętność zdobywania zaufania i pozyskiwania ludzi do złych celów, kłamać i manipulować. Nie róbmy więc demona z narzędzia.

Mirosław Usidus

Udostępnij
Komentarze
Disqus

Jest to archiwalna wersja portalu. Nowa wersja portalu SDP.pl, dostępna pod adresem: https://sdp.pl