Mirosław Usidus

Redaktor naczelny miesięcznika m.technik ("Młody Technik"). Dziennikarz i przedsiębiorca. Weteran Internetu. Współtwórca „Rzeczpospolitej" Online, portalu TVP, i wielu innych serwisów internetowych. Jako partner, mentor i szkoleniowiec pomaga ludziom, organizacjom i firmom, ulepszać komunikację w nowych mediach

Polski proces przeciw Facebookowi w globalnym kontekście – analizuje Mirosław Usidus

Napisano dnia 15.06.2019 00:28

Miejmy nadzieję, że rozstrzygnięcia sądu w sprawie Świrski vs. Facebook też będą miały pionierski i precedensowy charakter, wytyczając relację wewnętrznych regulaminów i praktyk stosowanych przez portale społecznościowe do obowiązujących przepisów krajowych....

Dziennikarze w internetowych sądach pokoju – Mirosław Usidus o tym jak można by pilnować przestrzegania prawa w sieci

Napisano dnia 04.06.2019 00:22

Wolne sądy. Zdecydowanie zbyt wolne dla szybkiego Internetu....

„Rzepa” – gazeta, która pokonała się sama – osobista analiza Mirosława Usidusa.

Napisano dnia 17.05.2019 00:00

„Zwijanie się” „Rzeczpospolitej” symbolicznie obrazowała zawartość bożonarodzeniowej paczki, którą otrzymywał każdy pracownik. W latach 1996 - 1999 był w niej olbrzymi indyk, dwie butelki niezłego wina, kawał doskonałego łososia i słodycze....

Spotify dla mediów – o szansach sprzedaży treści dziennikarskich w Internecie pisze Mirosław Usidus

Napisano dnia 02.05.2019 18:57

Serwis muzyczny Spotify podał kilka dni temu, że ma sto milionów płacących (!) użytkowników. Właścicieli informacyjnych serwisów od lat czekających na profity z „paywalli” i prenumerat cyfrowych, ogarnia zapewne zazdrość....

Co zrobić z internetowymi monopolistami? – zastanawia się Mirosław Usidus

Napisano dnia 23.04.2019 00:00

Nie należy obawiać się upaństwowienia platform internetowych, jeśli dotyczy to wyłącznie podmiotów o charakterze monopolistycznym. W logice systemu demokratycznego lepiej, aby monopolistyczne usługi były pod nadzorem władz wyłonionych w wolnych wyborach, niż Marka Zuckerberga czy Jeffa Bezosa, których nikt demokratycznie nie wybrał....

Magia głosu maszyny - Mirosław Usidus o interaktywnych mediach przyszłości.

Napisano 27.09.2018 06:34

„Co tam słychać w wielkim świecie?” – pytamy tak zwyczajowo kogoś, kto wrócił z podróży, lub pracuje na tzw. „stanowisku”. Od niedawna podobne pytanie możemy zadać gadającej maszynie we własnym domu. A ona nam wszystko powie. Czy przyszłość mediów to interaktywne, reagujące na nasze potrzeby i polecenia, inteligentne radio?

Nie widzimy tego jeszcze za bardzo w Polsce, nie tylko z powodu zapóźnień technicznych, ale również dlatego, że systemy rozpoznawania mowy i generowania jej przez sztuczną inteligencję, nie są jeszcze dla języka polskiego tak dobrze rozwinięte jak dla angielszczyzny i kilku innych języków. Za oceanem urządzenia takie jak głośniki Echo oparte na systemie Alexa Amazona, Google Home i Apple HomePod masowo wchodzą do gospodarstw domowych. Zajmują miejsce obok AGD, telewizorów i sprzętu grającego, bardzo często jako centra sterowania tymi wszystkimi urządzeniami. Coraz częściej też służą użytkownikom jako przekaźniki informacji, czy to o pogodzie, czy notowaniach giełdowych, o wydarzeniach w najbliższej okolicy i na szerokim świecie.

Przyporządkowując inteligentne głośniki, a raczej asystentów głosowych, bo tym co ważne jest system oparty na uczeniu maszynowym, a nie sam sprzęt, do klasyfikacji Marshalla McLuhana, trzeba by Alexę czy Google Assistanta zaliczyć do „mediów gorących”, podobnie jak radio. W sensie technicznym dla materiałów medialnych, rozwiązanie to przypomina spersonalizowany internetowy agregator treści, oparty jednak nie na tradycyjnym interfejsie komputerowym, ekranie, klawiaturze, wyświetlaczu dotykowym, lecz na komunikacji głosowej. Interfejs głosowy uważany jest zresztą za przyszłość wszelkiej naszej interakcji z maszynami.

Scenariusz, jaki możemy sobie wyobrazić, to wykorzystanie sztucznej inteligencji oraz interfejsu głosowego do przeprowadzenia tradycyjnego przeglądu prasy i najnowszych doniesień. Możemy np. do asystenta cyfrowego zwrócić się mniej więcej tak: „Słyszałem, że dziś było trzęsienie ziemi. Czy możesz mi o tym więcej opowiedzieć?”. W odpowiedzi urządzenie samo przeszukuje serwisy informacyjne, czyta najważniejsze i najnowsze doniesienia na ten temat, zaprasza do komputera/telewizora/smartfony w celu wyświetlenia zebranych relacji filmowych i zdjęć.

Długo oczekiwana rewolucja

Koncept głosowego interfejsu użytkownika (VUI- voice user interface) jest znany od dziesięcioleci. Każdy, kto wiele lat temu oglądał „Star Trek” lub „2001: Odyseja Kosmiczna” spodziewał się zapewne, że około roku 2000 wszyscy będziemy kontrolować komputery za pomocą głosu. Zresztą nie tylko autorzy s-f dostrzegali potencjał tego typu interfejsów. W 1986 roku badacze Nielsena zapytali specjalistów z branży IT jaka ich zdaniem będzie największa zmiana w interfejsach użytkownika do roku 2000. Najczęściej wskazywali oni właśnie na rozwój głosowych interfejsów. Nadzieje pokładane w tego typu rozwiązaniach mają swoją przyczynę. Komunikacja werbalna jest przecież najbardziej naturalnym sposobem świadomej komunikacji między ludźmi, więc wykorzystanie tego sposobu do interakcji człowiek-maszyna wydaje się być równie naturalnym rozwiązaniem.

Jeden z pierwszych VUI, o nazwie Shoebox, został stworzony już na początku lat 60. przez IBM. Był prekursorem dzisiejszych systemów rozpoznawania głosu. Dalszy rozwój systemów VUI był ograniczony mocą obliczeniową. Rozbijanie i interpretowanie mowy ludzkiej w czasie rzeczywistym wymaga dużej mocy obliczeniowej, a dotarcie do punktu, w którym było to możliwe, zajęło ponad 50 lat.

Masowo produkowane urządzenia z interfejsem głosowym zaczęły pojawiać się już w połowie lat 90., ale wielkiej popularności wówczas nie zdobyły. Obecnie wkraczamy w nową erę komputerów, gdy postępy w uczeni maszynowym i sztucznej inteligencji stwarzają potencjał do rozmowy jako nowy sposób interakcji z technologią. Kolejnym ważnym czynnikiem, który miał duży wpływ na rozwój VUI jest liczba urządzeń, które obsługują interakcję głosową. Obecnie połowa światowej populacji posiada smartfony, które mogą być wykorzystywane do interakcji głosowej, i, jak się zdaje, większość użytkowników jest gotowa zaadoptować interfejsy głosowe.

Nową jakością ostatnich lat jest przede wszystkich znaczny, oparty na nauce maszynowej, postęp w rozwoju rozpoznawana naturalnego mówionego języka i syntezowaniu równie naturalnych odpowiedzi. Poza tym od kilku lat ogromnie rozwinęły się systemy internetu rzeczy, co sprawia, że inteligentny i połączony z siecią może być każdy sprzęt domowy, od telewizora, przez włącznika światła, po pralki i lodówki.

Najlepsze własne umiejętności

Dla mediów w tradycyjnym rozumieniu, radzących sobie w epoce internetu ze zmiennym powodzeniem, głos może być nową szansą, obiecującym kanałem komunikacji z odbiorcami poszukującymi wartościowych i przydatnych informacji na żądanie. Nad rozwojem odpowiednich funkcji asystentów głosowych, zwanych np. w Alexa „umiejętnościami” (ang. „skills”) pracują już od pewnego czasu znane firmy medialne, np. BBC, „Washington Post” i amerykańskie radio publiczne.

Termin „umiejętności” wywodzi się z platformy Alexa Amazona. Na platformie Google’a, odpowiednikiem umiejętności są „działaniami” (ang. „action”). Z punktu widzenia mediów w obu przypadkach chodzi o zbudowanie metod interakcji użytkowników z treściami przez nie oferowanymi.

Trzeba rozumieć, że owe „umiejętności” występują w dwu zasadniczych odmianach. Pierwsza nich są funkcje związane z marką producenta treści. Dobrym przykładem może być tutaj „Wall Street Journal”, który stworzył na platformach głosowych umiejętność zwaną „The Wall Street Journal What's News”. Można by to uznać za odpowiednik strony internetowej gazety w internecie głosowym. Drugim typem umiejętności i znacznie większym wyzwaniem dla mediów, są umiejętności ogólne. Opanowanie ich pozwala środkom przekazu odnaleźć się w odpowiedziach na takie pytania zadawane głośnikom jak np.: „Alexa, podaj mi najnowsze newsy giełdowe,” lub „Alexa , powiedz proszę, co tam nowego w świecie technologii”. Podczas, gdy pierwszy typ przypominał tworzenie własnej strony, drugi kojarzy się silnie z pozycjonowaniem treści w internecie, tym razem dźwiękowym.

Jedną z opcji dla mediów stawiających w tym świecie pierwsze kroki jest wykorzystanie umiejętności już istniejących. Mogą wykorzystać gotowe narzędzie agregujące, czyli umiejętność o nazwie „Alexa Flash Briefing”. Trzeba jednak pamiętać, że to usługa pod kontrolą właściciela platformy. Podobnie, jak zawsze mediach cyfrowych, najlepiej jest rozwijać własne kompetencje i „umiejętności.”

Nowa szansa dla mediów

Przeprowadzone połowie 2018 r. badanie Adobe Analytics wykazało, że inteligentne głośniki zagościły już w 32 proc. amerykańskich gospodarstw domowych, przy czym z sondaży wynika, iż większość z nich używa ich codziennie. Forrester Research prognozuje (marzec 2018 r.), że do 2022 r będzie je miała połowa amerykańskich gospodarstw domowych. Jak szacuje z kolei firma Gartner, do końca 2018 r. 30 proc. naszych interakcji z technologią będzie odbywać się w drodze rozmów z systemami opartymi na głosie. Brytyjska firma badawcza IHS Markit oblicza, że pod koniec tego roku globalna liczba asystentów cyfrowych opartych na AI na rynku sięgnie czterech miliardów, a liczba ta może wzrosnąć do 7 miliardów w 2020 roku.

Wyniki badań bardziej szczegółowych brzmią obiecująco dla mediów. Według raportu Edison Research dla NPR (amerykański publiczny nadawca radiowy), 77 proc. konsumentów uważa, że wiadomości są ważnym powodem do posiadania inteligentnego głośnik w domu, zaś co trzeci badany słuchał informacyjnych serwisów przekazywanych przez asystentów głosowych. Jeszcze inne badanie przeprowadzone przez Uniwersytet Oksfordzki w USA, Wielkiej Brytanii, w Niemczech i w Korei, pokazuje, że 43 proc. posiadaczy korzystało ze swoich inteligentnych głośników, w celu „uzyskania dostępu do najnowszych wiadomości”.

Komentując te wyniki, Greg Sterling, redaktor naczelny serwisu Search Engine Land, napisał, że urządzenia tego typu pozwalają po prostu na większy komfort w korzystaniu z oferty mediów, rozrywki, muzyki, Netflixa itp. „Wiele dostawców informacji, którzy stracili czytelników w erze cyfrowej, może widzieć nową technologię jako okazję” - pisze Sterling. Zdaniem Ricka Edmondsa, analityka z Instytutu Poyntera, choć trudno liczyć na szybkie efekty biznesowe, to jednak trudno nie dostrzec, że pojawia się nowy „sposób na zdobywanie większej rzeszy odbiorców.”

I niektórzy rzeczywiście te okazję dobrze dostrzegli. Nie dziwi przykład „Washington Post”, którego właścicielem jest założyciel Amazona Jeff Bezos, i to, że newsy i inne treści tworzone przez dziennik dostępne są na urządzeniach Alexa, choć również w HomePod firmy Apple. W USA staje się to coraz powszechniej wykorzystywany kanał dystrybucji treści. Wspomniane amerykańskie radio publiczne, część tamtejszych gazet lokalnych, ale także „New York Times” i CNN, tworzą na potrzeby systemów głosowych krótkie „briefingi” audio.

Przygotowanie serwisów informacyjnych audio to pierwszy krok. Warto pamiętać, że inteligentne głośniki to nie odbiorniki radowe lecz urządzenia zaprojektowane na interaktywność i komunikację w obie strony. Niektórzy próbują z tym eksperymentować. Jeden z eksperymentów była zrealizowana przez BBC na platformy Alexa Amazona i Google Home pod koniec 2017 roku, 20-minutowa produkcja nazwana „interaktywną komedią science fiction”, pt. „The Inspection Chamber”. Słuchacz mógł przez swój głośnik włączyć się do akcji i „odegrać w niej swoją rolę.” Podobne interaktywne „doświadczenie” audio dla użytkowników cyfrowych asystentów przygotował również Netflix, w ramach promocji serialu „Zagubieni w kosmosie.”

Zaproponowany kilka tygodni temu przez BBC projekt pt. „Rozmowy z maszynami” można by uznać wręcz za wprowadzenie nowego gatunku medialnego. Nazwana „audio-dramatem” forma pozwala słuchaczom audycji przyłączyć się i prowadzić dwukierunkową rozmowę za pośrednictwem inteligentnego głośnika. Słuchacz staje się częścią programu, ponieważ interaktywny charakter urządzenia, np. Amazon Echo lub Google Home skłania go do odpowiadania na pytania i wstawiania własnych wypowiedzi do scenariusza. Można to porównać do prowadzenia dyskusji na otwartym dla wszystkich forum społecznościowymi, nie za pomocą wpisywanych komentarzy, lecz treści głosowych.

Wielka czwórca zmonopolizuje?

Są i wątpliwości co do tego inteligentnego i interaktywnego „radia”. Z jednej strony rodzą się pytania o wiarygodność dostarczanych tą drogą informacji, czyli kwestia wiarygodności źródeł informacji. Z drugiej, na co wielu komentatorów zwraca uwagę, platformy głosowe to kolejny obszar dominacji technologicznej „wielkiej czwórcy” – Google, Amazona, Facebooka i Apple (GAFA). To te firmy a nie kto inny, będą gatekeeperami dostępu do jeszcze nowszych mediów. Mogą korzystać z bezcennych danych, które przekazujemy systemowi, nawiązując z nim konwersacje a, zdaniem niektórych, nie cofną się przed podsłuchiwaniem naszego prywatnego życia domowego.

Być może sposobem na dominację czwórcy GAFA jest propozycja IBM, który wprowadził w marcu 2018 r. na rynek nową usługę Watson Assistant, przeznaczoną dla firm, które chcą same budować wirtualne systemy asystenckie aktywowane głosowo. Na czym miałaby polegać przewaga rozwiązania IBM? Jak twierdzą przedstawiciele firmy, przede wszystkim na daleko większych możliwościach personalizacji i ochronie prywatności. Po pierwsze, Watson Assistant nie ma żadnego narzuconego znaku towarowego. Firmy mogą tworzyć własne rozwiązania na tej platformie i oznaczać je swoją marką. Po drugie, mogą szkolić swoje systemy asystenckie używając własnych zestawów danych, a IBM twierdzi, że łatwiej jest w jego systemie dodawać funkcje i polecenia niż w innych technologiach VUI. Po trzecie, Watson Assistant nie przekazuje IBM informacji na temat aktywności użytkowników – twórcy rozwiązań na platformie mogą zachować cenne dane tylko dla siebie.

Media oparte na interfejsie głosowym należą, jak już była o tym mowa, do „gorących”. Poza tym przekaz głosowy ma pewne specyficzne cechy, na które zwracają uwagę niektórzy badacze. „Przekaz głosowy w tych rozwiązaniach jest wzorowany na modelu zaufania, czymś w rodzaju kolegi, partnera, kogoś bliskiego” - ostrzega Judith Donath, badaczka z Berkman Klein Center na Uniwersytecie Harwardzkim, która zapowiada wydanie książki o tej technologii, zaufaniu i oszustwie. Jej zdaniem można sobie wyobrazić, że głosy generowane komputerowo mogą nieść ze sobą te tony i barwy emocjonalne, których odbiorcy szczególnie oczekują, wkradając się w ich sferę najgłębszego zaufania.

Ludzie radia nazywają radiowców, którzy za pomocą głosu, tonacji, sposobu mówienia, potrafią niezwykle silnie emocjonalnie angażować słuchaczy – „szamanami eteru”. Pani Donath chce nam powiedzieć, że w miarę rozwoju technologii i postępów uczenia maszynowego powstać może narzędzie o sile oddziaływania podobnej do najlepszych magów radia. W każdym razie poziom zaufania i emocjonalnego zaangażowania będzie nieporównywalny z tekstami drukowanymi na papierze czy wyświetlanymi na ekranie komputera lub smartfona.

Z drugiej strony – nie potrzeba maszyny. Również obdarzony podobnymi talentami człowiek może wykorzystać swoją umiejętność zdobywania zaufania i pozyskiwania ludzi do złych celów, kłamać i manipulować. Nie róbmy więc demona z narzędzia.

Mirosław Usidus

Udostępnij

Tagi:

Mirosław Usidus, Alex Amazon, Google Home, Apple HomePod, Marshall McLuhan, 2001: Odyseja Kosmiczna, BBC, Washington Post, The Wall Street Journal What's News,Wall Street Journal, Greg Sterling, Search Engine Land, Rick Edmonds, Jeff Bezos, Washington Post, New York Times, CNN, Judith Donath, Uniwersytet Harwardzki,

Komentarze

Disqus