
Apple har Siri, Microsoft Cortana, Google har Assistant och Amazon sin Alexa. Efter tangentbord, möss, tryckkänsliga skärmar för pennor och de pekskärmar vi idag tar för givna är röst nästa kontaktyta mellan människa och maskin.
I en drygt tio år gammal artikel sågar jag ett Windows-program för diktering. På ett sätt som jag varken var först eller sist med att göra: Jag använde programmet för att prata in texten om det och publicerade den sedan med alla de feltolkningar som datorn gjorde.
Väldigt mycket har hänt sedan dess.
Om du som jag testade dikteringsprogram för många år sedan och sedan dess inte gett tekniken en ny chans: Gör det!
Idag använder jag Siri regelbundet för att “skriva ner” artikelidéer när jag inte kan hålla i en penna eller en telefon. Det är smidigt, trafiksäkert och innebär att jag tappar bort färre av de idéer jag får.
Men den stora grejen är inte att min mobil idag kan ta diktamen. Den stora grejen är tillgängligheten. Jag behöver inte hålla något i handen, jag behöver inte flytta mig till tekniken. Den finns där hela tiden, redo att göra vad jag ber den om. Vi kommer säkert att använda den för att läsa in texter, men framför allt för kortare meningsutbyten.
Amazon har inte börjat sälja sin röststyrda högtalare Echo i Sverige än, men de i bekantskapskretsen som ändå kommit över en vittnar om helt nya sätt att interagera med tekniken.
Echo står där i köket, ständigt lyssnandes efter instruktioner. Som kan handla om saker som ska skrivas upp på inköpslistan, de senaste nyheterna, musik som passar sinnesstämningen för tillfället eller faktafrågor där svaren hämtas från Wikipedia. Och inte minst för att starta timers som håller koll på ägg- och pastakoket.
Grunden för det här läggs givetvis av den mjukvara som tolkar och förstår röst. Men nyttan kommer i mångt och mycket med kopplingen till molnet. Det är där inköpslistor, nyheter, musik och svar på alla frågor finns. Och styrsystemen till många av de Internet of things-tjänster som Echo också kan integrera med.
Den här teknikutvecklingen kommer att få åtminstone fyra stora konsekvenser.
Ett: Tekniken tar plats på fler ställen
En högtalare, en mikrofon och en internetuppkoppling. Det är, grovt räknat, vad som behövs för att bygga en röststyrd tjänst. Konsekvensen blir att hårdvaran som användarna köper dels kan göras billigare, dels kan få längre livslängd. Det innebär i sin tur att gränssnittet mot tjänsterna kan finnas på fler ställen, i hemmet och på arbetsplatsen. En Amazon Echo kostar idag runt 1600 kronor. Den mindre och enklare Echo Dot har inte en lika kraftfull högtalare men i övrigt samma funktioner. Echo Dot säljs för en femhundring styck. Men också i sex-pack (betala för fem och få en på köpet) och tolv-pack (betala för tio, få två på köpet). Hur Amazon hoppas att hem och arbetsplatser ska strösslas med röstinterface är därmed uppenbart.
Två: Algoritmerna får större inflytande
På skärmen är vi vana vid att göra val från listor. Google listar förslag på webbplatser, SJ:s webbplats listar tågavgångar, nyhetsredaktioner listar rubriker. Och så vidare.
I ett ljudbaserat gränssnitt får algoritmerna mer att säga till om. Min gissning är att vi mer sällan kommer att få göra ett val, att det oftast kommer vara en motsvarighet till Googles Jag har tur-knapp. Vi frågar något och får ett svar tillbaka. Vi kommer att vara nöjda med det, och inte fundera på vad som valts bort.
Tre: Förutsättningarna för reklam förändras
Den dominerande affärsmodellen på nätet är idag att locka användare och sen sälja annonsplats till företag som vill nå användarna med sina budskap. Hur ser reklam ut i en röstbaserad interaktion? Det blir svårt att lägga ett reklambudskap bredvid det innehåll som användaren primärt är intresserad av. Kommer tjänsteleverantörer att hitta nya format för annonser, eller kommer de tvingas hitta helt nya affärsmodeller?
Fyra: En ständigt lyssnande teknik
FBI-chefen James Comey fick nyligen rubriker efter att ha rekommenderat att man täcker webbkameran i sin dator och mobiltelefon med tejp när man inte aktivt använder den. Skälet är att man på det sättet sätter fysiskt stopp för dem som eventuellt lyckats hacka datorn och försöker tjuvkika in genom webbkameran.
Men hur fungerar integritet och röstgränssnitt? Här är hela finessen att prylarna ska lyssna hela tiden, för att kunna ge direkt återkoppling på de kommandon de får.
2016 är röst mycket mer än diktamen
För tio år sedan handlade rösttolkning väldigt mycket om att diktera text. Idag är det uppenbart att det istället kommer att förändra sättet som vi interagerar med tekniken på. Och kanske är det en bra idé att skaffa en Amazon Echo. Tim O’Reilly tycker att det finns en fråga som många i it-branschen behöver ställa när de själva utvecklar nya tjänster och produkter: What would Alexa do?
Och kanske är det också i ljuset av röst som gränssnitt vi ska se Apples nya trådlösa hörlurar AirPods? Det tror Slates teknikjournalist Will Oremus som i en artikel argumenterar för att AirPods förvisso är ett par hörlurar men också Apples första dator för öronen.
Om författaren
Anders Thoresson har bevakat IT och telekom sedan 1999, först som reporter på Ny Teknik och sedan 2006 som frilans. Genom åren har hans texter bland annat publicerats i Dagens Nyheter, Dagens Industri, Forskning och Framsteg, IVA Aktuellt och Ny Teknik. Han har också skrivit flera Internetguider åt IIS och gör poddcasten Digitalsamtal. Du når Anders via hans webbplats.