Akustiska attacker: Hur ljud från din dator avslöjar lösenord
Varje gång du trycker på en tangent på ditt tangentbord skapar du ett ljud. Det låter trivialt, kanske till och med löjligt som säkerhetsrisk. Men forskare har under de senaste decennierna visat att dessa ljud bär på förvånansvärt mycket information, tillräckligt för att en angripare med rätt verktyg ska kunna rekonstruera vad du skriver, inklusive lösenord och känsliga meddelanden. Akustiska attacker, eller sound-based side-channel attacks som de kallas inom säkerhetsforskningen, utnyttjar inte svagheter i din programvara eller ditt nätverk. De utnyttjar fysikens lagar och maskininlärningens förmåga att hitta mönster där vi människor bara hör brus.
Så fungerar akustiska attacker: Från tangentljud till rekonstruerad text
Tanken att ett tangentbordsljud kan avslöja vad du skriver kräver lite bakgrund för att bli begriplig. Det handlar inte om att en angripare sitter i rummet bredvid och lyssnar med örat mot väggen. Det handlar om ett sofistikerat samspel mellan akustik, signalbehandling och maskininlärning, där varje steg i kedjan är väl dokumenterat i vetenskaplig litteratur.
Varje tangent låter olika
Det första och viktigaste fundamentet för akustiska attacker är att olika tangenter på ett tangentbord producerar subtilt olika ljud när de trycks ned. Skillnaderna beror på tangentens position på tangentbordet, dess mekaniska konstruktion, avståndet till tangentbordets kanter och det dämpande material som omger den. För det mänskliga örat låter alla tangenttryckningar mer eller mindre likadana. För ett tränat klassificeringsystem är skillnaderna tillräckligt konsekventa för att vara användbara.
Det är ungefär som att lyssna på en stor kör där alla sjunger samma not. För den oinvigde låter det som ett homogent ljud. För en tränad musiker med perfekt gehör är varje röst urskiljbar. Maskininlärningsmodeller fungerar som den musiker med perfekt gehör, fast för akustiska signaturer hos tangenttryckningar.

Från råljud till klassificerad signal
När ett tangentbordsljud fångas upp, antingen via en mikrofon i samma rum, en smartphone placerad i närheten eller till och med via mikrofonen i ett videosamtal, omvandlas det till en digital signal som kan analyseras. Processen går i flera steg. Först isoleras varje enskilt tangenttryck från bakgrundsbruset. Sedan extraheras akustiska egenskaper från ljudet, så kallade features, som beskriver ljudets frekvensinnehåll, hur snabbt det stiger och faller i intensitet och hur dess klangfärg förändras över tid.
Dessa egenskaper matas sedan in i en klassificeringsmodell som tränats på att känna igen vilken tangent som troligtvis producerade just det akustiska mönstret. Med tillräckligt med träningsdata och en tillräckligt känslig inspelning kan moderna modeller uppnå träffsäkerhet som ligger långt över vad som vore möjligt genom slumpen.
Vad som förstärker attackens precision
Flera faktorer avgör hur framgångsrik en akustisk attack kan bli i praktiken:
- Tangentbordets typ, där mekaniska tangentbord med tydliga klick generellt är mer sårbara än membrantangentbord
- Mikrofonens kvalitet och placering i förhållande till tangentbordet
- Mängden bakgrundsbrus i miljön
- Hur mycket träningsdata angriparen har tillgång till för just den enheten och miljön
- Om angriparen känner till vilket tangentbordslayout som används
Språkmodeller som hemlig förstärkning
En dimension som gjort akustiska attacker betydligt mer kraftfulla på senare år är kombinationen med stora språkmodeller. Även om den akustiska klassificeringen inte är perfekt och producerar en del felaktiga gissningar kan en språkmodell användas för att korrigera dessa fel i efterhand. Om modellen gissar att en viss sekvens av tangenttryckningar resulterade i ordet ”lösenird” är det inte svårt för en språkmodell att sluta sig till att det sannolikt rörde sig om ”lösenord”. Denna kombination av akustisk analys och språklig sannolikhet gör attacken betydligt mer robust mot de fel som oundvikligen uppstår i den akustiska fasen.
Verkliga attacker och forskning: Vad experiment har bevisat
Det är en sak att beskriva akustiska attacker i teorin. Det är något helt annat när forskare publicerar resultat som visar att metoderna faktiskt fungerar under verkliga förhållanden. Under de senaste två decennierna har ett växande antal studier demonstrerat att tangentbordsljud inte bara är en hypotetisk sårbarhet, utan en som kan utnyttjas med förvånansvärt hög precision och med utrustning som de flesta av oss redan bär i fickan.
De tidiga experimenten som förändrade synen
Forskning kring akustiska sidokanalsattacker mot tangentbord går tillbaka till åtminstone 2004, då forskarna Asonov och Agrawal vid IBM publicerade en studie som visade att tangenttryckningar kunde klassificeras med maskininlärning baserat på deras akustiska signaturer. Träffsäkerheten i de tidiga experimenten var inte perfekt, men tillräcklig för att slå fast att fenomenet var reellt och värt att ta på allvar.
Efterföljande forskning byggde vidare på dessa resultat och förfinade metoderna successivt. En inflytelserik studie från University of California, Berkeley, visade att angripare inte ens behövde ha tillgång till en dedikerad mikrofon i närheten av offret. Inspelningar gjorda via telefon under ett vanligt samtal var tillräckliga för att extrahera användbara akustiska signaturer från tangentbordet i bakgrunden.

Studien som fick säkerhetsvärlden att lyssna
Ett av de mest uppmärksammade experimenten på senare år publicerades 2023 av forskare vid Durham University, Surrey University och Royal Holloway i Storbritannien. I studien använde de en smartphone placerad 17 centimeter från ett MacBook-tangentbord för att spela in tangenttryckningar. Den inspelade ljudet matades sedan in i ett neuralt nätverk som tränats på att känna igen de akustiska mönstren från varje tangent.
Resultaten var slående. Modellen uppnådde en träffsäkerhet på nära 95 procent för tangenter korrekt identifierade från smartphoneinspelningen. När samma attack genomfördes via Zoom, alltså med ljud överfört genom ett videosamtal, sjönk träffsäkerheten något men förblev på en nivå som är mer än tillräcklig för att rekonstruera lösenord och annan känslig text med hjälp av kompletterande språkmodellanalys.
Vad experimenten samlade visar
Det samlade forskningsläget pekar mot några tydliga slutsatser om var sårbarheterna är som störst:
- Mekaniska tangentbord med klickande switchar är generellt mer avlyssningsbara än tunna membrantangentbord
- Bärbara datorer i tystare miljöer är mer exponerade än stationära system med mer bakgrundsbrus
- Videosamtal via plattformar som Zoom och Teams utgör en reell attackvektor eftersom mikrofonerna är aktiva och riktade mot användaren
- Attacker kräver vanligtvis en kort inlärningsfas där angriparen spelar in offrets skrivande under kontrollerade förhållanden för att kalibrera modellen
Från akademi till verkligt hot
En viktig distinktion är att den här forskningen inte bara existerar i akademiska tidskrifter. Verktygen och metoderna som beskrivs är i många fall öppet tillgängliga, och den beräkningskraft som krävs för att träna klassificeringsmodellerna är numera inom räckhåll för en enskild person med en modern dator. Det innebär att akustiska attacker inte längre enbart är ett hot som nationalstatliga underrättelsetjänster kan genomföra. Tröskeln har sjunkit dramatiskt, och med det har hotbilden förändrats på ett sätt som säkerhetsbranschen ännu inte fullt ut hunnit svara på.
Så skyddar du dig mot attacker du aldrig visste existerade
Att lära sig om akustiska attacker väcker nästan oundvikligen en känsla av obehag. Om ett tangentbordsljud kan avslöja vad du skriver, vad är då egentligen säkert? Det korta svaret är att du inte behöver bli paranoid, men att det finns konkreta och relativt enkla åtgärder som dramatiskt minskar din exponering. Precis som med de flesta säkerhetshot handlar det om att höja kostnaden och svårigheten för en potentiell angripare, inte om att uppnå absolut ogenomtränglighet.
Börja med hårdvaran
Det mest direkta sättet att minska risken är att välja rätt tangentbord för känsliga sammanhang. Mekaniska tangentbord med tydliga, klickande switchar är som vi sett de mest akustiskt avslöjande. Ett tunt membrantangentbord, som de som är inbyggda i de flesta moderna bärbara datorer, producerar betydligt subtilare och mer enhetliga ljud som är svårare att klassificera. Om du regelbundet hanterar känslig information, lösenord eller konfidentiell text är tangentbordsval alltså inte en trivial estetisk fråga utan en reell säkerhetsaspekt.
Placeringen av din smartphone när du arbetar är en annan konkret åtgärd. Eftersom telefonen är den vanligaste inspelningsenheten i dokumenterade attacker räcker det ofta med att lägga den på avstånd från tangentbordet, eller med mikrofonen vänd bort, för att försämra en potentiell angripares möjligheter avsevärt.
Tänk om kring videosamtal
En av de mest praktiskt relevanta insikterna från forskningen är att videosamtal utgör en särskilt exponerad miljö. När du delar mikrofon via Zoom, Teams eller liknande plattformar under ett samtal och samtidigt skriver på tangentbordet i bakgrunden skickar du i princip en inspelning av dina tangenttryckningar till alla som lyssnar, och potentiellt till alla som kan kompromissa med samtalet.
Den enklaste motåtgärden är att stänga av mikrofonen när du inte talar aktivt, särskilt om du skriver lösenord eller annan känslig text under pågående samtal. Det är en liten förändring i beteende som eliminerar en av de mest realistiska attackvektorerna i vardagen.

Mjukvarubaserade motåtgärder
På programvarusidan finns det verktyg utformade för att maskera tangentbordsljud genom att injicera slumpmässigt bakgrundsbrus i mikrofoninspelningen, så kallad akustisk brusöverläggning. Sådana verktyg är ännu inte standard i de flesta operativsystem men finns tillgängliga som tredjepartsprogram och används i vissa säkerhetskänsliga miljöer.
En annan mjukvarubaserad strategi är att använda lösenordshanterare konsekvent. Om lösenord aldrig skrivs manuellt utan alltid klistras in från en lösenordshanterare elimineras den akustiska attackvektorn för just den informationskategorin helt, eftersom ingen tangenttryckning sker.
Hotbilden i rätt perspektiv
Det är viktigt att avsluta med en nyansering. Akustiska attacker kräver i de flesta fall att angriparen har möjlighet att placera en inspelningsenhet i din närmaste omgivning, eller att du deltar i videosamtal under oskyddade former. För de allra flesta privatpersoner är risken låg i vardagen. För journalister, advokater, företagsledare och andra som regelbundet hanterar information med högt skyddsvärde är bilden annorlunda. Och för alla gäller att medvetenheten om att ljud är en informationsbärare är det första och viktigaste steget mot ett mer genomtänkt säkerhetsbeteende.