Röstmeddelanden är smidiga… tills du behöver hitta den där detaljen senare. Då blir det att spela upp ljud offentligt, tappa sammanhang och låta beslut försvinna i en rörig chatthistorik.
Den här automatiseringen för Telegram Whisper replies träffar supportansvariga först, eftersom ”vad sa de?” bromsar varje överlämning. Men byråägare och drift- och operationsansvariga känner också av det när kunder skickar uppdateringar via röst och ingen vill riskera att citera fel.
Det här arbetsflödet gör om Telegram-röstmeddelanden till läsbar text och postar transkriberingen direkt tillbaka i samma tråd. Du får se hur det fungerar, vad du behöver och var team oftast kör fast.
Så fungerar den här automatiseringen
Hela n8n-arbetsflödet, från trigger till slutligt resultat:
n8n Workflow Template: Telegram + OpenAI Whisper: läsbara röstnoter
flowchart LR
subgraph sg0["Telegram Message Hook Flow"]
direction LR
n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Fetch Voice File"]
n1@{ icon: "mdi:robot", form: "rounded", label: "Convert Audio to Text", pos: "b", h: 48 }
n2["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Telegram Message Hook"]
n3["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Dispatch Transcript Reply"]
n4@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Route Incoming Chat", pos: "b", h: 48 }
n0 --> n1
n2 --> n4
n4 --> n3
n4 --> n0
n1 --> n3
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n2 trigger
class n1 ai
class n4 decision
classDef customIcon fill:none,stroke:none
class n0,n2,n3 customIcon
Problemet: röstmeddelanden skapar dolt arbete
I teorin sparar röstmeddelanden tid. I praktiken flyttar de bara arbetet längre fram i processen. Någon måste lyssna, plocka ut nyckelfakta och sedan skriva om det så att resten av teamet kan agera. Om du jobbar med support, drift eller kundarbete är den ”någon” ofta du. Det är dessutom skört: en missad siffra, ett missförstått datum, ett ögonblick med bakgrundsbrus – och du svarar med fel detaljer. Multiplicera det med några samtal om dagen så blir det en tyst skatt på fokus.
Det växer snabbt. Här är var det faller isär i verkligheten.
- Du spelar upp samma röstmeddelande två eller tre gånger bara för att fånga namn, datum och vad de faktiskt ber om.
- Chattar slutar vara sökbara, så ”vi har redan svarat på det här” blir till mer tid som går åt till att leta.
- Överlämningar blir röriga eftersom kollegor inte kan skumma igenom ljud snabbt samtidigt som de hanterar andra ärenden.
- Viktiga förfrågningar blir liggande eftersom ingen vill lyssna just nu, vilket ger långsammare svar och frustrerade kunder.
Lösningen: transkribera Telegram-röstmeddelanden automatiskt och svara i tråden
Det här n8n-arbetsflödet lyssnar på varje ny Telegram-uppdatering som din bot tar emot. När meddelandet är vanlig text behandlas det som läsbart innehåll och en tydlig svarsväg förbereds. När meddelandet är ett röstmeddelande hämtar arbetsflödet ljudfilen från Telegram, skickar den till OpenAI Whisper (tal-till-text-modellen whisper-1) och omvandlar den till en texttranskription. Sedan postar det transkriberingen tillbaka i samma Telegram-chatt, så att konversationen blir läsbar och sökbar direkt. Ingen copy-paste. Inga extra appar. Bara en tydlig, skriftlig version av det som sades – exakt där teamet redan jobbar.
Arbetsflödet startar med en Telegram message-trigger. Ett routing-steg delar upp röst och text, sedan laddar röstgrenen ner filen och transkriberar den i OpenAI. Till sist postar ett enda send-message-steg sluttexten tillbaka till Telegram.
Det du får: automatisering vs. resultat
| Vad det här arbetsflödet automatiserar | Resultat du får |
|---|---|
|
|
Exempel: så här ser det ut
Säg att teamet får 10 röstmeddelanden om dagen i Telegram från kunder eller klienter. Manuellt kan du lägga cirka 10 minuter per meddelande på att lyssna, lyssna igen och skriva ett korrekt formaterat svar, alltså ungefär 100 minuter per dag. Med det här arbetsflödet blir ”arbetet” att skicka röstmeddelandet som vanligt och sedan vänta ungefär en minut på att transkriberingen dyker upp i tråden. Det är cirka en och en halv timme tillbaka varje dag, och transkriptionen finns där för alla att söka i senare.
Det här behöver du
- n8n-instans (testa n8n Cloud gratis)
- Alternativ för egen hosting om du föredrar det (Hostinger fungerar bra)
- Telegram för att ta emot meddelanden via en bot
- OpenAI för att transkribera röstmeddelanden med Whisper
- Telegram Bot Token (hämta den via BotFather i Telegram)
- OpenAI API-nyckel (hämta den i din OpenAI-dashboard)
Svårighetsnivå: nybörjare. Du klistrar mest in API-nycklar, kopplar konton och testar med ett riktigt röstmeddelande.
Vill du inte sätta upp detta själv? Prata med en automationsexpert (gratis 15-minuters konsultation).
Så fungerar det
Ett Telegram-meddelande kommer in. Arbetsflödet triggas i samma ögonblick som din bot tar emot ett nytt meddelande i Telegram.
Arbetsflödet separerar röst och text. En router kontrollerar meddelandetypen. Text går rakt igenom som den är, medan röstmeddelanden tar ljudvägen.
Röstmeddelanden laddas ner och transkriberas. n8n hämtar röstfilen från Telegram och skickar den sedan till OpenAI Whisper för att omvandla tal till korrekt formaterad, läsbar text.
Transkriptionen postas tillbaka i samma chatt. En send-message-åtgärd svarar med sluttexten, så att tråden blir lätt att skumma och söka i.
Du kan enkelt ändra svarsformatet för att inkludera tidsstämplar, talaretiketter eller en kort sammanfattning utifrån dina behov. Se hela implementeringsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementation
Steg 1: konfigurera Telegram-triggern
Konfigurera arbetsflödet så att det lyssnar efter inkommande Telegram-meddelanden och skickar dem vidare in i logikflödet.
- Lägg till noden Telegram Message Hook som din trigger.
- Ställ in Updates på
message. - Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Telegram Message Hook.
- Bekräfta att noden ansluter till Route Incoming Chat.
Steg 2: routa inkommande text kontra röst
Använd en switch för att dela upp text- och röstmeddelanden i rätt flöden.
- Öppna Route Incoming Chat och lägg till två regler.
- För text-grenen, ställ in Left Value till
={{ $json.message.text }}och använd operatorn exists. - För röst-grenen, ställ in Left Value till
={{ $json.message.voice }}och använd operatorn exists. - Säkerställ att Route Incoming Chat ansluter till Dispatch Transcript Reply för text och till Fetch Voice File för röstmeddelanden.
Steg 3: konfigurera ljudtranskribering
Ladda ned röstfilen från Telegram och skicka den till transkriberingsnoden.
- Öppna Fetch Voice File och ställ in Resource på
file. - Ställ in File ID till
={{ $json.message.voice.file_id }}. - Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Fetch Voice File.
- Öppna Convert Audio to Text, ställ in Resource på
audiooch Operation påtranscribe. - Inloggningsuppgifter krävs: Anslut era openAiApi-inloggningsuppgifter i Convert Audio to Text.
- Bekräfta att Fetch Voice File skickar output till Convert Audio to Text, och att Convert Audio to Text skickar output till Dispatch Transcript Reply.
Steg 4: konfigurera svaret till Telegram
Skicka ett svar tillbaka till användaren med texten eller transkriberingen.
- Öppna Dispatch Transcript Reply och ställ in Text till
={{ $json.message.text }} {{ $json.text }}. - Ställ in Chat ID till
={{ $('Telegram Message Hook').item.json.message.chat.id }}. - I Additional Fields, ställ in Append Attribution på
false. - Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Dispatch Transcript Reply.
Steg 5: testa och aktivera ert arbetsflöde
Validera att text- och röstmeddelanden går genom rätt flöden innan ni aktiverar automatiseringen.
- Klicka på Execute Workflow i n8n för att starta ett manuellt test.
- Skicka ett textmeddelande och ett röstmeddelande till er Telegram-bot.
- Bekräfta att Route Incoming Chat routar text till Dispatch Transcript Reply och röst till Fetch Voice File och sedan Convert Audio to Text.
- Verifiera att boten svarar med originaltexten och/eller transkriberingen i Telegram.
- Växla arbetsflödet till Active för att köra det i produktion.
Vanliga fallgropar
- Telegram-botens inloggningsuppgifter kan löpa ut eller vara felkonfigurerade. Om meddelanden slutar trigga, kontrollera först bot-token i inställningarna för Telegram Trigger-noden.
- Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om efterföljande noder misslyckas på grund av tomma svar.
- OpenAI API-åtkomst kan fallera på grund av faktureringsgränser eller saknade behörigheter. Om transkriberingsfel dyker upp, verifiera att din OpenAI API-nyckel är aktiv och att kontot har tillgänglig kvot.
Vanliga frågor
Cirka 20 minuter om du redan har din Telegram bot token och OpenAI API-nyckel.
Nej. Du kopplar Telegram och OpenAI och testar sedan grenen för röstmeddelanden.
Ja. n8n har ett gratis alternativ för egen hosting och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna in OpenAI API-kostnader, som vanligtvis är små för korta röstmeddelanden.
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen hosting på en VPS. För egen hosting är Hostinger VPS prisvärd och hanterar n8n bra. Egen hosting ger obegränsade körningar men kräver grundläggande serverhantering.
Ja, och det är en vanlig uppgradering. När transkriptionen har skapats lägger du till en Google Sheets-åtgärd för ”append row” och skriver transkriptionen, avsändarens namn och datum i en ny rad. Du kan också ta med Telegram chat ID så att du kan spåra tillbaka senare.
Oftast är det bot-token. Generera om eller kopiera token på nytt från BotFather och uppdatera sedan Telegram-inloggningen i n8n. Bekräfta också att boten faktiskt finns i chatten och har behörighet att läsa meddelanden, eftersom inställningar för privata chattar/grupper kan blockera leverans. Om det bara misslyckas ibland kan Telegram API:s rate limits eller tillfälliga nätverksproblem vara orsaken.
Det beror mer på din n8n-plan och din server än på själva arbetsflödet. I n8n Cloud begränsar din månadsgräns för körningar volymen, så supportinkorgar med hög trafik kan behöva en högre plan. Om du kör egen hosting finns ingen hård körningsgräns, men du vill ha tillräckligt med CPU och minne för att hantera toppar. I praktiken kan de flesta små team köra detta hela dagen utan att tänka på det, så länge de inte får röstmeddelanden konstant.
Ofta, ja. Whisper-transkribering kräver vanligtvis några rörliga delar (ladda ner fil, skicka för transkribering och posta sedan ett tydligt svar), och n8n hanterar den typen av förgrening utan att kännas begränsat. Egen hosting är också viktigt om du förväntar dig många meddelanden och inte vill att varje extra steg ska öka din kostnad. Zapier eller Make kan fortfarande fungera om du föredrar deras gränssnitt, men filhantering blir snabbt pilligt. Om du vill ha hjälp att välja, prata med en automationsexpert.
När det här väl rullar slutar röstmeddelanden vara en flaskhals och blir i stället användbar information. Arbetsflödet tar hand om det repetitiva lyssnandet och skrivandet så att du kan fokusera på svaret.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.