Din Telegram-bot känns ”smart” i fem minuter. Sedan glömmer den vad som hände i förra rundan, motsäger sig själv och dina spelare börjar korrigera berättelsen i stället för att spela. Så förvandlas ett kul röstäventyr till administrativt arbete.
Den här Telegram Groq-chatbot-uppsättningen träffar först community managers som driver interaktiva event. Men spelledare som vill hålla sig i karaktär och byråteam som bygger varumärkesanpassade chattupplevelser stöter på samma problem. Konsekventa svar, ihållande minne och röst in/röst ut, utan att behöva barnvakta varje meddelande.
Det här arbetsflödet gör om Telegram-röstmeddelanden till en regelstyrd, minnesmedveten DM. Du får se hur röstmeddelandet blir text, hur agenten ”minns” och hur den skickar ett ljudsvar direkt tillbaka.
Så fungerar den här automationen
Hela n8n-arbetsflödet, från trigger till slutlig output:
n8n Workflow Template: Telegram + Groq: röstchattbot som minns
flowchart LR
subgraph sg0["Receive Voice Message Flow"]
direction LR
n0@{ icon: "mdi:brain", form: "rounded", label: "Groq Chat Model", pos: "b", h: 48 }
n1@{ icon: "mdi:robot", form: "rounded", label: "Dungeon Master", pos: "b", h: 48 }
n2@{ icon: "mdi:memory", form: "rounded", label: "The track of your adventure", pos: "b", h: 48 }
n3["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Send an audio file"]
n4@{ icon: "mdi:swap-vertical", form: "rounded", label: "Paste your Groq API key", pos: "b", h: 48 }
n5["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Receive Voice Message"]
n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Download Audio File"]
n7["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Speech to Text"]
n8["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Text to Speech"]
n1 --> n8
n7 --> n1
n8 --> n3
n0 -.-> n1
n6 --> n4
n5 --> n6
n4 --> n7
n2 -.-> n1
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n5 trigger
class n1 ai
class n0 aiModel
class n2 ai
class n7,n8 api
classDef customIcon fill:none,stroke:none
class n3,n5,n6,n7,n8 customIcon
Problemet: röstbotar glömmer, glider iväg och sabbar inlevelsen
Röstbaserad chatt ska kännas naturlig. I praktiken är den skör. En spelare skickar ett snabbt röstmeddelande, boten svarar, och i nästa tur har den ”glömt” NPC:ns namn, uppdragsföremålet eller regeln ni just slog fast. Du hamnar i att förklara om läget (“jag plockade redan upp facklan”), göra om beslut och manuellt lappa berättelsen. Det handlar inte bara om tid. Det är mental belastning, ständiga kontextbyten och att förtroendet för upplevelsen sakta urholkas.
Friktionen ökar för varje tur. Här är det som brukar fallera.
- Spelare upprepar sig eftersom boten inte kan bära spelstatus pålitligt från ett röstmeddelande till nästa.
- Manuella ”recap”-meddelanden blir rutin, så du lägger runt 30 minuter per session på efterstädning.
- Röst lägger till ytterligare en felpunkt, eftersom du jonglerar filhämtning, transkribering och generering av svarsljud.
- Regeltillämpningen blir inkonsekvent, vilket leder till diskussioner, retcons och en svagare känsla av insatser.
Lösningen: en Telegram-röst-DM med ihållande minne
Det här n8n-arbetsflödet gör din Telegram-bot till en röststyrd Dungeon Master som håller ihop berättelsen. Det startar när en spelare skickar ett röstmeddelande till din Telegram-bot. n8n hämtar ljudfilen, skickar den till Groq för tal-till-text och lämnar sedan texten till en AI ”Campaign Guide Agent” som körs under en strikt systemprompt (så att narrativ och regler förblir strukturerade). Agenten laddar aktuell äventyrskontext från minnet, avgör vad som ska hända härnäst och producerar både ett svar och en strukturerad uppdatering av spelstatus. Till sist genererar arbetsflödet ett nytt ljudsvar via Groq text-till-tal och skickar tillbaka det till spelaren i Telegram.
Arbetsflödet börjar med en Telegram-rösttrigger och slutar med ett ljudsvar i samma chatt. Däremellan hanterar Groq transkribering och talgenerering medan agenten använder minnet för att hålla kontinuitet mellan turer. När ett tärningsslag behöver godkännande kan agenten pausa och vänta på det där ”ja, slå”-ögonblicket, i stället för att köra över spelaren.
Det du får: automation vs. resultat
| Det här arbetsflödet automatiserar | Resultat du får |
|---|---|
|
|
Exempel: så här ser det ut i praktiken
Säg att du kör ett 60-minuters en-mot-en-äventyr med cirka 20 spelarturer. Manuellt kan du lägga ungefär 2 minuter per tur bara på att läsa in kontext, skriva en recap och hålla anteckningar synkade, vilket blir cirka 40 minuter ”overhead” per session. Med det här arbetsflödet skickar spelaren ett röstmeddelande, Groq transkriberar, agenten uppdaterar minnet och Telegram får ett ljudsvar. Din aktiva insats sjunker till snabb övervakning, kanske 5 minuter totalt, eftersom statusspårningen sköts åt dig.
Det här behöver du
- n8n-instans (prova n8n Cloud gratis)
- Alternativ för självhosting om du föredrar det (Hostinger fungerar bra)
- Telegram Bot API-token för att ta emot och skicka röstmeddelanden.
- Groq API-token för anrop av tal-till-text och text-till-tal.
- Groq API-token (hämta den i din Groq-dashboard under API keys)
Kunskapsnivå: Medel. Du kopplar upp inloggningar, klistrar in prompts och testar några röstmeddelanden end-to-end.
Vill du inte sätta upp detta själv? Prata med en automationsexpert (gratis 15-minuters konsultation).
Så fungerar det
En spelare skickar ett röstmeddelande i Telegram. Telegram-triggern kör direkt, så du slipper polla eller manuellt vidarebefordra ljudfiler.
Arbetsflödet hämtar ljudfilen och förbereder autentisering. n8n hämtar röstfilen från Telegram och injicerar sedan Groq-token så att nästa anrop kan autentisera korrekt.
Groq transkriberar tal till text. En HTTP Request-nod skickar ljudet till Groq STT och producerar läsbar spelarinmatning som du kan lagra, analysera eller till och med logga för moderering senare.
AI-agenten svarar med ihållande minne. Campaign Guide Agent läser aktuell äventyrsstatus från minnesbuffertfönstret, tillämpar systemreglerna (inklusive ”vänta på godkännande för slag” vid behov) och genererar nästa DM-tur samt statusuppdateringar.
Groq genererar ett talat svar och Telegram levererar det. Textsvaret blir ljud via Groq TTS, och sedan skickar arbetsflödet det direkt tillbaka till spelaren i samma chatt.
Du kan enkelt justera systemprompten så att den matchar din värld och ton utifrån dina behov. Se hela implementationsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementation
Steg 1: Konfigurera Telegram-triggern
Starta arbetsflödet genom att lyssna efter inkommande Telegram-röstmeddelanden.
- Lägg till noden Voice Message Trigger som din trigger.
- Uppgifter krävs: Anslut era telegramApi-uppgifter.
- Låt Updates vara inställd på
message(redan konfigurerat) för att fånga röstmeddelanden.
Steg 2: Anslut Telegram-filhämtning och token-injektion
Hämta röstfilen från Telegram och lägg in er Groq API-nyckel i arbetsflödets payload.
- Konfigurera Retrieve Voice File med Resource inställd på
fileoch File ID inställd på={{ $('Voice Message Trigger').item.json.message.voice.file_id }}. - Uppgifter krävs: Anslut era telegramApi-uppgifter till Retrieve Voice File.
- I Insert Groq API Token ställer ni in JSON Output till
{ "groq_api_key": "[CONFIGURE_YOUR_API_KEY]" }och ersätter platshållaren med er riktiga nyckel.
[CONFIGURE_YOUR_API_KEY] oförändrad kommer det att orsaka autentiseringsfel både vid transkribering och talgenerering.Steg 3: Konfigurera transkribering och RPG-agenten
Transkribera det inkommande röstmeddelandet och routa det till den AI-drivna kampanjguiden med minne.
- I Transcribe Audio ställer ni in URL till
https://api.groq.com/openai/v1/audio/transcriptionsoch Method tillPOST. - Ställ in Content Type till
multipart-form-dataoch aktivera Send Headers och Send Body. - Under Body Parameters ställer ni in url till
=https://api.telegram.org/file/bot[CONFIGURE_YOUR_TOKEN]/{{ $('Retrieve Voice File').item.json.result.file_path }}och model tillwhisper-large-v3. - Under Header Parameters ställer ni in Authorization till
=Bearer {{ $json.groq_api_key }}. - I Campaign Guide Agent ställer ni in Text till
=Player action:\n{{ $json.text }}\noch låter Prompt Type varadefine. - Anslut Groq Dialog Model till Campaign Guide Agent som språkmodell. Uppgifter krävs: Anslut era groqApi-uppgifter i Groq Dialog Model.
- Koppla Adventure Memory Log till Campaign Guide Agent som minnesnod och låt Session Key vara inställd på
global_sessionoch Context Window Length till30.
Steg 4: Konfigurera ljudgenerering och Telegram-svar
Gör om AI-svaret till tal och skicka tillbaka det till användaren.
- I Generate Speech Audio ställer ni in URL till
https://api.groq.com/openai/v1/audio/speechoch Method tillPOST. - Ställ in JSON Body till
={ "model": "playai-tts", "input": "{{ $json.output.replace(/\n/g, '\\n') }}", "voice": "Fritz-PlayAI", "response_format": "wav" }. - Under Header Parameters ställer ni in Authorization till
=bearer {{ $('Insert Groq API Token').item.json.groq_api_key }}och Content-Type tillapplication/json. - I Dispatch Audio Reply ställer ni in Operation till
sendAudiooch aktiverar Binary Data. - Ställ in Chat ID till
={{ $('Voice Message Trigger').item.json.message.chat.id }}. - Uppgifter krävs: Anslut era telegramApi-uppgifter i Dispatch Audio Reply.
[CONFIGURE_YOUR_TOKEN]), annars kan Groq inte hämta ljudfilen.Steg 5: Testa och aktivera ert arbetsflöde
Verifiera hela voice-to-voice-kedjan innan ni slår på den i produktion.
- Klicka på Execute Workflow och skicka ett röstmeddelande till er Telegram-bot för att trigga Voice Message Trigger.
- Bekräfta att Retrieve Voice File returnerar en giltig
file_pathoch att Transcribe Audio returnerar en transkribering. - Verifiera att Campaign Guide Agent ger ut berättartext och att Generate Speech Audio returnerar binärt ljud.
- Kontrollera att Dispatch Audio Reply skickar ljudet tillbaka till samma chatt.
- När allt fungerar växlar ni arbetsflödet till Active för att möjliggöra kontinuerlig användning.
Vanliga fallgropar
- Telegram-inloggningar kan gå ut eller kräva specifika behörigheter. Om något slutar fungera, kontrollera Telegram-bottoken i n8n Credentials och bekräfta att boten fortfarande finns i BotFather.
- Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om noder längre fram misslyckas på grund av tomma svar.
- Standardprompter i AI-noder är generiska. Lägg in din varumärkeston tidigt, annars kommer du att redigera output för alltid.
Vanliga frågor
Cirka 30 minuter om dina tokens är klara.
Ingen kodning krävs. Du klistrar mest in API-tokens, testar ett röstmeddelande och finjusterar agentprompten.
Ja. n8n har ett gratis alternativ för självhosting och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volymer. Du behöver också räkna med Groq API-användning (ofta mycket låg på gratisnivån, därefter pay-as-you-go).
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller självhosting på en VPS. För självhosting är Hostinger VPS prisvärd och hanterar n8n bra. Självhosting ger dig obegränsat antal körningar men kräver grundläggande serverhantering.
Ja, men börja med prompten. Du justerar Campaign Guide Agentens systeminstruktioner (regler, turstruktur, tillåtna slag) och, vid behov, hur agenten formaterar ”statusuppdateringar” innan de sparas. Vanliga justeringar är att byta fantasy mot sci‑fi, lägga till ett striktare ”inventory”-schema eller ändra hur recaps genereras i slutet av en scen. Om du håller minnet konsekvent blir allt annat mycket enklare.
Oftast är det en ogiltig eller roterad bottoken. Kontrollera Telegram-uppgifterna i n8n igen och bekräfta sedan att din bot fortfarande kan ta emot röstmeddelanden och att filhämtning är tillåten för den chatten. Om det fungerar för text men inte för röst är det ofta ett behörighets- eller filåtkomstproblem snarare än själva triggern.
Den skalar bra för små communities, och självhosting tar bort körningsbegränsningar helt.
För röst + minne-arbetsflöden är n8n oftast ett bättre val eftersom du kan styra flersteglogik, behålla status och köra mer komplext agentbeteende utan att betala för varje liten förgrening. Zapier och Make kan fungera för enkla flöden som ”röstmeddelande till text”, men ihållande minne och regelstyrda turloopar blir snabbt klumpigt. En annan praktisk punkt är hosting: om du självhostar n8n blir du inte låst av task-prissättning när dina spelare blir pratsamma. Om du bara vill ha en tvåstegsautomation och aldrig tänker bygga ut den kan Zapier fortfarande kännas enklare. Prata med en automationsexpert om du vill ha hjälp att välja.
När minnet och röstloopen väl är på plats slutar upplevelsen att vackla. Arbetsflödet hanterar kontinuiteten, så att du kan fokusera på de roliga delarna och kliva tillbaka när du vill.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.