Behöver ert företag hjälp med att implementera AI? Kontakta oss och få prisoffert här →
AI Skolan
januari 22, 2026

Telegram + Groq: röstchattbot som minns

Rickard Andersson Partner, Nodenordic.se

Din Telegram-bot känns ”smart” i fem minuter. Sedan glömmer den vad som hände i förra rundan, motsäger sig själv och dina spelare börjar korrigera berättelsen i stället för att spela. Så förvandlas ett kul röstäventyr till administrativt arbete.

Den här Telegram Groq-chatbot-uppsättningen träffar först community managers som driver interaktiva event. Men spelledare som vill hålla sig i karaktär och byråteam som bygger varumärkesanpassade chattupplevelser stöter på samma problem. Konsekventa svar, ihållande minne och röst in/röst ut, utan att behöva barnvakta varje meddelande.

Det här arbetsflödet gör om Telegram-röstmeddelanden till en regelstyrd, minnesmedveten DM. Du får se hur röstmeddelandet blir text, hur agenten ”minns” och hur den skickar ett ljudsvar direkt tillbaka.

Så fungerar den här automationen

Hela n8n-arbetsflödet, från trigger till slutlig output:

n8n Workflow Template: Telegram + Groq: röstchattbot som minns

Problemet: röstbotar glömmer, glider iväg och sabbar inlevelsen

Röstbaserad chatt ska kännas naturlig. I praktiken är den skör. En spelare skickar ett snabbt röstmeddelande, boten svarar, och i nästa tur har den ”glömt” NPC:ns namn, uppdragsföremålet eller regeln ni just slog fast. Du hamnar i att förklara om läget (“jag plockade redan upp facklan”), göra om beslut och manuellt lappa berättelsen. Det handlar inte bara om tid. Det är mental belastning, ständiga kontextbyten och att förtroendet för upplevelsen sakta urholkas.

Friktionen ökar för varje tur. Här är det som brukar fallera.

  • Spelare upprepar sig eftersom boten inte kan bära spelstatus pålitligt från ett röstmeddelande till nästa.
  • Manuella ”recap”-meddelanden blir rutin, så du lägger runt 30 minuter per session på efterstädning.
  • Röst lägger till ytterligare en felpunkt, eftersom du jonglerar filhämtning, transkribering och generering av svarsljud.
  • Regeltillämpningen blir inkonsekvent, vilket leder till diskussioner, retcons och en svagare känsla av insatser.

Lösningen: en Telegram-röst-DM med ihållande minne

Det här n8n-arbetsflödet gör din Telegram-bot till en röststyrd Dungeon Master som håller ihop berättelsen. Det startar när en spelare skickar ett röstmeddelande till din Telegram-bot. n8n hämtar ljudfilen, skickar den till Groq för tal-till-text och lämnar sedan texten till en AI ”Campaign Guide Agent” som körs under en strikt systemprompt (så att narrativ och regler förblir strukturerade). Agenten laddar aktuell äventyrskontext från minnet, avgör vad som ska hända härnäst och producerar både ett svar och en strukturerad uppdatering av spelstatus. Till sist genererar arbetsflödet ett nytt ljudsvar via Groq text-till-tal och skickar tillbaka det till spelaren i Telegram.

Arbetsflödet börjar med en Telegram-rösttrigger och slutar med ett ljudsvar i samma chatt. Däremellan hanterar Groq transkribering och talgenerering medan agenten använder minnet för att hålla kontinuitet mellan turer. När ett tärningsslag behöver godkännande kan agenten pausa och vänta på det där ”ja, slå”-ögonblicket, i stället för att köra över spelaren.

Det du får: automation vs. resultat

Exempel: så här ser det ut i praktiken

Säg att du kör ett 60-minuters en-mot-en-äventyr med cirka 20 spelarturer. Manuellt kan du lägga ungefär 2 minuter per tur bara på att läsa in kontext, skriva en recap och hålla anteckningar synkade, vilket blir cirka 40 minuter ”overhead” per session. Med det här arbetsflödet skickar spelaren ett röstmeddelande, Groq transkriberar, agenten uppdaterar minnet och Telegram får ett ljudsvar. Din aktiva insats sjunker till snabb övervakning, kanske 5 minuter totalt, eftersom statusspårningen sköts åt dig.

Det här behöver du

  • n8n-instans (prova n8n Cloud gratis)
  • Alternativ för självhosting om du föredrar det (Hostinger fungerar bra)
  • Telegram Bot API-token för att ta emot och skicka röstmeddelanden.
  • Groq API-token för anrop av tal-till-text och text-till-tal.
  • Groq API-token (hämta den i din Groq-dashboard under API keys)

Kunskapsnivå: Medel. Du kopplar upp inloggningar, klistrar in prompts och testar några röstmeddelanden end-to-end.

Vill du inte sätta upp detta själv? Prata med en automationsexpert (gratis 15-minuters konsultation).

Så fungerar det

En spelare skickar ett röstmeddelande i Telegram. Telegram-triggern kör direkt, så du slipper polla eller manuellt vidarebefordra ljudfiler.

Arbetsflödet hämtar ljudfilen och förbereder autentisering. n8n hämtar röstfilen från Telegram och injicerar sedan Groq-token så att nästa anrop kan autentisera korrekt.

Groq transkriberar tal till text. En HTTP Request-nod skickar ljudet till Groq STT och producerar läsbar spelarinmatning som du kan lagra, analysera eller till och med logga för moderering senare.

AI-agenten svarar med ihållande minne. Campaign Guide Agent läser aktuell äventyrsstatus från minnesbuffertfönstret, tillämpar systemreglerna (inklusive ”vänta på godkännande för slag” vid behov) och genererar nästa DM-tur samt statusuppdateringar.

Groq genererar ett talat svar och Telegram levererar det. Textsvaret blir ljud via Groq TTS, och sedan skickar arbetsflödet det direkt tillbaka till spelaren i samma chatt.

Du kan enkelt justera systemprompten så att den matchar din värld och ton utifrån dina behov. Se hela implementationsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementation

Steg 1: Konfigurera Telegram-triggern

Starta arbetsflödet genom att lyssna efter inkommande Telegram-röstmeddelanden.

  1. Lägg till noden Voice Message Trigger som din trigger.
  2. Uppgifter krävs: Anslut era telegramApi-uppgifter.
  3. Låt Updates vara inställd på message (redan konfigurerat) för att fånga röstmeddelanden.

Steg 2: Anslut Telegram-filhämtning och token-injektion

Hämta röstfilen från Telegram och lägg in er Groq API-nyckel i arbetsflödets payload.

  1. Konfigurera Retrieve Voice File med Resource inställd på file och File ID inställd på ={{ $('Voice Message Trigger').item.json.message.voice.file_id }}.
  2. Uppgifter krävs: Anslut era telegramApi-uppgifter till Retrieve Voice File.
  3. I Insert Groq API Token ställer ni in JSON Output till { "groq_api_key": "[CONFIGURE_YOUR_API_KEY]" } och ersätter platshållaren med er riktiga nyckel.

⚠️ Vanlig fallgrop: Om ni lämnar [CONFIGURE_YOUR_API_KEY] oförändrad kommer det att orsaka autentiseringsfel både vid transkribering och talgenerering.

Steg 3: Konfigurera transkribering och RPG-agenten

Transkribera det inkommande röstmeddelandet och routa det till den AI-drivna kampanjguiden med minne.

  1. I Transcribe Audio ställer ni in URL till https://api.groq.com/openai/v1/audio/transcriptions och Method till POST.
  2. Ställ in Content Type till multipart-form-data och aktivera Send Headers och Send Body.
  3. Under Body Parameters ställer ni in url till =https://api.telegram.org/file/bot[CONFIGURE_YOUR_TOKEN]/{{ $('Retrieve Voice File').item.json.result.file_path }} och model till whisper-large-v3.
  4. Under Header Parameters ställer ni in Authorization till =Bearer {{ $json.groq_api_key }}.
  5. I Campaign Guide Agent ställer ni in Text till =Player action:\n{{ $json.text }}\n och låter Prompt Type vara define.
  6. Anslut Groq Dialog Model till Campaign Guide Agent som språkmodell. Uppgifter krävs: Anslut era groqApi-uppgifter i Groq Dialog Model.
  7. Koppla Adventure Memory Log till Campaign Guide Agent som minnesnod och låt Session Key vara inställd på global_session och Context Window Length till 30.

För AI-undernoder som Adventure Memory Log ska uppgifter (om det behövs i framtiden) läggas till i den överordnade AI-noden (Campaign Guide Agent), inte i själva undernoden.

Steg 4: Konfigurera ljudgenerering och Telegram-svar

Gör om AI-svaret till tal och skicka tillbaka det till användaren.

  1. I Generate Speech Audio ställer ni in URL till https://api.groq.com/openai/v1/audio/speech och Method till POST.
  2. Ställ in JSON Body till ={ "model": "playai-tts", "input": "{{ $json.output.replace(/\n/g, '\\n') }}", "voice": "Fritz-PlayAI", "response_format": "wav" }.
  3. Under Header Parameters ställer ni in Authorization till =bearer {{ $('Insert Groq API Token').item.json.groq_api_key }} och Content-Type till application/json.
  4. I Dispatch Audio Reply ställer ni in Operation till sendAudio och aktiverar Binary Data.
  5. Ställ in Chat ID till ={{ $('Voice Message Trigger').item.json.message.chat.id }}.
  6. Uppgifter krävs: Anslut era telegramApi-uppgifter i Dispatch Audio Reply.

⚠️ Vanlig fallgrop: Telegram-filens URL i Transcribe Audio måste innehålla er riktiga bot-token (ersätt [CONFIGURE_YOUR_TOKEN]), annars kan Groq inte hämta ljudfilen.

Steg 5: Testa och aktivera ert arbetsflöde

Verifiera hela voice-to-voice-kedjan innan ni slår på den i produktion.

  1. Klicka på Execute Workflow och skicka ett röstmeddelande till er Telegram-bot för att trigga Voice Message Trigger.
  2. Bekräfta att Retrieve Voice File returnerar en giltig file_path och att Transcribe Audio returnerar en transkribering.
  3. Verifiera att Campaign Guide Agent ger ut berättartext och att Generate Speech Audio returnerar binärt ljud.
  4. Kontrollera att Dispatch Audio Reply skickar ljudet tillbaka till samma chatt.
  5. När allt fungerar växlar ni arbetsflödet till Active för att möjliggöra kontinuerlig användning.
🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Vanliga fallgropar

  • Telegram-inloggningar kan gå ut eller kräva specifika behörigheter. Om något slutar fungera, kontrollera Telegram-bottoken i n8n Credentials och bekräfta att boten fortfarande finns i BotFather.
  • Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om noder längre fram misslyckas på grund av tomma svar.
  • Standardprompter i AI-noder är generiska. Lägg in din varumärkeston tidigt, annars kommer du att redigera output för alltid.

Vanliga frågor

Hur lång tid tar det att sätta upp den här Telegram Groq-chatbot-automationen?

Cirka 30 minuter om dina tokens är klara.

Behöver jag kunna koda för att automatisera Telegram röst-DM-svar?

Ingen kodning krävs. Du klistrar mest in API-tokens, testar ett röstmeddelande och finjusterar agentprompten.

Är n8n gratis att använda för det här Telegram Groq-chatbot-arbetsflödet?

Ja. n8n har ett gratis alternativ för självhosting och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volymer. Du behöver också räkna med Groq API-användning (ofta mycket låg på gratisnivån, därefter pay-as-you-go).

Var kan jag hosta n8n för att köra den här Telegram Groq-chatbot-automationen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller självhosting på en VPS. För självhosting är Hostinger VPS prisvärd och hanterar n8n bra. Självhosting ger dig obegränsat antal körningar men kräver grundläggande serverhantering.

Kan jag anpassa det här Telegram Groq-chatbot-arbetsflödet för ett annat spelsystem?

Ja, men börja med prompten. Du justerar Campaign Guide Agentens systeminstruktioner (regler, turstruktur, tillåtna slag) och, vid behov, hur agenten formaterar ”statusuppdateringar” innan de sparas. Vanliga justeringar är att byta fantasy mot sci‑fi, lägga till ett striktare ”inventory”-schema eller ändra hur recaps genereras i slutet av en scen. Om du håller minnet konsekvent blir allt annat mycket enklare.

Varför misslyckas min Telegram-anslutning i det här arbetsflödet?

Oftast är det en ogiltig eller roterad bottoken. Kontrollera Telegram-uppgifterna i n8n igen och bekräfta sedan att din bot fortfarande kan ta emot röstmeddelanden och att filhämtning är tillåten för den chatten. Om det fungerar för text men inte för röst är det ofta ett behörighets- eller filåtkomstproblem snarare än själva triggern.

Hur många röstmeddelanden klarar den här Telegram Groq-chatbot-automationen?

Den skalar bra för små communities, och självhosting tar bort körningsbegränsningar helt.

Är den här Telegram Groq-chatbot-automationen bättre än att använda Zapier eller Make?

För röst + minne-arbetsflöden är n8n oftast ett bättre val eftersom du kan styra flersteglogik, behålla status och köra mer komplext agentbeteende utan att betala för varje liten förgrening. Zapier och Make kan fungera för enkla flöden som ”röstmeddelande till text”, men ihållande minne och regelstyrda turloopar blir snabbt klumpigt. En annan praktisk punkt är hosting: om du självhostar n8n blir du inte låst av task-prissättning när dina spelare blir pratsamma. Om du bara vill ha en tvåstegsautomation och aldrig tänker bygga ut den kan Zapier fortfarande kännas enklare. Prata med en automationsexpert om du vill ha hjälp att välja.

När minnet och röstloopen väl är på plats slutar upplevelsen att vackla. Arbetsflödet hanterar kontinuiteten, så att du kan fokusera på de roliga delarna och kliva tillbaka när du vill.

Kontakta oss

Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.

×

Använd mall

Få direkt tillgång till denna n8n-arbetsflödes JSON-fil

Få prisoffert redan idag!
Få prisoffert redan idag!

Berätta vad ni behöver hjälp med så hör vi av oss inom en arbetsdag!

Få prisoffert redan idag!
Få prisoffert redan idag!

Berätta vad ni behöver hjälp med så hör vi av oss inom en arbetsdag!

Launch login modal Launch register modal