Du skickar en röstanteckning till dig själv med något viktigt. Sedan blir den liggande. Du lyssnar om en gång, två gånger, kanske tre. Ändå slutar det med att du skriver en sammanfattning, letar efter den där detaljen du missade, eller bara låter det rinna ut i sanden.
Här gör en Telegram Ollama-assistent stor skillnad. Grundare som jonglerar ett dussin trådar märker det först, helt ärligt. Men marknadsförare som fångar idéer i farten och operatörer som försöker hålla ordning på uppgifter har samma problem.
Det här arbetsflödet gör Telegrams text- och röstmeddelanden till felfria svar och hjälpsamma nästa steg, utan att skicka ditt ljud till en molntjänst. Du får se vad det automatiserar, vad du får tillbaka och hur du kör det på ett säkert sätt.
Så här fungerar automatiseringen
Hela n8n-flödet, från trigger till slutligt resultat:
n8n Workflow Template: Telegram + Ollama: privat AI-assistent för röstnoter
flowchart LR
subgraph sg0["Telegram Intake Flow"]
direction LR
n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Telegram Intake Trigger"]
n1["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Retrieve Voice File"]
n2@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Route Message Type", pos: "b", h: 48 }
n3@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Access Validation Check", pos: "b", h: 48 }
n4["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Send Access Denial"]
n5["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Whisper Transcription Call"]
n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Deliver Bot Reply"]
n7@{ icon: "mdi:robot", form: "rounded", label: "AI Dialogue Agent", pos: "b", h: 48 }
n8@{ icon: "mdi:brain", form: "rounded", label: "Ollama Chat Engine", pos: "b", h: 48 }
n9@{ icon: "mdi:memory", form: "rounded", label: "Context Memory Buffer", pos: "b", h: 48 }
n10@{ icon: "mdi:cog", form: "rounded", label: "Map Transcript Field", pos: "b", h: 48 }
n7 --> n6
n9 -.-> n7
n1 --> n5
n0 --> n3
n8 -.-> n7
n2 --> n7
n2 --> n1
n3 --> n2
n3 --> n4
n10 --> n7
n5 --> n10
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n0 trigger
class n7 ai
class n8 aiModel
class n9 ai
class n2,n3 decision
class n5 api
classDef customIcon fill:none,stroke:none
class n0,n1,n4,n5,n6 customIcon
Problemet: röstanteckningar blir en eftersläpning
Röstanteckningar går snabbt att spela in och är långsamma att använda. I samma sekund som du behöver något som går att agera på fastnar du i att skumma igenom ljud, försöka hitta rätt tidsstämpel och sedan skriva om det till något du faktiskt kan jobba med. Det blir ännu värre när anteckningen innehåller känsligt innehåll som kunddetaljer, medicinsk kontext, prissättning, intern strategi eller personliga journalprompter. Moln-“AI-assistenter” kan hjälpa, men de kräver ofta att ljudet skickas bort från enheten, vilket är uteslutet för många team.
Det går snabbt att ackumulera. Inte för att någon enskild röstanteckning är en katastrof, utan för att de staplas på hög och tyst dränerar fokus hela veckan.
- Att lyssna om några minuters ljud blir lätt runt 30 minuter av stopp och start när du multitaskar.
- Du tappar bra idéer eftersom de aldrig blir uppgifter, utkast eller sammanfattningar som du kan söka i senare.
- Molntranskribering känns riskabelt när meddelanden innehåller kundnamn, avtalsvillkor eller interna anteckningar.
- Även när du transkriberar måste du ändå be din assistent att “göra något” med det, vilket betyder mer copy-paste.
Lösningen: Telegram-röstanteckningar → lokal transkribering → lokalt AI-svar
Det här arbetsflödet ger dig en privat, chattbaserad assistent som bor i Telegram men körs på din egen maskin. När du skriver till din Telegram-bot (text eller röstanteckning) kontrollerar n8n att avsändaren har behörighet. Text går direkt till din lokala AI-agent. Röstanteckningar tar ett extra steg: n8n hämtar ljudfilen från Telegram, skickar den till en lokal Whisper ASR-endpoint för transkribering och mappar transkriptet till rätt fält för agenten. Agenten använder en Ollama-chattmodell för att resonera och svara, och sedan skickar n8n tillbaka det slutliga svaret i samma Telegram-chatt.
Flödet startar i Telegram och delas sedan upp beroende på meddelandetyp. Whisper sköter tal-till-text lokalt, Ollama sköter “tänkandet” lokalt, och Telegram får ett felfritt svar som du kan agera på direkt.
Vad du får: automatisering vs. resultat
| Vad det här arbetsflödet automatiserar | Resultat du får |
|---|---|
|
|
Exempel: så här ser det ut
Säg att du lämnar 6 röstanteckningar om dagen till dig själv (snabba idéer, påminnelser, grova utkast). Manuellt kanske du lägger cirka 5 minuter på att lyssna om och göra varje anteckning användbar, alltså ungefär 30 minuter om dagen. Med det här arbetsflödet skickar du röstanteckningen som vanligt, väntar på lokal transkribering och bearbetning (ofta en minut eller två) och får ett färdigt svar i samma Telegram-tråd. Det är runt 20 minuter tillbaka dagligen, plus färre missade idéer.
Det här behöver du
- n8n-instans (prova n8n Cloud gratis)
- Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
- Telegram-bot för att fånga röstanteckningar och meddelanden
- Ollama för att köra en lokal chattmodell
- Whisper ASR API-endpoint (använd din lokala tjänst på http://localhost:9000/asr)
Kunskapsnivå: Medel. Du klistrar in tokens, redigerar ett eller två node-fält och verifierar att dina lokala endpoints fungerar.
Vill du inte sätta upp detta själv? Prata med en automationsexpert (kostnadsfri 15-minuters konsultation).
Så här fungerar det
Telegram drar igång det. När någon skickar din bot ett textmeddelande eller en röstanteckning triggas arbetsflödet direkt och hämtar meddelandets payload.
Åtkomst valideras innan något annat händer. n8n kontrollerar avsändaren mot det Telegram-användar-ID du tillåter. Om det inte matchar skickar boten ett meddelande om nekad åtkomst och stoppar.
Röstanteckningar transkriberas lokalt, text går rakt igenom. En switch routar meddelandetypen. Röstmeddelanden får ljudfilen hämtad från Telegram, sedan anropar n8n din lokala Whisper ASR-endpoint och mappar det transkriberade resultatet till fältet som AI-agenten förväntar sig.
Ollama genererar svaret med minne. AI-agenten använder en minnesbuffert för att hålla konversationen sammanhängande, sedan producerar Ollama-chattmodellen det slutliga svaret som n8n levererar tillbaka till Telegram.
Du kan enkelt justera assistentens persona så att den matchar din ton utifrån dina behov. Se hela implementationsguiden nedan för alternativ för anpassning.
Steg-för-steg-guide för implementering
Steg 1: Konfigurera Telegram-triggern
Konfigurera inkommande Telegram-uppdateringar så att arbetsflödet kan ta emot text- och röstmeddelanden.
- Lägg till noden Telegram Intake Trigger och ställ in Updates till
message. - I Additional Fields, aktivera Download genom att sätta den till
true. - Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Telegram Intake Trigger.
Steg 2: Lägg till åtkomstkontroll och meddelanderoutning
Filtrera vilka användare som får använda assistenten och routa förfrågningar baserat på meddelandetyp.
- Konfigurera Access Validation Check med ett villkor där Left Value är
{{ $json.message.from.id }}och talet Equals ert tillåtna användar-ID. - Koppla true-utgången från Access Validation Check till Route Message Type, och false-utgången till Send Access Denial.
- I Route Message Type, ställ in regel 1 att kontrollera om
{{ $json.message.text }}finns och regel 2 att kontrollera om{{ $json.message.voice.file_id }}finns.
null. Ersätt detta med ert tillåtna Telegram-användar-ID, annars kan alla användare blockeras.Steg 3: Konfigurera flödet för rösttranskribering
Hantera röstmeddelanden genom att ladda ner filen och skicka den till Whisper.
- I Retrieve Voice File, ställ in Resource till
fileoch File ID till{{ $json.message.voice.file_id }}. - Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Retrieve Voice File.
- Konfigurera Whisper Transcription Call med URL
http://localhost:9000/asr, MethodPOSToch Content Typemultipart-form-data. - Ställ in body-parametern i Whisper Transcription Call så att audio_file skickas från binärfältet
data. - I Map Transcript Field, mappa currentKey
datatill newKeymessage.text.
Steg 4: Sätt upp AI-konversationslagret
Konfigurera agenten, minnet och modellen för att generera svar från text eller transkriberad input.
- I AI Dialogue Agent, ställ in Prompt Type till
defineoch använd texten:You are my personal chatbot assistant. My input: '{{ $json.message.text }}'. Your Answer:. - Koppla Ollama Chat Engine till AI Dialogue Agent som språkmodell och ställ in Model till
llama3.2:1b. - Inloggningsuppgifter krävs: Anslut era ollamaApi-inloggningsuppgifter i Ollama Chat Engine.
- Koppla Context Memory Buffer till AI Dialogue Agent och ställ in Session Key till
{{ $json.message.text }}med Context Window Length2.
Steg 5: Konfigurera Telegram-svar och åtkomstnekanden
Skicka assistentens output tillbaka till Telegram och blockera obehöriga användare.
- I Send Access Denial, ställ in Text till
I am sorry, you have no access to my services.och Chat ID till{{ json.message.from.id }}. - Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Send Access Denial.
- I Deliver Bot Reply, ställ in Text till
{{ $json.output }}och säkerställ att Append Attribution ärfalse. - Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Deliver Bot Reply.
Steg 6: Testa och aktivera ert arbetsflöde
Verifiera att varje väg fungerar för text- och röstmeddelanden och aktivera därefter användning i produktion.
- Klicka på Execute Workflow och skicka ett textmeddelande till er Telegram-bot; bekräfta att AI Dialogue Agent ger ett svar och att Deliver Bot Reply skickar tillbaka det.
- Skicka ett röstmeddelande; bekräfta att flödet Retrieve Voice File → Whisper Transcription Call → Map Transcript Field → AI Dialogue Agent körs utan problem.
- Testa åtkomstblockering genom att använda ett obehörigt Telegram-konto och verifiera att Send Access Denial triggas.
- När testerna går igenom, slå på arbetsflödet till Active för att aktivera automationen live.
Vanliga fallgropar
- Telegram-inloggningsuppgifter kan löpa ut eller bot-token kan roteras. Om saker slutar fungera: kontrollera först Telegram-credentialen i n8n och bekräfta att boten fortfarande svarar i Telegram.
- Om du använder Wait-noder eller extern rendering varierar bearbetningstiderna. Öka väntetiden om nedströmsnoder fallerar på tomma svar.
- Ollama-modellnamn måste matcha det som är installerat lokalt. Om svar plötsligt misslyckas: öppna Ollama-noden och bekräfta att vald modell (till exempel llama3.2:1b) faktiskt finns på den maskinen.
Vanliga frågor
Cirka en timme om Ollama och Whisper redan kör.
Nej. Du klistrar mest in tokens, väljer credentials och uppdaterar en lokal URL.
Ja. n8n har ett gratis alternativ för egen drift och en gratis provperiod på n8n Cloud. Molnplaner startar på 20 USD/månad för högre volym. Du behöver också räkna in din lokala beräkningskostnad för att köra Ollama och Whisper.
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärd och hanterar n8n bra. Egen drift ger obegränsade exekveringar men kräver grundläggande serveradministration.
Ja, och det är ett av de bästa skälen att köra självhostat. Uppdatera instruktionerna i noden AI Dialogue Agent så att den vägrar personliga ämnen och alltid svarar med uppgifter, sammanfattningar eller action items. Du kan också strama åt Context Memory Buffer så att den minns mindre historik, vilket håller svaren fokuserade. Om du vill ha en annan skrivstil, byt modell i noden Ollama Chat Engine till en som du redan har hämtat lokalt.
Oftast är bot-token i dina Telegram-credentials fel eller har återskapats. Öppna Telegram Trigger- och Telegram send-noderna och välj rätt credential igen. Säkerställ också att din bot fortfarande får hämta filer, eftersom röstanteckningar kräver att arbetsflödet hämtar ljudet innan det kan transkribera något.
Om du kör n8n självhostat finns ingen fast exekveringsgräns; kapaciteten beror främst på din CPU/GPU för Whisper och Ollama.
Ofta ja, eftersom hela poängen här är lokal bearbetning och bättre kontroll. Zapier och Make är utmärkta för enkla integrationer, men det här arbetsflödet gynnas av förgreningslogik (text vs röst), ett lokalt HTTP-anrop till Whisper och en modell på enheten via Ollama. Du slipper också prissättning per task som kan bli irriterande när du skickar många korta meddelanden. Nackdelen är setup: du ansvarar för att köra de lokala tjänsterna. Om du vill ha en snabb rekommendation för din situation, prata med en automationsexpert.
När detta väl rullar slutar röstanteckningar vara en skuldhög och blir svar du faktiskt kan använda. Arbetsflödet tar hand om det repetitiva, så att du kan fortsätta med din dag.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.