Telegram + Ollama: privat AI-assistent för röstnoter

Du skickar en röstanteckning till dig själv med något viktigt. Sedan blir den liggande. Du lyssnar om en gång, två gånger, kanske tre. Ändå slutar det med att du skriver en sammanfattning, letar efter den där detaljen du missade, eller bara låter det rinna ut i sanden.

Här gör en Telegram Ollama-assistent stor skillnad. Grundare som jonglerar ett dussin trådar märker det först, helt ärligt. Men marknadsförare som fångar idéer i farten och operatörer som försöker hålla ordning på uppgifter har samma problem.

Det här arbetsflödet gör Telegrams text- och röstmeddelanden till felfria svar och hjälpsamma nästa steg, utan att skicka ditt ljud till en molntjänst. Du får se vad det automatiserar, vad du får tillbaka och hur du kör det på ett säkert sätt.

Så här fungerar automatiseringen

Hela n8n-flödet, från trigger till slutligt resultat:

n8n Workflow Template: Telegram + Ollama: privat AI-assistent för röstnoter

Click to explore

flowchart LR

    subgraph sg0["Telegram Intake Flow"]
        direction LR
        n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Telegram Intake Trigger"]
        n1["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Retrieve Voice File"]
        n2@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Route Message Type", pos: "b", h: 48 }
        n3@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Access Validation Check", pos: "b", h: 48 }
        n4["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Send Access Denial"]
        n5["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Whisper Transcription Call"]
        n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Deliver Bot Reply"]
        n7@{ icon: "mdi:robot", form: "rounded", label: "AI Dialogue Agent", pos: "b", h: 48 }
        n8@{ icon: "mdi:brain", form: "rounded", label: "Ollama Chat Engine", pos: "b", h: 48 }
        n9@{ icon: "mdi:memory", form: "rounded", label: "Context Memory Buffer", pos: "b", h: 48 }
        n10@{ icon: "mdi:cog", form: "rounded", label: "Map Transcript Field", pos: "b", h: 48 }
        n7 --> n6
        n9 -.-> n7
        n1 --> n5
        n0 --> n3
        n8 -.-> n7
        n2 --> n7
        n2 --> n1
        n3 --> n2
        n3 --> n4
        n10 --> n7
        n5 --> n10
    end

    %% Styling
    classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
    classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
    classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
    classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
    classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
    classDef disabled stroke-dasharray: 5 5,opacity: 0.5
    class n0 trigger
    class n7 ai
    class n8 aiModel
    class n9 ai
    class n2,n3 decision
    class n5 api
    classDef customIcon fill:none,stroke:none
    class n0,n1,n4,n5,n6 customIcon

Problemet: röstanteckningar blir en eftersläpning

Röstanteckningar går snabbt att spela in och är långsamma att använda. I samma sekund som du behöver något som går att agera på fastnar du i att skumma igenom ljud, försöka hitta rätt tidsstämpel och sedan skriva om det till något du faktiskt kan jobba med. Det blir ännu värre när anteckningen innehåller känsligt innehåll som kunddetaljer, medicinsk kontext, prissättning, intern strategi eller personliga journalprompter. Moln-“AI-assistenter” kan hjälpa, men de kräver ofta att ljudet skickas bort från enheten, vilket är uteslutet för många team.

Det går snabbt att ackumulera. Inte för att någon enskild röstanteckning är en katastrof, utan för att de staplas på hög och tyst dränerar fokus hela veckan.

Att lyssna om några minuters ljud blir lätt runt 30 minuter av stopp och start när du multitaskar.
Du tappar bra idéer eftersom de aldrig blir uppgifter, utkast eller sammanfattningar som du kan söka i senare.
Molntranskribering känns riskabelt när meddelanden innehåller kundnamn, avtalsvillkor eller interna anteckningar.
Även när du transkriberar måste du ändå be din assistent att “göra något” med det, vilket betyder mer copy-paste.

Lösningen: Telegram-röstanteckningar → lokal transkribering → lokalt AI-svar

Det här arbetsflödet ger dig en privat, chattbaserad assistent som bor i Telegram men körs på din egen maskin. När du skriver till din Telegram-bot (text eller röstanteckning) kontrollerar n8n att avsändaren har behörighet. Text går direkt till din lokala AI-agent. Röstanteckningar tar ett extra steg: n8n hämtar ljudfilen från Telegram, skickar den till en lokal Whisper ASR-endpoint för transkribering och mappar transkriptet till rätt fält för agenten. Agenten använder en Ollama-chattmodell för att resonera och svara, och sedan skickar n8n tillbaka det slutliga svaret i samma Telegram-chatt.

Flödet startar i Telegram och delas sedan upp beroende på meddelandetyp. Whisper sköter tal-till-text lokalt, Ollama sköter “tänkandet” lokalt, och Telegram får ett felfritt svar som du kan agera på direkt.

Vad du får: automatisering vs. resultat

Vad det här arbetsflödet automatiserar

Resultat du får

Det tar emot Telegram-meddelanden som antingen text eller röstanteckningar och routar dem automatiskt.
Det blockerar okända användare genom att kontrollera ditt godkända Telegram-användar-ID.
Det transkriberar röstanteckningar via en lokal Whisper ASR HTTP-endpoint (förkonfigurerad till http://localhost:9000/asr).
Det genererar svar med en Ollama-hostad språkmodell och en enkel minnesbuffert för kontext.

De flesta får tillbaka ungefär 20–30 minuter per dag från “lyssna om och skriva om”-arbete.
Du kan söka i ditt eget tänkande igen eftersom röst blir användbar text direkt.
Känsliga prompter stannar lokalt, vilket minskar integritetsproblem och godkännandeloopar.
Svar kommer i samma chatt, så du slipper växla mellan appar mitt i en uppgift.
Assistenten blir konsekvent eftersom persona och minne finns i ett och samma arbetsflöde som du kontrollerar.

Exempel: så här ser det ut

Säg att du lämnar 6 röstanteckningar om dagen till dig själv (snabba idéer, påminnelser, grova utkast). Manuellt kanske du lägger cirka 5 minuter på att lyssna om och göra varje anteckning användbar, alltså ungefär 30 minuter om dagen. Med det här arbetsflödet skickar du röstanteckningen som vanligt, väntar på lokal transkribering och bearbetning (ofta en minut eller två) och får ett färdigt svar i samma Telegram-tråd. Det är runt 20 minuter tillbaka dagligen, plus färre missade idéer.

Det här behöver du

n8n-instans (prova n8n Cloud gratis)
Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
Telegram-bot för att fånga röstanteckningar och meddelanden
Ollama för att köra en lokal chattmodell
Whisper ASR API-endpoint (använd din lokala tjänst på http://localhost:9000/asr)

Kunskapsnivå: Medel. Du klistrar in tokens, redigerar ett eller två node-fält och verifierar att dina lokala endpoints fungerar.

Vill du inte sätta upp detta själv? Prata med en automationsexpert (kostnadsfri 15-minuters konsultation).

Så här fungerar det

Telegram drar igång det. När någon skickar din bot ett textmeddelande eller en röstanteckning triggas arbetsflödet direkt och hämtar meddelandets payload.

Åtkomst valideras innan något annat händer. n8n kontrollerar avsändaren mot det Telegram-användar-ID du tillåter. Om det inte matchar skickar boten ett meddelande om nekad åtkomst och stoppar.

Röstanteckningar transkriberas lokalt, text går rakt igenom. En switch routar meddelandetypen. Röstmeddelanden får ljudfilen hämtad från Telegram, sedan anropar n8n din lokala Whisper ASR-endpoint och mappar det transkriberade resultatet till fältet som AI-agenten förväntar sig.

Ollama genererar svaret med minne. AI-agenten använder en minnesbuffert för att hålla konversationen sammanhängande, sedan producerar Ollama-chattmodellen det slutliga svaret som n8n levererar tillbaka till Telegram.

Du kan enkelt justera assistentens persona så att den matchar din ton utifrån dina behov. Se hela implementationsguiden nedan för alternativ för anpassning.

Steg-för-steg-guide för implementering

Steg 1: Konfigurera Telegram-triggern

Konfigurera inkommande Telegram-uppdateringar så att arbetsflödet kan ta emot text- och röstmeddelanden.

Lägg till noden Telegram Intake Trigger och ställ in Updates till message.
I Additional Fields, aktivera Download genom att sätta den till true.
Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Telegram Intake Trigger.

Steg 2: Lägg till åtkomstkontroll och meddelanderoutning

Filtrera vilka användare som får använda assistenten och routa förfrågningar baserat på meddelandetyp.

Konfigurera Access Validation Check med ett villkor där Left Value är {{ $json.message.from.id }} och talet Equals ert tillåtna användar-ID.
Koppla true-utgången från Access Validation Check till Route Message Type, och false-utgången till Send Access Denial.
I Route Message Type, ställ in regel 1 att kontrollera om {{ $json.message.text }} finns och regel 2 att kontrollera om {{ $json.message.voice.file_id }} finns.

⚠️ Vanlig fallgrop: Villkoret i Access Validation Check jämför för närvarande användar-ID med null. Ersätt detta med ert tillåtna Telegram-användar-ID, annars kan alla användare blockeras.

Steg 3: Konfigurera flödet för rösttranskribering

Hantera röstmeddelanden genom att ladda ner filen och skicka den till Whisper.

I Retrieve Voice File, ställ in Resource till file och File ID till {{ $json.message.voice.file_id }}.
Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Retrieve Voice File.
Konfigurera Whisper Transcription Call med URL http://localhost:9000/asr, Method POST och Content Type multipart-form-data.
Ställ in body-parametern i Whisper Transcription Call så att audio_file skickas från binärfältet data.
I Map Transcript Field, mappa currentKey data till newKey message.text.

Steg 4: Sätt upp AI-konversationslagret

Konfigurera agenten, minnet och modellen för att generera svar från text eller transkriberad input.

I AI Dialogue Agent, ställ in Prompt Type till define och använd texten: You are my personal chatbot assistant. My input: '{{ $json.message.text }}'. Your Answer:.
Koppla Ollama Chat Engine till AI Dialogue Agent som språkmodell och ställ in Model till llama3.2:1b.
Inloggningsuppgifter krävs: Anslut era ollamaApi-inloggningsuppgifter i Ollama Chat Engine.
Koppla Context Memory Buffer till AI Dialogue Agent och ställ in Session Key till {{ $json.message.text }} med Context Window Length 2.

Context Memory Buffer är en AI-undernod. Säkerställ att inloggningsuppgifter läggs till i den överordnade modellnoden (Ollama Chat Engine), inte i minnesnoden i sig.

Steg 5: Konfigurera Telegram-svar och åtkomstnekanden

Skicka assistentens output tillbaka till Telegram och blockera obehöriga användare.

I Send Access Denial, ställ in Text till I am sorry, you have no access to my services. och Chat ID till {{ json.message.from.id }}.
Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Send Access Denial.
I Deliver Bot Reply, ställ in Text till {{ $json.output }} och säkerställ att Append Attribution är false.
Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Deliver Bot Reply.

⚠️ Vanlig fallgrop: Deliver Bot Reply har ett tomt Chat ID. Säkerställ att noden får ett giltigt chatt-ID från tidigare steg, eller ange det explicit för att undvika tysta fel.

Steg 6: Testa och aktivera ert arbetsflöde

Verifiera att varje väg fungerar för text- och röstmeddelanden och aktivera därefter användning i produktion.

Klicka på Execute Workflow och skicka ett textmeddelande till er Telegram-bot; bekräfta att AI Dialogue Agent ger ett svar och att Deliver Bot Reply skickar tillbaka det.
Skicka ett röstmeddelande; bekräfta att flödet Retrieve Voice File → Whisper Transcription Call → Map Transcript Field → AI Dialogue Agent körs utan problem.
Testa åtkomstblockering genom att använda ett obehörigt Telegram-konto och verifiera att Send Access Denial triggas.
När testerna går igenom, slå på arbetsflödet till Active för att aktivera automationen live.

🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Vanliga fallgropar

Telegram-inloggningsuppgifter kan löpa ut eller bot-token kan roteras. Om saker slutar fungera: kontrollera först Telegram-credentialen i n8n och bekräfta att boten fortfarande svarar i Telegram.
Om du använder Wait-noder eller extern rendering varierar bearbetningstiderna. Öka väntetiden om nedströmsnoder fallerar på tomma svar.
Ollama-modellnamn måste matcha det som är installerat lokalt. Om svar plötsligt misslyckas: öppna Ollama-noden och bekräfta att vald modell (till exempel llama3.2:1b) faktiskt finns på den maskinen.

Vanliga frågor

Hur lång tid tar det att sätta upp den här automatiseringen för en Telegram Ollama-assistent?

Cirka en timme om Ollama och Whisper redan kör.

Behöver jag kodkunskaper för att automatisera svar på Telegram-röstanteckningar?

Nej. Du klistrar mest in tokens, väljer credentials och uppdaterar en lokal URL.

Är n8n gratis att använda för det här arbetsflödet med en Telegram Ollama-assistent?

Ja. n8n har ett gratis alternativ för egen drift och en gratis provperiod på n8n Cloud. Molnplaner startar på 20 USD/månad för högre volym. Du behöver också räkna in din lokala beräkningskostnad för att köra Ollama och Whisper.

Var kan jag hosta n8n för att köra den här automatiseringen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärd och hanterar n8n bra. Egen drift ger obegränsade exekveringar men kräver grundläggande serveradministration.

Kan jag anpassa det här arbetsflödet för en Telegram Ollama-assistent till en striktare “endast jobb”-persona?

Ja, och det är ett av de bästa skälen att köra självhostat. Uppdatera instruktionerna i noden AI Dialogue Agent så att den vägrar personliga ämnen och alltid svarar med uppgifter, sammanfattningar eller action items. Du kan också strama åt Context Memory Buffer så att den minns mindre historik, vilket håller svaren fokuserade. Om du vill ha en annan skrivstil, byt modell i noden Ollama Chat Engine till en som du redan har hämtat lokalt.

Varför misslyckas min Telegram-anslutning i det här arbetsflödet?

Oftast är bot-token i dina Telegram-credentials fel eller har återskapats. Öppna Telegram Trigger- och Telegram send-noderna och välj rätt credential igen. Säkerställ också att din bot fortfarande får hämta filer, eftersom röstanteckningar kräver att arbetsflödet hämtar ljudet innan det kan transkribera något.

Hur många röstanteckningar kan den här automatiseringen för en Telegram Ollama-assistent hantera?

Om du kör n8n självhostat finns ingen fast exekveringsgräns; kapaciteten beror främst på din CPU/GPU för Whisper och Ollama.

Är den här automatiseringen för en Telegram Ollama-assistent bättre än att använda Zapier eller Make?

Ofta ja, eftersom hela poängen här är lokal bearbetning och bättre kontroll. Zapier och Make är utmärkta för enkla integrationer, men det här arbetsflödet gynnas av förgreningslogik (text vs röst), ett lokalt HTTP-anrop till Whisper och en modell på enheten via Ollama. Du slipper också prissättning per task som kan bli irriterande när du skickar många korta meddelanden. Nackdelen är setup: du ansvarar för att köra de lokala tjänsterna. Om du vill ha en snabb rekommendation för din situation, prata med en automationsexpert.

När detta väl rullar slutar röstanteckningar vara en skuldhög och blir svar du faktiskt kan använda. Arbetsflödet tar hand om det repetitiva, så att du kan fortsätta med din dag.

Telegram + Ollama: privat AI-assistent för röstnoter

Så här fungerar automatiseringen

n8n Workflow Template: Telegram + Ollama: privat AI-assistent för röstnoter

Problemet: röstanteckningar blir en eftersläpning

Lösningen: Telegram-röstanteckningar → lokal transkribering → lokalt AI-svar

Vad du får: automatisering vs. resultat

Exempel: så här ser det ut

Det här behöver du

Så här fungerar det

Steg-för-steg-guide för implementering

Steg 1: Konfigurera Telegram-triggern

Steg 2: Lägg till åtkomstkontroll och meddelanderoutning

Steg 3: Konfigurera flödet för rösttranskribering

Steg 4: Sätt upp AI-konversationslagret

Steg 5: Konfigurera Telegram-svar och åtkomstnekanden

Steg 6: Testa och aktivera ert arbetsflöde

Lås upp fullständig steg-för-steg-guide

Vanliga fallgropar

Vanliga frågor

Kontakta oss

Kontakta oss

Telegram + Ollama: privat AI-assistent för röstnoter

Så här fungerar automatiseringen

n8n Workflow Template: Telegram + Ollama: privat AI-assistent för röstnoter

Problemet: röstanteckningar blir en eftersläpning

Lösningen: Telegram-röstanteckningar → lokal transkribering → lokalt AI-svar

Vad du får: automatisering vs. resultat

Exempel: så här ser det ut

Det här behöver du

Så här fungerar det

Steg-för-steg-guide för implementering

Steg 1: Konfigurera Telegram-triggern

Steg 2: Lägg till åtkomstkontroll och meddelanderoutning

Steg 3: Konfigurera flödet för rösttranskribering

Steg 4: Sätt upp AI-konversationslagret

Steg 5: Konfigurera Telegram-svar och åtkomstnekanden

Steg 6: Testa och aktivera ert arbetsflöde

Lås upp fullständig steg-för-steg-guide

Vanliga fallgropar

Relaterade arbetsflöden

Vanliga frågor

Kontakta oss

Använd mall