Du spelar in en snabb röstanteckning, och sedan försvinner den i din chatthistorik. Senare kommer du på “den där idén” och lägger 10 minuter på att skrolla, lyssna om och ändå hittar du den inte.
Den här automatiseringen för transkribering av röstanteckningar träffar innehållsskapare först, om vi ska vara ärliga. Men journalister och stressade ops-personer känner också igen sig, för “jag transkriberar det senare” blir snabbt en backlogg.
I den här guiden får du se hur en Telegram-bot transkriberar röstmeddelanden, sparar originalaudio i Google Drive och loggar allt i Google Sheets så att du kan söka, filtrera och dela på några sekunder.
Så fungerar automatiseringen
Här är hela arbetsflödet du ska sätta upp:
n8n Workflow Template: Telegram till Google Sheets, röstnoter blir sökbara
flowchart LR
subgraph sg0["Telegram Voice Message Flow"]
direction LR
n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Un-supported message type"]
n1@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Is audio message?", pos: "b", h: 48 }
n2["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Download audio message"]
n3@{ icon: "mdi:robot", form: "rounded", label: "Transcribe a recording", pos: "b", h: 48 }
n4@{ icon: "mdi:cog", form: "rounded", label: "Upload file", pos: "b", h: 48 }
n5["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/merge.svg' width='40' height='40' /></div><br/>Merge"]
n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Telegram Voice Message Trigger"]
n7["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Inform user via Telegram"]
n8@{ icon: "mdi:database", form: "rounded", label: "Log voice record to google s..", pos: "b", h: 48 }
n9["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Transform the output of voic.."]
n5 --> n9
n4 --> n5
n1 --> n2
n1 --> n0
n2 --> n3
n2 --> n4
n3 --> n5
n6 --> n1
n9 --> n8
n9 --> n7
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n6 trigger
class n3 ai
class n1 decision
class n8 database
class n9 code
classDef customIcon fill:none,stroke:none
class n0,n2,n5,n6,n7,n9 customIcon
Varför det här spelar roll: röstanteckningar du inte hittar igen
Röstanteckningar är toppen i stunden. De går snabbt, kräver ingen ansträngning och fångar tankar när du går, kör bil eller hoppar mellan möten. Problemet kommer senare. Telegram är inte byggt för att du ska kunna söka i ljud, så “biblioteket” du tror att du skapar blir en hög inspelningar utan index. Om du samlar idéer, intervjuklipp, kundcitat eller mötesinsikter blir den högen tyst och stilla oanvändbar. Du slutar lita på ditt eget system och börjar göra om jobb du redan har gjort.
Det eskalerar snabbt. Här är var det skapar fel i verkligheten.
- Att hitta en specifik idé betyder ofta att du måste spela upp en massa röstanteckningar, vilket är frustrerande och långsamt.
- Manuell transkribering skjuts upp, blir sedan bortglömd, och de bästa detaljerna försvinner bakom “jag gör det senare”.
- Att dela ett ljudklipp med en kollega är krångligt när det saknas en korrekt formaterad länk, kontext och text.
- Utan en strukturerad logg (datum, längd, transkript, URL) kan du inte sortera, filtrera eller bygga en pålitlig content pipeline.
Det du bygger: Telegram-röstanteckningar loggade till Sheets automatiskt
Det här arbetsflödet gör Telegram till din “insamlingsinkorg” och Google Sheets till ditt sökbara arkiv. Det startar när någon skickar ett röstmeddelande till din Telegram-bot. n8n kontrollerar meddelandetypen så att du bara hanterar riktiga röstanteckningar och laddar sedan ner ljudfilen från Telegram. Därefter transkriberas ljudet med OpenAI Whisper, samtidigt som originalfilen laddas upp till Google Drive för säker förvaring. Sedan slås transkriptet och Drive-filens detaljer ihop till en korrekt formaterad post, formateras i kolumner och läggs till längst ner i ett Google Sheet. Till sist svarar boten i Telegram med en bekräftelse som innehåller transkriptet och en nedladdningslänk till det sparade ljudet.
Flödet är lätt att förstå, vilket är en stor del av nyttan. Telegram triggar det, OpenAI sköter transkriberingen, Google Drive lagrar originalet och Google Sheets blir platsen där du faktiskt söker och organiserar dina anteckningar.
Det du bygger
| Det som automatiseras | Det du uppnår |
|---|---|
|
|
Förväntade resultat
Säg att du fångar 10 röstanteckningar i veckan och att varje är 30 sekunder till 2 minuter. Manuellt skulle du ladda ner ljudet (några minuter), ladda upp det någonstans (några till) och sedan skriva en grov transkribering (ofta 10 minuter per anteckning). Det är cirka 2 timmar i veckan bara för att göra dina egna anteckningar användbara. Med det här flödet skickar du röstanteckningen som vanligt och väntar på svaret; loggposten och Drive-backupen sker i bakgrunden, oftast inom ett par minuter.
Innan du börjar
- n8n-instans (testa n8n Cloud gratis)
- Alternativ för self-hosting om du föredrar det (Hostinger fungerar bra)
- Telegram-bot för att ta emot röstmeddelanden via en bot.
- Google Sheets för att lagra en sökbar transkriptlogg.
- OpenAI API-nyckel (hämta den i OpenAI-dashboarden)
Kunskapsnivå: Nybörjare. Du kopplar konton, klistrar in en API-nyckel och väljer ett målark samt en Drive-mapp.
Vill du att någon bygger detta åt dig? Prata med en automationsexpert (gratis 15-minuters konsultation).
Steg för steg
En Telegram-bot tar emot ett nytt meddelande. Flödet startar med en Telegram Trigger som lyssnar efter nya meddelanden som skickas till din bot, så du behöver inte öppna n8n för att “köra” något.
Flödet kontrollerar om det faktiskt är en röstanteckning. Ett enkelt villkorssteg validerar meddelandetypen. Om någon skickar text eller en bild svarar boten artigt och slösar inte dina transkriberingskrediter.
Ljudet laddas ner, transkriberas och säkerhetskopieras. n8n hämtar .oga-filen från Telegram, skickar den till OpenAI Whisper för transkribering och laddar upp originalaudio till Google Drive så att du alltid har källfilen.
Allt slås ihop till en korrekt formaterad loggpost. Transkriptet, datum/tid, längd och Google Drive-nedladdnings-URL mappas till en strukturerad rad och läggs till i Google Sheets. Därefter skickas en bekräftelse tillbaka i Telegram med transkriptet och länken.
Du kan enkelt justera loggformatet för att inkludera taggar, talarnamn eller en kort sammanfattning utifrån dina behov. Se hela implementationsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementering
Steg 1: Konfigurera Telegram-triggern
Börja med att konfigurera Telegram-lyssnaren så att arbetsflödet kan fånga inkommande röstmeddelanden.
- Lägg till och öppna Telegram Voice Trigger.
- Ställ in Updates på
message. - Under Additional Fields, aktivera Download och sätt det till
true. - Inloggning krävs: Anslut era telegramApi-inloggningsuppgifter.
Steg 2: Validera indata och hantera icke-röstmeddelanden
Säkerställ att endast röstmeddelanden behandlas och ge ett hjälpsamt svar för indatatyp som inte stöds.
- Öppna Validate Voice Type och bekräfta att villkoret använder String → Contains med Left Value satt till
={{ $json.message.toJsonString() }}och Right Value satt tillaudio/ogg. - Koppla utgången false från Validate Voice Type till Unsupported Input Reply.
- I Unsupported Input Reply, ställ in Text till
=Sorry, I can’t read your input right now. Please send me a voice message, and I’ll help you transcribe and track it! 🎙️💬. - Ställ in Chat ID till
={{ $('Telegram Voice Trigger').item.json.message.chat.id }}. - Inloggning krävs: Anslut era telegramApi-inloggningsuppgifter för Unsupported Input Reply.
Steg 3: Hämta röstfilen och bearbeta parallellt
Ladda ner röstfilen och transkribera samt lagra den samtidigt.
- Konfigurera Fetch Voice File med Resource satt till
file. - Ställ in File ID till
={{ $json.message.voice.file_id }}. - Inloggning krävs: Anslut era telegramApi-inloggningsuppgifter för Fetch Voice File.
- Fetch Voice File skickar utdata till både Transcribe Audio Clip och Store Audio in Drive parallellt.
- I Transcribe Audio Clip, ställ in Resource på
audiooch Operation påtranscribe. - Inloggning krävs: Anslut era openAiApi-inloggningsuppgifter för Transcribe Audio Clip.
- I Store Audio in Drive, ställ in Name till
=audio-{{ $now.toFormat("yyyyLLdd-HHmmss") }}-{{$binary.data.fileName}}. - Ställ in Drive på
My Driveoch Folder till ID:t för er målmappp. - Inloggning krävs: Anslut era googleDriveOAuth2Api-inloggningsuppgifter för Store Audio in Drive.
true.Steg 4: Slå ihop utdata och mappa den slutliga posten
Kombinera transkription och filmetadata och strukturera sedan utdata för loggning och notifieringar.
- Koppla både Transcribe Audio Clip och Store Audio in Drive till Combine Transcript & File.
- Öppna Map Voice Record Output och klistra in JavaScript-koden som visas i noden för att mappa
DateTime,Duration,Transcript,AudioURLochChatID. - Bekräfta att koden refererar till triggerns chatt-ID med
$('Telegram Voice Trigger').first().json.message.chat.id.
Steg 5: Konfigurera åtgärder för utdata
Logga transkriptionen i Google Sheets och notifiera användaren i Telegram.
- Map Voice Record Output skickar utdata till både Append Voice Log och Notify User in Telegram parallellt.
- I Append Voice Log, ställ in Operation på
append, välj ert Document och välj Sheet (t.ex.Sheet1). - Inloggning krävs: Anslut era googleSheetsOAuth2Api-inloggningsuppgifter för Append Voice Log.
- I Notify User in Telegram, ställ in Text till
=✅ Voice Transcription Complete Your voice recording (⏱️ {{ $json.Duration }} seconds, recorded at {{ $json.DateTime }}) has been successfully transcribed and securely stored. 📎 Original audio stored here: {{ $json.AudioURL }} Thank you for using VoiceScribe AI! 🎙️. - Ställ in Chat ID till
={{ $json.ChatID }}. - Inloggning krävs: Anslut era telegramApi-inloggningsuppgifter för Notify User in Telegram.
Steg 6: Testa och aktivera ert arbetsflöde
Verifiera flödet från början till slut och slå sedan på automatiseringen.
- Klicka på Execute Workflow och skicka ett röstmeddelande till er Telegram-bot.
- Bekräfta att Append Voice Log lägger till en ny rad som innehåller
DateTime,Duration,TranscriptochAudioURL. - Verifiera att Notify User in Telegram svarar med det formaterade bekräftelsemeddelandet och länken.
- Om allt lyckas, växla arbetsflödet till Active för att aktivera användning i produktion.
Felsökningstips
- Google Drive-inloggningar kan löpa ut eller kräva specifika behörigheter. Om saker slutar fungera, kontrollera först n8n-skärmen Credentials och bekräfta Drive-scope samt åtkomst till målmappen.
- Om du använder Wait-noder eller extern rendering varierar bearbetningstiderna. Öka väntetiden om nedströmsnoder fallerar på tomma svar.
- OpenAI-prompter och standardinställningar kan vara lite generiska. Lägg in ditt önskade språk och formatering tidigt (till exempel “returnera korrekt formaterade stycken med skiljetecken”), annars kommer du fortsätta putsa transkript manuellt.
Snabba svar
Cirka 30 minuter om dina konton är redo.
Nej. Du kopplar Telegram, Google och OpenAI och väljer sedan kalkylarket och Drive-mappen.
Ja. n8n har ett gratis self-hosted-alternativ och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna med kostnader för OpenAI Whisper API (oftast ören per minut ljud).
Två alternativ: n8n Cloud (hanterad, enklast att komma igång) eller self-hosting på en VPS. För self-hosting är Hostinger VPS prisvärd och hanterar n8n bra. Self-hosting ger dig obegränsade körningar men kräver grundläggande serverhantering.
Ja, ganska enkelt. Du kan byta ut steget “Transcribe Audio Clip” mot Deepgram eller AssemblyAI och sedan behålla samma loggning i Google Drive + Google Sheets. Vanliga justeringar är att lägga till en kort sammanfattning efter transkriberingen, tagga anteckningar per projekt eller routa specifika nyckelord till Slack i stället för (eller utöver) Sheets.
Oftast är det ett problem med bot-token eller att fel update-typ lyssnas på. Dubbelkolla token i n8n Credentials och bekräfta sedan att Telegram Trigger är konfigurerad för meddelanden som innehåller röstanteckningar. Om det fungerar för text men inte för ljud kan filtret för meddelandetyp vara för strikt, eller så saknar steget “Fetch Voice File” behörighet att ladda ner filer från Telegrams API.
De flesta små team kan köra hundratals röstanteckningar i månaden utan att ens behöva tänka på det.
Ofta, ja, när du går bortom en leksakssetup. Det här flödet behöver förgreningar (röst vs inte röst), binär filhantering för ljud och att slå ihop flera utdata (transkript + Drive-länk) till en strukturerad rad. n8n är bekväm med den komplexiteten, och self-hosting undviker prissättning per uppgift när användningen växer. Zapier eller Make kan fortfarande fungera om du har låg volym och vill ha den snabbaste UI-only-setupen, men du kan stöta på begränsningar eller högre kostnader med fil-tunga steg. Prata med en automationsexpert om du vill ha hjälp att välja.
När det här väl rullar slutar dina röstanteckningar vara “meddelanden” och blir en faktisk kunskapsbas du kan söka i. Sätt upp det en gång, och gå sedan tillbaka till jobbet som kräver din hjärna.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.