Att transkribera ljud från e-post låter enkelt tills du sitter med en hög bilagor, halvt namngivna filer och ett tomt Google-dokument. Sedan kommer den långsamma delen: ladda upp, vänta, kopiera, rensa, lägga till tidsstämplar, fixa formatering, dela det och hoppas att du inte missade något.
Marknadsansvariga som jagar intervjucitat känner igen det här. Det gör även operations managers som försöker dokumentera samtal, och konsulter som lever i kundernas röstanteckningar. Den här Gmail Docs transcripts-automationen gör inkommande ljudbilagor till välformaterade Google Docs som du kan söka i, citera och skicka vidare på några minuter.
Du får se exakt vad arbetsflödet gör, vad du behöver för att köra det och hur du undviker de vanligaste uppsättningsfällorna som slukar mest tid.
Så fungerar den här automationen
Se hur detta löser problemet:
n8n Workflow Template: Gmail till Google Docs: färdiga transkriptioner
flowchart LR
subgraph sg0["Monitor Email Attachments Flow"]
direction LR
n0@{ icon: "mdi:play-circle", form: "rounded", label: "Monitor Email Attachments", pos: "b", h: 48 }
n1@{ icon: "mdi:cog", form: "rounded", label: "VLM Run Audio Transcriber", pos: "b", h: 48 }
n0 --> n1
end
subgraph sg1["Flow 2"]
direction LR
n2["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/webhook.dark.svg' width='40' height='40' /></div><br/>Receive Transcription Results"]
n3@{ icon: "mdi:cog", form: "rounded", label: "Generate Transcription Report", pos: "b", h: 48 }
n2 --> n3
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n0 trigger
class n2 api
classDef customIcon fill:none,stroke:none
class n2 customIcon
Utmaningen: att göra ljudmail till användbara transkript
Ljud hamnar i inkorgen vid sämsta möjliga tillfällen. En kund skickar en 40-minuters sammanfattning av ett samtal. En kollega vidarebefordrar ett röstmeddelande med ”viktiga idéer” någonstans i mitten. Du vill åt innehållet, inte en ny uppgift. Manuell transkribering är dyr, och ”snabb” AI-transkribering lämnar dig fortfarande med en rörig textvägg, utan tidsstämplar och med ett dokument som ser ut som om det klistrats in från en robots urklipp. Även när du blir klar kommer nästa problem: att dela det, hitta det senare och kunna citera rätt ögonblick med säkerhet.
Det summerar snabbt. Här är var det brukar fallera.
- Varje bilaga blir ett miniprojekt: ladda ner, döp om, ladda upp och leta sedan efter resultatet.
- Långa inspelningar kan få timeout eller avbrytas mitt i processen, vilket gör att du får göra om arbete du redan väntat på.
- Råa transkript är svåra att använda eftersom skiljetecken, styckesindelning och tidsstämplar saknas eller är inkonsekventa.
- Team kan inte pålitligt söka i eller referera till ljud i efterhand, så samma samtal behöver tas om igen.
Lösningen: Gmail-bilagor till formaterade transkript i Google Docs
Det här arbetsflödet bevakar din Gmail-inkorg efter nya meddelanden som innehåller ljudbilagor och tar över därifrån. När en ljudfil kommer in skickar n8n den vidare till VLM Run för AI-transkribering, som tar fram ett strukturerat transkript med tidsstämplar och rimlig segmentering (så att du faktiskt kan skumma det). Eftersom långa filer kan ta tid är flödet byggt för att hantera asynkron bearbetning: transkriberingen körs i bakgrunden och returnerar resultat via en webhook när den är klar. Till sist sammanställer arbetsflödet en korrekt formaterad, professionell transkriberingsrapport i Google Docs, så att du kan dela en länk, söka i den och plocka ut citat utan att behöva formatera om något.
Arbetsflödet startar med Gmail-övervakning. VLM Run genererar transkriptet och skickar tillbaka det färdiga resultatet till n8n via en webhook. Google Docs blir sedan ”hemmabasen” för slutrapporten, formaterad och redo att använda.
Vad som förändras: före vs. efter
| Detta elimineras | Effekt du märker |
|---|---|
|
|
Praktisk effekt i verkligheten
Säg att du får fem ljudbilagor i veckan (samtal, röstanteckningar, intervjuer). Manuell hantering kan ta cirka 10 minuter per fil bara för att ladda ner, ladda upp och organisera, plus ytterligare 20 minuter för att rensa transkriptet så att det går att läsa. Det blir ungefär 2–3 timmar i veckan av administrativt merarbete, och det är lätt att tappa bort en fil på vägen. Med det här arbetsflödet lägger du en minut på att låta mejlet hamna i rätt inkorg och får sedan ett formaterat Google-dokument när webhooken returnerar resultatet.
Krav
- n8n-instans (prova n8n Cloud gratis)
- Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
- Gmail för att bevaka inkommande ljudbilagor.
- VLM Run för AI-transkribering och tidsstämplar.
- VLM Run API-uppgifter (hämta dem i kontrollpanelen i ditt VLM Run-konto).
- Google Docs för att skapa och lagra den slutliga transkriberingsrapporten.
Kunskapsnivå: Nybörjare. Du kopplar konton (OAuth) och klistrar in ett eller två ID:n/URL:er i arbetsflödet.
Behöver du hjälp att implementera detta? Prata med en automationsexpert (gratis 15-minuters konsultation).
Så går arbetsflödet till
Gmail upptäcker ett nytt meddelande med en ljudbilaga. Arbetsflödet bevakar inkorgen så att transkriberingen startar direkt när ljudet kommer in (ingen vidarebefordran, inga manuella nedladdningar).
Ljudet skickas till VLM Run för transkribering. VLM Run hanterar taligenkänning, skiljetecken och segmentering med tidsstämplar. Det stödjer även vanliga format som MP3, WAV, M4A, AAC, OGG och FLAC, vilket är viktigt eftersom team aldrig standardiserar ljudformat.
En webhook tar emot det färdiga resultatet. För längre inspelningar förhindrar den asynkrona överlämningen timeouts och gör att n8n inte står och ”väntar” på ett skört sätt.
Google Docs får en korrekt formaterad rapport. Arbetsflödet sätter ihop ett läsbart dokument med snygg formatering och tidsstämplar, så att du kan dela en länk, söka i transkriptet och citera specifika ögonblick utan extra efterarbete.
Du kan enkelt ändra måldokument och formateringsstil för att passa olika use case (till exempel möten vs. intervjuer). Se den fullständiga implementationsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementering
Steg 1: konfigurera Gmail-triggern
Det här arbetsflödet startar när ett nytt e-postmeddelande med bilagor upptäcks så att ljudfiler kan behandlas automatiskt.
- Lägg till och öppna Observe Inbox Files.
- Ställ in Download Attachments till
trueunder Options. - Ställ in Poll Times till
everyMinuteför att kontinuerligt kontrollera nya meddelanden. - Inloggningsuppgifter krävs: Anslut era gmailOAuth2-inloggningsuppgifter.
- Låt Simple vara inställt på
falseför fullständig metadata för bilagor.
attachment_0.Steg 2: konfigurera noden för AI-bearbetning
Det här steget skickar den bifogade ljudfilen till transkriberingstjänsten och körs asynkront.
- Lägg till och öppna AI Audio Transcription.
- Ställ in File till
attachment_0. - Ställ in Domain till
audio.transcription. - Ställ in Operation till
audio. - Ställ in Callback URL till
https://playground.vlm.run/webhook/audio-transcription. - Aktivera Process Asynchronously genom att ställa in den till
true. - Inloggningsuppgifter krävs: Anslut era vlmRunApi-inloggningsuppgifter.
Steg 3: konfigurera webhook-triggern
Den här noden tar emot transkriberingsresultat från den externa tjänsten.
- Lägg till och öppna Webhook Results Intake.
- Ställ in HTTP Method till
POST. - Ställ in Path till
audio-transcription. - Kopiera den genererade webhook-URL:en och säkerställ att er transkriberingstjänst kan nå den.
Steg 4: konfigurera utskrift av transkriptionen
När webhooken triggas formateras transkriptionen och infogas i ett Google Doc.
- Lägg till och öppna Compose Transcript Document.
- Ställ in Operation till
update. - Ställ in Document URL till
https://docs.google.com/document/d/[YOUR_ID]/edit. - Under Actions ställer ni in fältet Text till det fullständiga uttrycket som visas i noden:
=📄 Audio Transcription Report\n\n🗓️ Date: {{ new Date($json.body.completed_at).toLocaleString('en-US', { dateStyle: 'medium', timeStyle: 'short' }) }} \n⏱️ Total Duration: {{ $json.body.response.metadata.duration }} seconds \n{{ \n$json.body.response.segments.map((segment, index) => \n `\\n` +\n `🔹 Segment ${index + 1}\\n` +\n `⏰ Time: ${segment.start_time.toFixed(2)}s → ${segment.end_time.toFixed(2)}s\\n` +\n `📝 Transcript: \"${segment.content.trim()}\"\\n`\n).join('\\n')\n}}\n. - Inloggningsuppgifter krävs: Anslut era googleDocsOAuth2Api-inloggningsuppgifter.
[YOUR_ID] med ett riktigt Google Docs-ID, annars misslyckas uppdateringen.Steg 5: testa och aktivera ert arbetsflöde
Verifiera att båda flödesvägarna körs korrekt innan ni aktiverar kontinuerlig drift.
- Klicka på Execute Workflow och skicka ett testmejl med en ljudfil för att trigga Observe Inbox Files.
- Bekräfta att AI Audio Transcription tar emot
attachment_0och returnerar en status som indikerar att jobbet har accepterats. - Trigga webhooken genom att låta den externa tjänsten anropa Webhook Results Intake med en exempelpayload för svaret.
- Verifiera att Compose Transcript Document infogar den formaterade transkriptionen i ert Google Doc.
- När allt fungerar växlar ni arbetsflödet till Active för att aktivera kontinuerlig bearbetning.
Se upp för
- Gmail OAuth-behörigheter kan vara petiga. Om nya mejl inte triggar, kontrollera Gmail Trigger-anslutningen i n8n och bekräfta att den har åtkomst till den inkorg/etikett du bevakar.
- Om du bearbetar längre ljud tar asynkrona jobb olika lång tid. Om webhook-resultatet kommer efter att dokumentsteget körs, öka väntetiden/handshaken eller säkerställ att dokumentsteget bara körs efter att webhooken tagit emot resultatet.
- VLM Run-output blir ”korrekt” men fortfarande generisk som standard. Om du vill ha en konsekvent intern stil (talarmärkning, avsnittsrubriker, sammanfattningsblock), bygg in det i sammanställningssteget så att du inte behöver redigera varje dokument senare.
Vanliga frågor
Vanligtvis cirka 30 minuter om dina konton är redo.
Ja. Du skriver ingen kod, men du kopplar Gmail och Google Docs och klistrar in dina VLM Run-uppgifter.
Ja. n8n har ett gratisalternativ för egen drift och en gratis provperiod på n8n Cloud. Molnplaner börjar på 20 USD/månad för högre volym. Du behöver också räkna in kostnader för VLM Run API-användning baserat på ljudlängd och volym.
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärd och hanterar n8n bra. Egen drift ger dig obegränsade körningar men kräver grundläggande serveradministration.
Du kan behålla Gmail-triggern och byta transkriberings- eller formateringsdelarna beroende på behov. Många team anpassar Google Docs-sammanställningen så att den lägger till avsnittsrubriker (agenda, beslut, åtgärdspunkter), talarmärkning eller en kort AI-sammanfattning ovanför transkriptet. Om du vill lagra transkript någon annanstans kan du ändra steget ”Compose Transcript Document” så att det skriver till ett annat dokument, en mappstruktur eller till och med skapar ett parallellt Google Sheets-index för snabbare sökning.
Oftast beror det på en utgången OAuth-session eller att fel Gmail-konto är anslutet i n8n. Anslut Gmail igen i dina n8n-credentials och bekräfta sedan att triggern bevakar den inkorg (och etikett, om du filtrerar) som du förväntar dig. Om den fortfarande inte triggar, skicka ett nytt testmejl med en ljudbilaga och kontrollera körningsloggen för att se om triggern tar emot händelser överhuvudtaget.
På en vanlig n8n Cloud-plan kan du köra gott om veckovisa transkriberingar, och vid egen drift begränsas du främst av din server och transkriberingsleverantörens genomströmning. I praktiken börjar de flesta team med dussintals filer i veckan och skalar upp när de känner sig trygga med märkning, lagring och namngivningskonventioner.
Ofta ja, eftersom det här arbetsflödet tjänar på asynkron bearbetning och webhook-baserat ”hör av dig när det är klart”-beteende. n8n hanterar den typen av logik snyggt, och du kan köra egen drift för att undvika prischocker per uppgift när volymen växer. Zapier eller Make kan fortfarande fungera, men du kan behöva lägga mer tid på att hantera timeouts och kantfall med längre ljudfiler. Om du väljer mellan verktyg, kartlägg först din längsta tänkbara inspelning och din förväntade veckovolym. Prata med en automationsexpert om du vill ha en snabb rimlighetskontroll.
När detta väl rullar slutar transkript vara en punkt i backloggen och blir i stället en delad resurs. Arbetsflödet tar hand om det repetitiva, så att du kan fokusera på beslut, citat och uppföljningar.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.