Behöver ert företag hjälp med att implementera AI? Kontakta oss och få prisoffert här →
AI Skolan
januari 22, 2026

Gmail till Google Docs: färdiga transkriptioner

Rickard Andersson Partner, Nodenordic.se

Att transkribera ljud från e-post låter enkelt tills du sitter med en hög bilagor, halvt namngivna filer och ett tomt Google-dokument. Sedan kommer den långsamma delen: ladda upp, vänta, kopiera, rensa, lägga till tidsstämplar, fixa formatering, dela det och hoppas att du inte missade något.

Marknadsansvariga som jagar intervjucitat känner igen det här. Det gör även operations managers som försöker dokumentera samtal, och konsulter som lever i kundernas röstanteckningar. Den här Gmail Docs transcripts-automationen gör inkommande ljudbilagor till välformaterade Google Docs som du kan söka i, citera och skicka vidare på några minuter.

Du får se exakt vad arbetsflödet gör, vad du behöver för att köra det och hur du undviker de vanligaste uppsättningsfällorna som slukar mest tid.

Så fungerar den här automationen

Se hur detta löser problemet:

n8n Workflow Template: Gmail till Google Docs: färdiga transkriptioner

Utmaningen: att göra ljudmail till användbara transkript

Ljud hamnar i inkorgen vid sämsta möjliga tillfällen. En kund skickar en 40-minuters sammanfattning av ett samtal. En kollega vidarebefordrar ett röstmeddelande med ”viktiga idéer” någonstans i mitten. Du vill åt innehållet, inte en ny uppgift. Manuell transkribering är dyr, och ”snabb” AI-transkribering lämnar dig fortfarande med en rörig textvägg, utan tidsstämplar och med ett dokument som ser ut som om det klistrats in från en robots urklipp. Även när du blir klar kommer nästa problem: att dela det, hitta det senare och kunna citera rätt ögonblick med säkerhet.

Det summerar snabbt. Här är var det brukar fallera.

  • Varje bilaga blir ett miniprojekt: ladda ner, döp om, ladda upp och leta sedan efter resultatet.
  • Långa inspelningar kan få timeout eller avbrytas mitt i processen, vilket gör att du får göra om arbete du redan väntat på.
  • Råa transkript är svåra att använda eftersom skiljetecken, styckesindelning och tidsstämplar saknas eller är inkonsekventa.
  • Team kan inte pålitligt söka i eller referera till ljud i efterhand, så samma samtal behöver tas om igen.

Lösningen: Gmail-bilagor till formaterade transkript i Google Docs

Det här arbetsflödet bevakar din Gmail-inkorg efter nya meddelanden som innehåller ljudbilagor och tar över därifrån. När en ljudfil kommer in skickar n8n den vidare till VLM Run för AI-transkribering, som tar fram ett strukturerat transkript med tidsstämplar och rimlig segmentering (så att du faktiskt kan skumma det). Eftersom långa filer kan ta tid är flödet byggt för att hantera asynkron bearbetning: transkriberingen körs i bakgrunden och returnerar resultat via en webhook när den är klar. Till sist sammanställer arbetsflödet en korrekt formaterad, professionell transkriberingsrapport i Google Docs, så att du kan dela en länk, söka i den och plocka ut citat utan att behöva formatera om något.

Arbetsflödet startar med Gmail-övervakning. VLM Run genererar transkriptet och skickar tillbaka det färdiga resultatet till n8n via en webhook. Google Docs blir sedan ”hemmabasen” för slutrapporten, formaterad och redo att använda.

Vad som förändras: före vs. efter

Praktisk effekt i verkligheten

Säg att du får fem ljudbilagor i veckan (samtal, röstanteckningar, intervjuer). Manuell hantering kan ta cirka 10 minuter per fil bara för att ladda ner, ladda upp och organisera, plus ytterligare 20 minuter för att rensa transkriptet så att det går att läsa. Det blir ungefär 2–3 timmar i veckan av administrativt merarbete, och det är lätt att tappa bort en fil på vägen. Med det här arbetsflödet lägger du en minut på att låta mejlet hamna i rätt inkorg och får sedan ett formaterat Google-dokument när webhooken returnerar resultatet.

Krav

  • n8n-instans (prova n8n Cloud gratis)
  • Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
  • Gmail för att bevaka inkommande ljudbilagor.
  • VLM Run för AI-transkribering och tidsstämplar.
  • VLM Run API-uppgifter (hämta dem i kontrollpanelen i ditt VLM Run-konto).
  • Google Docs för att skapa och lagra den slutliga transkriberingsrapporten.

Kunskapsnivå: Nybörjare. Du kopplar konton (OAuth) och klistrar in ett eller två ID:n/URL:er i arbetsflödet.

Behöver du hjälp att implementera detta? Prata med en automationsexpert (gratis 15-minuters konsultation).

Så går arbetsflödet till

Gmail upptäcker ett nytt meddelande med en ljudbilaga. Arbetsflödet bevakar inkorgen så att transkriberingen startar direkt när ljudet kommer in (ingen vidarebefordran, inga manuella nedladdningar).

Ljudet skickas till VLM Run för transkribering. VLM Run hanterar taligenkänning, skiljetecken och segmentering med tidsstämplar. Det stödjer även vanliga format som MP3, WAV, M4A, AAC, OGG och FLAC, vilket är viktigt eftersom team aldrig standardiserar ljudformat.

En webhook tar emot det färdiga resultatet. För längre inspelningar förhindrar den asynkrona överlämningen timeouts och gör att n8n inte står och ”väntar” på ett skört sätt.

Google Docs får en korrekt formaterad rapport. Arbetsflödet sätter ihop ett läsbart dokument med snygg formatering och tidsstämplar, så att du kan dela en länk, söka i transkriptet och citera specifika ögonblick utan extra efterarbete.

Du kan enkelt ändra måldokument och formateringsstil för att passa olika use case (till exempel möten vs. intervjuer). Se den fullständiga implementationsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementering

Steg 1: konfigurera Gmail-triggern

Det här arbetsflödet startar när ett nytt e-postmeddelande med bilagor upptäcks så att ljudfiler kan behandlas automatiskt.

  1. Lägg till och öppna Observe Inbox Files.
  2. Ställ in Download Attachments till true under Options.
  3. Ställ in Poll Times till everyMinute för att kontinuerligt kontrollera nya meddelanden.
  4. Inloggningsuppgifter krävs: Anslut era gmailOAuth2-inloggningsuppgifter.
  5. Låt Simple vara inställt på false för fullständig metadata för bilagor.

Tips: Säkerställ att inkommande e-postmeddelanden faktiskt innehåller ljudbilagor—AI Audio Transcription förväntar sig attachment_0.

Steg 2: konfigurera noden för AI-bearbetning

Det här steget skickar den bifogade ljudfilen till transkriberingstjänsten och körs asynkront.

  1. Lägg till och öppna AI Audio Transcription.
  2. Ställ in File till attachment_0.
  3. Ställ in Domain till audio.transcription.
  4. Ställ in Operation till audio.
  5. Ställ in Callback URL till https://playground.vlm.run/webhook/audio-transcription.
  6. Aktivera Process Asynchronously genom att ställa in den till true.
  7. Inloggningsuppgifter krävs: Anslut era vlmRunApi-inloggningsuppgifter.

⚠️ Vanlig fallgrop: Callbacken måste nå Webhook Results Intake för att den andra halvan av arbetsflödet ska köras—bekräfta att den externa tjänsten kan anropa er n8n-webhook-URL.

Steg 3: konfigurera webhook-triggern

Den här noden tar emot transkriberingsresultat från den externa tjänsten.

  1. Lägg till och öppna Webhook Results Intake.
  2. Ställ in HTTP Method till POST.
  3. Ställ in Path till audio-transcription.
  4. Kopiera den genererade webhook-URL:en och säkerställ att er transkriberingstjänst kan nå den.

Tips: Exekveringsflödet är uppdelat—Observe Inbox Files triggar AI Audio Transcription, och resultaten kommer tillbaka via Webhook Results Intake.

Steg 4: konfigurera utskrift av transkriptionen

När webhooken triggas formateras transkriptionen och infogas i ett Google Doc.

  1. Lägg till och öppna Compose Transcript Document.
  2. Ställ in Operation till update.
  3. Ställ in Document URL till https://docs.google.com/document/d/[YOUR_ID]/edit.
  4. Under Actions ställer ni in fältet Text till det fullständiga uttrycket som visas i noden: =📄 Audio Transcription Report\n\n🗓️ Date: {{ new Date($json.body.completed_at).toLocaleString('en-US', { dateStyle: 'medium', timeStyle: 'short' }) }} \n⏱️ Total Duration: {{ $json.body.response.metadata.duration }} seconds \n{{ \n$json.body.response.segments.map((segment, index) => \n `\\n` +\n `🔹 Segment ${index + 1}\\n` +\n `⏰ Time: ${segment.start_time.toFixed(2)}s → ${segment.end_time.toFixed(2)}s\\n` +\n `📝 Transcript: \"${segment.content.trim()}\"\\n`\n).join('\\n')\n}}\n.
  5. Inloggningsuppgifter krävs: Anslut era googleDocsOAuth2Api-inloggningsuppgifter.

⚠️ Vanlig fallgrop: Ersätt [YOUR_ID] med ett riktigt Google Docs-ID, annars misslyckas uppdateringen.

Steg 5: testa och aktivera ert arbetsflöde

Verifiera att båda flödesvägarna körs korrekt innan ni aktiverar kontinuerlig drift.

  1. Klicka på Execute Workflow och skicka ett testmejl med en ljudfil för att trigga Observe Inbox Files.
  2. Bekräfta att AI Audio Transcription tar emot attachment_0 och returnerar en status som indikerar att jobbet har accepterats.
  3. Trigga webhooken genom att låta den externa tjänsten anropa Webhook Results Intake med en exempelpayload för svaret.
  4. Verifiera att Compose Transcript Document infogar den formaterade transkriptionen i ert Google Doc.
  5. När allt fungerar växlar ni arbetsflödet till Active för att aktivera kontinuerlig bearbetning.
🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Se upp för

  • Gmail OAuth-behörigheter kan vara petiga. Om nya mejl inte triggar, kontrollera Gmail Trigger-anslutningen i n8n och bekräfta att den har åtkomst till den inkorg/etikett du bevakar.
  • Om du bearbetar längre ljud tar asynkrona jobb olika lång tid. Om webhook-resultatet kommer efter att dokumentsteget körs, öka väntetiden/handshaken eller säkerställ att dokumentsteget bara körs efter att webhooken tagit emot resultatet.
  • VLM Run-output blir ”korrekt” men fortfarande generisk som standard. Om du vill ha en konsekvent intern stil (talarmärkning, avsnittsrubriker, sammanfattningsblock), bygg in det i sammanställningssteget så att du inte behöver redigera varje dokument senare.

Vanliga frågor

Hur snabbt kan jag implementera den här Gmail Docs transcripts-automationen?

Vanligtvis cirka 30 minuter om dina konton är redo.

Kan icke-tekniska team implementera den här transkript-automationen?

Ja. Du skriver ingen kod, men du kopplar Gmail och Google Docs och klistrar in dina VLM Run-uppgifter.

Är n8n gratis att använda för det här Gmail Docs transcripts-arbetsflödet?

Ja. n8n har ett gratisalternativ för egen drift och en gratis provperiod på n8n Cloud. Molnplaner börjar på 20 USD/månad för högre volym. Du behöver också räkna in kostnader för VLM Run API-användning baserat på ljudlängd och volym.

Var kan jag hosta n8n för att köra den här automationen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärd och hanterar n8n bra. Egen drift ger dig obegränsade körningar men kräver grundläggande serveradministration.

Hur anpassar jag den här Gmail Docs transcripts-lösningen till mina specifika utmaningar?

Du kan behålla Gmail-triggern och byta transkriberings- eller formateringsdelarna beroende på behov. Många team anpassar Google Docs-sammanställningen så att den lägger till avsnittsrubriker (agenda, beslut, åtgärdspunkter), talarmärkning eller en kort AI-sammanfattning ovanför transkriptet. Om du vill lagra transkript någon annanstans kan du ändra steget ”Compose Transcript Document” så att det skriver till ett annat dokument, en mappstruktur eller till och med skapar ett parallellt Google Sheets-index för snabbare sökning.

Varför misslyckas min Gmail-anslutning i det här arbetsflödet?

Oftast beror det på en utgången OAuth-session eller att fel Gmail-konto är anslutet i n8n. Anslut Gmail igen i dina n8n-credentials och bekräfta sedan att triggern bevakar den inkorg (och etikett, om du filtrerar) som du förväntar dig. Om den fortfarande inte triggar, skicka ett nytt testmejl med en ljudbilaga och kontrollera körningsloggen för att se om triggern tar emot händelser överhuvudtaget.

Vilken kapacitet har den här Gmail Docs transcripts-lösningen?

På en vanlig n8n Cloud-plan kan du köra gott om veckovisa transkriberingar, och vid egen drift begränsas du främst av din server och transkriberingsleverantörens genomströmning. I praktiken börjar de flesta team med dussintals filer i veckan och skalar upp när de känner sig trygga med märkning, lagring och namngivningskonventioner.

Är den här Gmail Docs transcripts-automationen bättre än att använda Zapier eller Make?

Ofta ja, eftersom det här arbetsflödet tjänar på asynkron bearbetning och webhook-baserat ”hör av dig när det är klart”-beteende. n8n hanterar den typen av logik snyggt, och du kan köra egen drift för att undvika prischocker per uppgift när volymen växer. Zapier eller Make kan fortfarande fungera, men du kan behöva lägga mer tid på att hantera timeouts och kantfall med längre ljudfiler. Om du väljer mellan verktyg, kartlägg först din längsta tänkbara inspelning och din förväntade veckovolym. Prata med en automationsexpert om du vill ha en snabb rimlighetskontroll.

När detta väl rullar slutar transkript vara en punkt i backloggen och blir i stället en delad resurs. Arbetsflödet tar hand om det repetitiva, så att du kan fokusera på beslut, citat och uppföljningar.

Kontakta oss

Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.

×

Använd mall

Få direkt tillgång till denna n8n-arbetsflödes JSON-fil

Launch login modal Launch register modal