Behöver ert företag hjälp med att implementera AI? Kontakta oss och få prisoffert här →
AI Skolan
januari 22, 2026

Gemini + Shotstack: ansiktslösa videor klara åt dig

Rickard Andersson Partner, Nodenordic.se

Ansiktslösa videor låter enkelt tills du faktiskt försöker producera dem. Manus glider iväg, voiceover matchar inte bilderna och du slutar med att sitta och vakta exporter, länkar och tajming.

Den här Gemini Shotstack videos-automationen träffar YouTube Shorts-skapare först, helt ärligt. Men byråoperatörer som bygger batchar åt kunder och solomarknadsförare som försöker posta dagligen känner av samma slit. Resultatet är rakt: du ger ett ämne, du får en färdig, nedladdningsbar video.

Nedan ser du hur workflowet gör om en idé till manus, röst, visuellt material och en polerad klippning. Sedan vet du vad du behöver för att köra det och var team vanligtvis justerar.

Så fungerar den här automationen

Hela n8n-workflowet, från trigger till slutresultat:

n8n Workflow Template: Gemini + Shotstack: ansiktslösa videor klara åt dig

Problemet: produktion av ansiktslösa videor har för många överlämningar

Att göra en bra 60-sekunders ansiktslös video är sällan “bara redigering”. Det handlar om att skriva ett tajt manus, generera en voiceover, få fram transkriptet och sedan göra om det till scener som faktiskt matchar orden. Och eftersom varje verktyg har sin egen tidslinje och sitt eget outputformat lägger du märkligt mycket tid på ihoplimning: döpa om filer, kopiera länkar, vänta på renderingar och fixa små tajmingskillnader som får allt att kännas billigt. Multiplicera det med daglig publicering och det blir ett extrajobb.

Friktionen byggs på. Här är var det oftast faller isär.

  • Varje extra verktyg innebär ännu en export, ännu en uppladdning och ännu ett ställe där du kan tappa bort den “slutliga” versionen.
  • Voiceover och visuellt material hamnar ur synk, så du får klippa scener manuellt bara för att det ska gå att titta på.
  • Transkript och undertexter byggs om från grunden, vilket ger ojämnt tempo i en batch.
  • Renderköer tvingar dig att vänta, och sedan glömmer du att komma tillbaka och publicera enligt plan.

Lösningen: ett ämne in, färdig ansiktslös video ut

Det här workflowet är byggt för att ta bort överlämningarna som saktar ner dig. Du börjar med att skriva in ett kort ämne i n8n och startar sedan körningen manuellt när du är redo. Gemini skapar ett strukturerat manus för 60 sekunder som är formaterat för röst och scentajming. ElevenLabs gör manuset till en korrekt formaterad voiceover, som lagras i Google Drive och görs delbar så att efterföljande verktyg kan nå den. Whisper transkriberar ljudet, workflowet slår ihop transkript + manus och Gemini använder det sammanslagna underlaget för att skapa tidsstämplade bildprompter som faktiskt ligger i linje med det som sägs. Till sist genererar Leonardo bilderna och korta rörliga klipp, Shotstack syr ihop och polerar klippningen och du laddar ner den färdiga filen.

Workflowet börjar med en enda idé och slutar med en videofil som är redo att publiceras. I mitten använder det transkriptbaserad tajming så att scenerna känns genomtänkta istället för slumpmässiga. Shotstack hanterar sista metern i redigeringen så att du inte fastnar i ett tidslinjeverktyg för varje enskilt output.

Det du får: automation vs. resultat

Exempel: så här ser det ut

Säg att du publicerar 5 shorts i veckan. Manuell produktion är ofta 30 minuter för att skriva, 20 minuter för att generera röst och fixa uttal, 30 minuter för att leta visuellt material och ytterligare 30 minuter för att redigera och exportera — alltså cirka 2 timmar per video. Med det här workflowet lägger du ungefär 5 minuter på att mata in ämnet och starta körningen och väntar sedan på rendering (cirka 10 minuter för bilder, cirka 5 minuter för klipprendering, plus Shotstacks slutpass). Du kommer tillbaka, laddar ner och är klar.

Det du behöver

  • n8n-instans (testa n8n Cloud gratis)
  • Self-hosting-alternativ om du föredrar det (Hostinger fungerar bra)
  • Google Gemini API för manus- och promptgenerering
  • Shotstack för att redigera och rendera den slutliga videon
  • ElevenLabs API-nyckel (hämta den i din ElevenLabs-dashboard)

Svårighetsnivå: medel. Du kopplar API:er, klistrar in nycklar i n8n-credentials och justerar prompter utan att sabba JSON-formatering.

Vill du inte sätta upp det här själv? Prata med en automations­expert (gratis 15-minuters konsultation).

Så fungerar det

Du startar en körning manuellt efter att du har angett ett ämne. Idén sätts i noden “Assign Topic Input”, och sedan drar workflowet igång när du klickar Execute/Test i n8n.

Gemini skriver och formaterar ett 60-sekundersmanus. Den genererar berättarrösten och normaliserar sedan texten till en struktur som är enklare för röstgenerering och senare tajmingsprompter.

Ljud och transkribering skapas parallellt. ElevenLabs genererar voiceovern, Google Drive lagrar den och gör den åtkomlig, och Whisper transkriberar ljudet så att tajmingen baseras på det som faktiskt sägs.

Visuellt material, klipp och slutredigering renderas automatiskt. Gemini tar fram tidsstämplade prompter, Leonardo genererar bilder och rörliga klipp (med inbyggda väntelägen för rendering), och sedan redigerar Shotstack, kontrollerar renderstatus och returnerar en slutlig video som går att ladda ner.

Du kan enkelt ändra manuslängden så att den matchar ditt format och sedan anpassa scenernas stilprompter så att de passar ditt varumärke. Se hela implementationsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementering

Steg 1: konfigurera den manuella triggern

Det här arbetsflödet startar vid behov och skickar en ämnesidé till skriptgeneratorn.

  1. Lägg till och öppna Manual Launch Trigger för att bekräfta att det är startnoden.
  2. Öppna Assign Topic Input och ställ in Idea till What is AI Agents.
  3. Säkerställ att Manual Launch Trigger är ansluten till Assign Topic Input.

Steg 2: anslut Google Drive och API-inloggningsuppgifter

Flera noder kräver inloggningsuppgifter för lagring och externa renderingstjänster. Konfigurera detta i förväg för att undvika fel under körning.

  1. Öppna Store Audio in Drive och välj er destination. Ställ in Name till =faceless-video-audio-{{ $now.toISO() }}.
    Inloggningsuppgifter krävs: Anslut era googleDriveOAuth2Api-inloggningsuppgifter.
  2. Öppna Share Audio Publicly och bekräfta att Operation är share med File ID satt till ={{ $json.id }}.
    Inloggningsuppgifter krävs: Anslut era googleDriveOAuth2Api-inloggningsuppgifter.
  3. Anslut API-inloggningsuppgifter för alla HTTP-baserade tjänster: Create Voiceover Audio, Generate Visuals, Retrieve Images, Create Motion Clips, Fetch Motion Clips, Shotstack Edit Render och Shotstack Render Status.
    Inloggningsuppgifter krävs: Anslut era httpHeaderAuth-inloggningsuppgifter.
  4. Öppna Whisper Audio Transcription och bekräfta att URL är https://api.openai.com/v1/audio/transcriptions med multipart-formulärdata-parametrar.
    Inloggningsuppgifter krävs: Anslut era openAiApi-inloggningsuppgifter.
⚠️ Vanlig fallgrop: Arbetsflödet använder 10+ HTTP request-noder. Om ni saknar en enda httpHeaderAuth-inloggningsuppgift stoppas pipelinen mitt i körningen.

Steg 3: konfigurera AI-skript- och promptgenerering

Den här delen genererar skriptet, normaliserar det för voiceover och skapar strukturerade bildprompter med AI-verktyg.

  1. Öppna Compose 60s Script och bekräfta att promptinmatningen Text är =Idea: {{ $json.idea }}.
  2. Säkerställ att Gemini Chat Engine A är ansluten som språkmodell för Compose 60s Script.
    Inloggningsuppgifter krävs: Anslut era googlePalmApi-inloggningsuppgifter.
  3. Öppna Normalize Script Text och ställ in text till ={{ $json.text.replace(/(\r\n|\n|\r)/g, ""); }}.
  4. Öppna Craft Image Prompts och bekräfta att prompten innehåller transkriptuttrycket {{JSON.stringify($json.words) }}.
  5. Säkerställ att Gemini Chat Engine B är ansluten som språkmodell för Craft Image Prompts.
    Inloggningsuppgifter krävs: Anslut era googlePalmApi-inloggningsuppgifter.
  6. Verifiera parserkedjan: Structured Parse SchemaAuto Repair ParserCraft Image Prompts. Detta är AI-undernoder; inloggningsuppgifter ska läggas till i den överordnade noden (Craft Image Prompts via Gemini Chat Engine B), inte i parsernoderna.
Tips: Schemat i Structured Parse Schema förväntar sig en array av scener med timing och prompter, vilket möjliggör automatisk uppdelning i Split Prompt Items.

Steg 4: konfigurera ljudgenerering och transkribering (parallell gren)

Den här delen skapar voiceovern, lagrar den i Drive och transkriberar den. Pipelinen förgrenas parallellt efter att ljudet har skapats.

  1. Öppna Create Voiceover Audio och ställ in URL till =https://api.elevenlabs.io/v1/text-to-speech/[YOUR_ID]. Säkerställ att body-parametern text är ={{ $json.text }} och att Content-Type är application/json.
    Inloggningsuppgifter krävs: Anslut era httpHeaderAuth-inloggningsuppgifter.
  2. Create Voiceover Audio skickar utdata till både Store Audio in Drive och Whisper Audio Transcription parallellt.
  3. I Store Audio in Drive, bekräfta filnamnsuttrycket =faceless-video-audio-{{ $now.toISO() }} och målmappen.
  4. I Whisper Audio Transcription, bekräfta att model är whisper-1 och att response_format är verbose_json.
  5. Bekräfta att Share Audio Publicly delar filen och skickar länken vidare till Combine Script & Transcript.
⚠️ Vanlig fallgrop: Om Share Audio Publicly inte är inställd på anyone-åtkomst kan Shotstack Edit Render misslyckas med att ladda ljudspåret.

Steg 5: generera visuellt material, motion-klipp och bygg tidslinjen

Det här steget omvandlar prompter till bilder, animerar dem, aggregerar klippen och renderar videon via Shotstack.

  1. Öppna Split Prompt Items och bekräfta att Field to Split Out är output.
  2. Öppna Generate Visuals och bekräfta body-parametrarna: height ={{ 1280 }}, width ={{ 720 }}, prompt ={{ $json.prompt }} och modelId [YOUR_ID].
    Inloggningsuppgifter krävs: Anslut era httpHeaderAuth-inloggningsuppgifter.
  3. Bekräfta timingkedjan: Generate VisualsDelay 30 SecondsRetrieve ImagesCreate Motion ClipsDelay 5 MinutesFetch Motion ClipsDownload Motion Clips.
  4. Öppna Create Motion Clips och bekräfta att imageId är ={{ $json.generations_by_pk.generated_images[0].id }} med motionStrength inställd på 3 och isPublic true.
    Inloggningsuppgifter krävs: Anslut era httpHeaderAuth-inloggningsuppgifter.
  5. Öppna Aggregate Clip List och ställ in Aggregate till aggregateAllItemData med Destination Field Name list.
Tips: Om genereringen av motion-klipp tar längre tid, öka Delay 5 Minutes för att undvika tomma resultat i Fetch Motion Clips.

Steg 6: konfigurera slutrendering och nedladdning

Det här steget bygger den slutliga redigeringen av klippen och ljudet, renderar den, kontrollerar status och laddar ner MP4:an.

  1. Öppna Shotstack Edit Render och bekräfta att URL är https://api.shotstack.io/edit/stage/render och att JSON Body är tidslinje-payloaden som använder uttryck som {{ $('Store Audio in Drive').first().json.webContentLink }} och {{ JSON.stringify($('Aggregate Clip List').first().json.list.map((item, i) => ({ ... }))) }}.
    Inloggningsuppgifter krävs: Anslut era httpHeaderAuth-inloggningsuppgifter.
  2. Säkerställ att pollingkedjan för rendering är konfigurerad: Shotstack Edit RenderDelay 1 MinuteShotstack Render Status.
  3. Öppna Shotstack Render Status och ställ in URL till =https://api.shotstack.io/edit/stage/render/{{ $json.response.id }}.
    Inloggningsuppgifter krävs: Anslut era httpHeaderAuth-inloggningsuppgifter.
  4. Öppna Download Final Output och ställ in URL till ={{ $json.response.url }} för att hämta den slutliga MP4:an.

Steg 7: testa och aktivera ert arbetsflöde

Kör ett fullständigt test för att verifiera skriptskapande, ljudgenerering, visuell produktion och slutlig videoutdata.

  1. Klicka på Manual Launch Trigger och kör arbetsflödet en gång med standard-Idea.
  2. Bekräfta att Create Voiceover Audio producerar binärt ljud och att Store Audio in Drive laddar upp en fil med en publik delningslänk från Share Audio Publicly.
  3. Verifiera att Generate Visuals skapar bildgenereringar och att Create Motion Clips returnerar motion-MP4-URL:er efter fördröjningarna.
  4. Kontrollera att Shotstack Render Status returnerar en response.url och att Download Final Output laddar ner MP4:an utan problem.
  5. När ni är nöjda, växla arbetsflödet till Active för användning i produktion.
🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Vanliga fallgropar

  • Google Drive-credentials kan gå ut eller kräva specifika behörigheter. Om saker skapar fel, kontrollera först det anslutna kontot och scopes i n8n Credentials.
  • Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om efterföljande noder fallerar på tomma svar.
  • Standardprompter i AI-noder är generiska. Lägg in din varumärkesröst tidigt, annars kommer du att redigera output i all oändlighet.

Vanliga frågor

Hur lång tid tar det att sätta upp den här Gemini Shotstack videos-automationen?

Cirka 45 minuter om du redan har API-nycklarna klara.

Behöver jag kodkunskaper för att automatisera skapandet av ansiktslösa videor?

Ingen kod krävs. Du klistrar främst in API-nycklar, kopplar Google Drive och justerar ett par prompter.

Är n8n gratis att använda för det här Gemini Shotstack videos-workflowet?

Ja. n8n har ett gratis self-hosted-alternativ och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna in API-kostnader för Gemini, ElevenLabs, Whisper, Leonardo och Shotstack.

Var kan jag hosta n8n för att köra den här automationen?

Två alternativ: n8n Cloud (hanterat, enklaste setup) eller self-hosting på en VPS. För self-hosting är Hostinger VPS prisvärd och hanterar n8n bra. Self-hosting ger dig obegränsat antal körningar men kräver grundläggande serverhantering.

Kan jag anpassa det här Gemini Shotstack videos-workflowet för 30-sekunders shorts istället för 60?

Ja. Uppdatera prompten i noden “Compose 60s Script” så att den siktar på 30 sekunder och håll sedan genereringen av tidsstämplade prompter synkad så att Shotstack får korrekt scentajming. De flesta team justerar också stilprompten som används för Leonardo så att varje klipp ser ut att höra till samma “serie”.

Varför fallerar min Shotstack-anslutning i det här workflowet?

Oftast beror det på en ogiltig eller utgången API-nyckel, eller att dina Shotstack-projektinställningar inte matchar det som renderrequesten förväntar sig. Kontrollera credentials i n8n igen och bekräfta sedan render-endpointen och payload-fälten i HTTP Request-noderna “Shotstack Edit Render” och “Shotstack Render Status”. Om det bara fallerar på hektiska dagar kan det vara rate limits eller längre renderköer, så att öka väntan i “Delay 1 Minute” löser det ofta. Kontrollera också att ljudfilen fortfarande är publikt åtkomlig från Google Drive, eftersom Shotstack behöver hämta den.

Hur många videor kan den här Gemini Shotstack videos-automationen hantera?

Den klarar batchar, men den verkliga begränsningen är din n8n-exekveringsgräns (i Cloud) och renderingstiden i Leonardo och Shotstack. Om du self-hostar finns ingen exekveringsgräns, men du vill ändå sprida ut körningarna eftersom workflowet har väntelägen på 30 sekunder, 1 minut och 5 minuter för extern bearbetning.

Är den här Gemini Shotstack videos-automationen bättre än att använda Zapier eller Make?

Ofta, ja, eftersom det här flödet behöver förgreningar, väntelägen, sammanslagningar och tolkning av strukturerad AI-output, och n8n hanterar det utan att bli en dyr hög av premiumsteg. Zapier eller Make kan fungera för enkla kedjor som “prompt in, fil ut”, men det här workflowet har flera render-checkpoints och statuskontroller. n8n ger dig också self-hosting, vilket spelar roll när du börjar köra batchar varje vecka. Om du siktar på engångsexperiment kan andra verktyg kännas snabbare. Prata med en automations­expert om du vill ha en rekommendation baserad på din volym och dina kanaler.

Sätt upp det här en gång, så slipper du bygga om samma video-assemblage varje dag. Workflowet tar hand om det repetitiva så att du kan fokusera på idéer och distribution.

Kontakta oss

Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.

×

Använd mall

Få direkt tillgång till denna n8n-arbetsflödes JSON-fil

Launch login modal Launch register modal