Behöver ert företag hjälp med att implementera AI? Kontakta oss och få prisoffert här →
AI Skolan
januari 22, 2026

WhatsApp + Google Gemini: svar hanteras åt dig

Rickard Andersson Partner, Nodenordic.se

Din WhatsApp-inkorg blir aldrig “klar”. Samma frågor återkommer, röstmeddelanden staplas på hög och teamet slutar med att copy-pasta svar som för varje dag glider lite mer off-brand.

Den här automatiseringen av WhatsApp-svar slår först mot supportansvariga, men småföretagare och drifts-/operationsansvariga känner av det också. Du vill svara snabbare utan att anställa, och du vill att svaren ska låta som du (inte som en slumpmässig bot).

Det här arbetsflödet gör inkommande WhatsApp-text och röstmeddelanden till konsekventa, företagsanpassade svar med Google Gemini och Pinecone. Du får se vad som automatiseras, vilka resultat du kan förvänta dig och vad som krävs för att köra det stabilt.

Så här fungerar automatiseringen

Hela n8n-flödet, från trigger till slutresultat:

n8n Workflow Template: WhatsApp + Google Gemini: svar hanteras åt dig

Problemet: WhatsApp-support blir en tidstjuv

WhatsApp är toppen för kunder eftersom det går snabbt. För dig blir det en konstant ström av avbrott. En person frågar om priser, en annan skickar ett röstmeddelande på 40 sekunder och någon annan vill ha samma fraktpolicy som du svarade på igår. Du kan inte ignorera det, men att svara manuellt innebär att byta kontext hela dagen, leta fram “rätt” svar och hoppas att en kollega inte lovar något som inte stämmer. Arbetsbördan växer i det tysta tills den äter upp flera timmar varje vecka.

Det är inte ett stort haveri. Det är dussintals små som staplas på varandra.

  • Röstmeddelanden tvingar dig att stanna upp, lyssna, spela om och sammanfatta innan du ens börjar svara.
  • Svaren varierar mellan handläggare, så kunder får olika besked beroende på vem som är online.
  • Att leta i gamla chattar efter “det där meddelandet” går långsamt, och det är ärligt talat lätt att missa detaljer.
  • När du har mycket att göra glider svarstiderna, och WhatsApp börjar kännas som ett brandlarm i stället för en kanal.

Lösningen: en virtuell WhatsApp-receptionist med koll på din verksamhet

Det här n8n-arbetsflödet fungerar som en virtuell receptionist i WhatsApp. När en kund skickar ett meddelande avgör det om det är text eller ett röstmeddelande. Är det text går det direkt till AI-agenten. Är det röst hämtar flödet ljudet säkert från WhatsApp, konverterar det och skickar det till Google Gemini för transkribering först. Därefter genererar AI-agenten ett korrekt formaterat, rakt svar med hjälp av ditt företagskunnande som ligger i Pinecone (tänk produktkatalog, vanliga frågor, policys och intern “godkänd” formulering). Till sist skickas svaret tillbaka till kunden i samma WhatsApp-tråd, snabbt nog för att kännas som en riktig konversation.

Flödet startar med en trigger för inkommande WhatsApp-meddelanden. I mitten hanterar Gemini transkribering och språkförståelse medan Pinecone hämtar relevant företagskontext. I slutet skickar WhatsApp ett välpolerat svar som följer era kommunikationsregler (inga onödiga hälsningar, endast godkända språk och en professionell ton).

Det du får: automatisering vs. resultat

Exempel: så här ser det ut i praktiken

Säg att ditt företag får cirka 40 WhatsApp-frågor per dag, och ungefär 10 är röstmeddelanden. Manuellt kanske du lägger runt 4 minuter per textsvar och närmare 8 minuter per röstmeddelande (lyssna, spela om, sedan skriva), vilket blir cirka 4 timmar om dagen. Med det här flödet är “jobbet” i princip bara att ta emot meddelandet; Gemini transkriberar röstmeddelanden i bakgrunden och agenten skriver förslag på svar med Pinecone-kontext, så du granskar främst undantag. För många team innebär det att vinna tillbaka ungefär 3 timmar per dag samtidigt som svarskvaliteten hålls stabil.

Det här behöver du

  • n8n-instans (prova n8n Cloud gratis)
  • Alternativ för självhosting om du föredrar det (Hostinger fungerar bra)
  • WhatsApp Business Cloud API för att ta emot och skicka meddelanden.
  • Google Gemini för transkribering och svarsgenerering.
  • Pinecone för att lagra och hämta företagskunskap.
  • WhatsApp access token (hämta den i Meta Developer Dashboard).
  • Google Gemini API-nyckel (hämta den i Google AI Studio / Google Cloud).
  • Pinecone API-nyckel (hämta den i din Pinecone-konsol).

Kunskapsnivå: Mellan. Du kopplar in autentiseringar, sätter en webhook och klistrar in några nycklar, men du bygger ingen app från grunden.

Vill du inte sätta upp det här själv? Prata med en automationsspecialist (gratis 15-minuters konsultation).

Så fungerar det

Ett WhatsApp-meddelande kommer in. WhatsApp-triggern lyssnar efter nya inkommande meddelanden så att flödet kan svara i realtid, inte timmar senare.

Text och röst tar olika vägar. Ett routningssteg kontrollerar meddelandetypen. Text går direkt till receptionistagenten; röstmeddelanden går först genom ljudhämtning och transkribering så att de kan hanteras som vanlig text.

Gemini + Pinecone genererar ett “företagsanpassat” svar. AI-agenten använder en Gemini-chatmodell för att formulera svaret, men gör också en fråga mot Pinecone för relevanta produktdetaljer, vanliga frågor och policys. En korttidsminnesbuffer håller de senaste 20 meddelandena per session så att följdfrågor fortfarande blir begripliga.

Svaret skickas tillbaka till WhatsApp. När agenten är klar skickar flödet iväg svaret via WhatsApp Business Cloud-noden, så att konversationen hålls på ett ställe.

Du kan enkelt justera affärsreglerna (ton, tillåtna språk, hur raka svaren ska vara) så att det matchar ditt varumärke. Se hela implementationsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementering

Steg 1: Konfigurera WhatsApp-triggern

Det här arbetsflödet startar när ett nytt WhatsApp-meddelande kommer in och routar det baserat på meddelandetyp.

  1. Lägg till och konfigurera WhatsApp Incoming Trigger som arbetsflödets trigger.
  2. Inloggningsuppgifter krävs: Anslut era whatsAppTriggerApi-inloggningsuppgifter i WhatsApp Incoming Trigger.
  3. Verifiera att triggern lyssnar på updates inställt på messages.
  4. Koppla WhatsApp Incoming Trigger till Route Message Type.

Steg 2: Routa meddelanden efter typ

Använd switch-noden för att avgöra om det inkommande meddelandet är ljud eller text och routa därefter.

  1. Öppna Route Message Type och behåll de två reglerna som heter Audio och Text.
  2. För regeln Audio, säkerställ att villkoret kontrollerar {{ $json.messages[0].audio }} med operatorn exists.
  3. För regeln Text, säkerställ att villkoret kontrollerar {{ $json.messages[0].text }} med operatorn exists.
  4. Koppla utgången Audio till Retrieve Audio Link och utgången Text till Virtual Receptionist.

Tips: Om meddelanden inte routas korrekt, bekräfta att WhatsApp skickar antingen messages[0].audio eller messages[0].text i payloaden.

Steg 3: Sätt upp hämtning och transkribering av ljud

Ljudgrenen hämtar media-URL:en, laddar ner filen, konverterar den till base64 och skickar den för transkribering.

  1. I Retrieve Audio Link, ställ in Resourcemedia, OperationmediaUrlGet och Media ID{{ $json.messages[0].audio.id }}.
  2. Inloggningsuppgifter krävs: Anslut era whatsAppApi-inloggningsuppgifter i Retrieve Audio Link.
  3. I Download Audio File, ställ in URL{{ $json.url }} och AuthenticationgenericCredentialType med Generic Auth Type inställt på httpHeaderAuth.
  4. Inloggningsuppgifter krävs: Anslut era httpHeaderAuth-inloggningsuppgifter i Download Audio File.
  5. Behåll koden i Convert Audio Base64 som den är för att mata ut base64Audio och mimeType från den binära indata.
  6. I Gemini Transcription Request, ställ in MethodPOST och JSON Body till den angivna strukturen med {{ $json.mimeType }} och {{ $json.base64Audio }}.
  7. Koppla flödet: Retrieve Audio LinkDownload Audio FileConvert Audio Base64Gemini Transcription RequestPrepare Audio Prompt.

⚠️ Vanlig fallgrop: Om transkriberingen misslyckas, säkerställ att nedladdad media lagras i det binära fältet data som förväntas av Convert Audio Base64.

Steg 4: Förbered AI-indata och konfigurera agenten

Förbered den slutliga prompttexten och koppla upp AI-komponenterna för ett kunskapsbaserat svar.

  1. I Prepare Audio Prompt, säkerställ att tilldelningen sätter candidates[0].content.parts[0].text till {{ $json.candidates[0].content.parts[0].text }}.
  2. I Virtual Receptionist, ställ in Text till {{ $json.messages[0].text.body }} {{ $json.candidates[0].content.parts[0].text }} så att den kan hantera både text och transkriberat ljud.
  3. Behåll innehållet i Virtual Receptionist System Message som definierat för konsekvent supportbeteende och ton.
  4. Gemini Chat Engine är ansluten som språkmodell för Virtual ReceptionistInloggningsuppgifter krävs: Anslut era googlePalmApi-inloggningsuppgifter i Gemini Chat Engine.
  5. Session Memory Buffer är ansluten till Virtual Receptionist — ställ in Session Key till {{ $('WhatsApp Incoming Trigger').item.json.contacts[0].wa_id }} och Context Window Length till 20.
  6. Vector Knowledge Lookup är ansluten som ett verktyg för Virtual Receptionist — behåll beskrivningstexten som angivet.
  7. Pinecone Vector Index driver Vector Knowledge LookupInloggningsuppgifter krävs: Anslut era pineconeApi-inloggningsuppgifter och säkerställ att Pinecone Index är superclean.
  8. Gemini Flash Model är ansluten som språkmodell för Vector Knowledge LookupInloggningsuppgifter krävs: Anslut era googlePalmApi-inloggningsuppgifter och ställ in Model Name till models/gemini-2.0-flash.
  9. Gemini Embedding Builder är ansluten till Pinecone Vector IndexInloggningsuppgifter krävs: Anslut era googlePalmApi-inloggningsuppgifter.

Tips: AI-verktygsnoder som Session Memory Buffer, Vector Knowledge Lookup och Gemini Embedding Builder tar inloggningsuppgifter från sina överordnade noder (t.ex. Gemini Chat Engine eller Pinecone Vector Index), inte från själva verktygsnoden.

Steg 5: Konfigurera WhatsApp-svaret

Skicka det AI-genererade svaret tillbaka till användaren via WhatsApp.

  1. Öppna Dispatch WhatsApp Reply och ställ in Operation till send.
  2. Ställ in Text Body till {{ $json.output }}.
  3. Ställ in Phone Number ID till [YOUR_ID] och Recipient Phone Number till {{ $('WhatsApp Incoming Trigger').item.json.messages[0].from }}.
  4. Inloggningsuppgifter krävs: Anslut era whatsAppApi-inloggningsuppgifter i Dispatch WhatsApp Reply.
  5. Bekräfta att körflödet från Virtual Receptionist till Dispatch WhatsApp Reply är anslutet.

⚠️ Vanlig fallgrop: Om svar inte levereras, verifiera att värdet [YOUR_ID] har ersatts med ert faktiska WhatsApp Phone Number ID.

Steg 6: Testa och aktivera ert arbetsflöde

Kör ett test från början till slut för att bekräfta att både text- och ljudvägen fungerar, och aktivera sedan arbetsflödet.

  1. Klicka på Execute Workflow och skicka ett WhatsApp-textmeddelande för att trigga WhatsApp Incoming TriggerRoute Message TypeVirtual ReceptionistDispatch WhatsApp Reply.
  2. Skicka ett WhatsApp-ljudmeddelande för att testa ljudgrenen: Retrieve Audio LinkDownload Audio FileConvert Audio Base64Gemini Transcription RequestPrepare Audio PromptVirtual ReceptionistDispatch WhatsApp Reply.
  3. Bekräfta en lyckad körning genom att kontrollera att Dispatch WhatsApp Reply skickar ett svar och att AI-utdata visas i nodens output.
  4. När testet är lyckat, slå på arbetsflödet Active för att möjliggöra produktionsanvändning.
🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Vanliga fallgropar

  • Inloggningsuppgifter för WhatsApp Business Cloud kan löpa ut eller tappa behörigheter efter ändringar hos Meta. Om svar slutar skickas: kontrollera först tokenstatus i Meta Developer Dashboard och n8n-autentiseringen som är kopplad till WhatsApp-noderna.
  • Om du använder Wait-noder eller extern bearbetning (som transkribering) varierar processtiderna. Öka väntetiden om efterföljande noder fallerar på tomma svar, särskilt direkt efter “Download Audio File” och Gemini-anropet för transkribering.
  • Standardprompter i AI-noder är generiska. Lägg in er varumärkesröst och “godkända formuleringar” tidigt i reglerna för den virtuella receptionistagenten, annars kommer du att redigera utdata för alltid.

Vanliga frågor

Hur lång tid tar det att sätta upp den här automatiseringen av WhatsApp-svar?

Cirka 45 minuter om du redan har API-nycklarna.

Behöver jag kunna koda för att automatisera WhatsApp-svar?

Nej. Du kopplar främst ihop konton och klistrar in autentiseringsuppgifter i n8n. Den enda “kodiga” delen finns redan i flödet för att konvertera ljud till Base64.

Är n8n gratis att använda för det här arbetsflödet för automatiserade WhatsApp-svar?

Ja. n8n har ett gratis alternativ för självhosting och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna in användning av Google Gemini och Pinecone-lagring, som varierar beroende på meddelandevolym.

Var kan jag hosta n8n för att köra den här automatiseringen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller självhosting på en VPS. För självhosting är Hostinger VPS prisvärd och hanterar n8n bra. Självhosting ger dig obegränsade körningar men kräver grundläggande serverdrift.

Kan jag anpassa det här arbetsflödet för automatiserade WhatsApp-svar för flera språk?

Ja, men håll det kontrollerat. Uppdatera reglerna för tillåtna språk i noden Virtual Receptionist (AI Agent) och testa sedan riktiga meddelanden för varje språk. Om du behöver striktare routing: lägg till språkdetektering och skicka olika språk till olika agentgrenar så att ton och policyformuleringar förblir konsekventa.

Varför fallerar min WhatsApp Business Cloud-anslutning i det här flödet?

Oftast handlar det om en access token som har löpt ut eller ett behörighetsproblem i Meta-appen som äger ditt WhatsApp Business-konto. Skapa en ny token i Meta Developer Dashboard och uppdatera sedan autentiseringen som används av noderna WhatsApp Incoming Trigger och Dispatch WhatsApp Reply. Om du nyligen har bytt telefonnummer eller webhooks: dubbelkolla webhook-URL:en och vilka events du prenumererar på. Rate limiting kan också dyka upp om du spammar svar under testning.

Hur många meddelanden kan den här automatiseringen av WhatsApp-svar hantera?

På självhostad n8n beror det på din server, men att hantera några tusen meddelanden i månaden är realistiskt på en liten VPS om din AI-användning är rätt dimensionerad. På n8n Cloud baseras din gräns på planens månatliga körningar. Röstmeddelanden tar längre tid än text eftersom transkribering är ett extra anrop, så planera kapacitet utifrån dina maxtimmar, inte en genomsnittlig dag.

Är den här automatiseringen av WhatsApp-svar bättre än att använda Zapier eller Make?

För det här användningsfallet är n8n oftast bättre eftersom du behöver grenar (text vs. röst), sessionsminne och ett mer “agent-likt” flöde med en vektordatabas i mitten. Zapier och Make kan lösa delar, men komplex chattlogik blir snabbt rörig och kan bli dyr när volymen växer. n8n ger dig också möjligheten att självhosta, vilket spelar roll när din WhatsApp-trafik toppar. Om du vill ha enklast möjliga upplägg och bara hanterar text kan du föredra Zapier. Om du är osäker: prata med en automationsspecialist och få en rak rekommendation.

Du sätter upp det här en gång, och din WhatsApp-inkorg slutar styra din dag. Flödet hanterar de repetitiva frågorna, och du kliver bara in när det faktiskt behövs en människa.

Kontakta oss

Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.

×

Använd mall

Få direkt tillgång till denna n8n-arbetsflödes JSON-fil

Launch login modal Launch register modal