Behöver ert företag hjälp med att implementera AI? Kontakta oss och få prisoffert här →
AI Skolan
januari 22, 2026

WhatsApp + OpenAI: smartare svar i supportchattar

Rickard Andersson Partner, Nodenordic.se

Din WhatsApp-supportinkorg fylls snabbt, och det jobbiga är inte de svåra frågorna. Det är det konstanta växlandet mellan ”snabbsvar”, ”lyssna på det här röstmeddelandet”, ”vad finns i den här skärmbilden” och ”kan du sammanfatta den här PDF:en?” hela dagen.

Supportansvariga känner av det först. Småföretagare får ofta göra det efter arbetstid. Och marknadschefer dras in när svaren börjar glida från varumärkets ton. Den här WhatsApp OpenAI-automationen håller svaren konsekventa i text, röst, bilder och PDF:er utan att du behöver övervaka varje meddelande.

Du får se hur flödet routar varje meddelandetyp, gör stökiga underlag till användbar kontext och svarar i ett korrekt formaterat ”WhatsApp-vänligt” format (med valfria röstsvar när kunder skickar ljud).

Så fungerar den här automationen

Här är hela arbetsflödet du kommer att sätta upp:

n8n Workflow Template: WhatsApp + OpenAI: smartare svar i supportchattar

Därför är det viktigt: supportinkorgar skapar fel vid ”multimodala” meddelanden

De flesta team tror att WhatsApp-support är ”bara chatt” tills kunder börjar skicka allt utom en korrekt formaterad fråga. En bild på en trasig del. Ett röstmeddelande med en lång berättelse. En PDF-faktura med ”kan du kolla den här?” på slutet. Plötsligt laddar du ned filer, spelar upp ljud igen, letar efter kontext och försöker svara med en ton som matchar varumärket. Det här kontextbytet är utmattande, och det bromsar även de enkla ärendena eftersom kön korkar igen. Misstag smyger sig in, och helt ärligt märker kunderna det.

Friktionen byggs på. Här är var det fallerar i verkligheten.

  • Någon måste manuellt öppna och tolka bilder, vilket gör ett 30-sekunders svar till en 10-minuters omväg.
  • Röstmeddelanden kräver att du lyssnar, lyssnar igen och skriver tillbaka, så en enda kund kan binda upp en handläggare.
  • PDF:er ignoreras eller försenas eftersom det är irriterande och lätt att göra fel när man ska plocka ut rätt detaljer.
  • När flera personer svarar från samma inkorg glider ton och precision, och du får lägga tid på efterarbete.

Det du bygger: en WhatsApp AI-assistent som förstår text, röst, bilder och PDF:er

Det här flödet gör din WhatsApp-inkorg till en AI-assisterad supportkanal som kan ”läsa” det kunder skickar, även när det inte är ren text. Det startar när ett WhatsApp-meddelande kommer in och kontrollerar sedan vilken typ av innehåll det är (text, röstmeddelande, bild eller dokument). Om det är ett röstmeddelande laddar flödet ned ljudet och transkriberar det med OpenAI Whisper så att AI:n kan svara på det som faktiskt sades. Om det är en bild laddar det ned den och skickar den till en bildkapabel OpenAI-modell för att skapa en användbar beskrivning innan svar. Om det är en PDF validerar det filtypen, extraherar dokumenttexten och svarar med dokumentets kontext. Under hela konversationen håller ett minnesfönster koll på ungefär de senaste 10 interaktionerna så att svaren blir konsekventa och inte ”glömmer” vad kunden redan har sagt.

Flödet börjar med en WhatsApp-trigger och routar sedan meddelanden genom en Switch-nod baserat på inmatningstyp. OpenAI gör grovjobbet (transkribering, bildförståelse och svarsgenerering), och WhatsApp skickar svaret tillbaka som text eller som ett genererat röstsvar när det passar.

Det du bygger

Förväntade resultat

Säg att din inkorg får 20 WhatsApp-meddelanden per dag. Om 5 är röstmeddelanden (cirka 6 minuter vardera att lyssna och svara), 5 innehåller en bild (kanske 5 minuter att tolka), och 2 har PDF:er (omkring 10 minuter att plocka ut det viktiga), så lägger du ungefär 2 timmar bara på att ”förstå inmatningen”. Med det här flödet granskar du fortfarande specialfall, men det mesta av förarbetet försvinner. Du gör främst en snabb kontroll och skickar, vilket ofta känns som 20 minuter i stället för halva eftermiddagen.

Innan du börjar

  • n8n-instans (testa n8n Cloud gratis)
  • Alternativ för egen hosting om du föredrar det (Hostinger fungerar bra)
  • WhatsApp Business API för att ta emot och skicka WhatsApp-meddelanden.
  • OpenAI för chatt, vision, transkribering och TTS.
  • OpenAI API-nyckel (hämta den i OpenAI API-dashboarden).

Svårighetsnivå: Medel. Du kopplar in autentiseringar, testar meddelandetyper och finjusterar en systemprompt för din varumärkeston.

Vill du att någon bygger detta åt dig? Prata med en automationsexpert (gratis 15-minuters konsultation).

Steg för steg

En kund skickar ett meddelande till ditt WhatsApp-nummer. Flödet startar direkt från WhatsApp-triggern och fångar meddelandets payload (text plus eventuell media-metadata).

Flödet avgör vilken typ av meddelande det är. En routing-switch kontrollerar om det är text, ljud, bild eller ett dokument och skickar det vidare i rätt gren. Format som inte stöds får en artig notis om att det inte går att behandla, så kunderna inte blir utan svar.

OpenAI gör om de ”svåra delarna” till användbar kontext. Ljud laddas ned och transkriberas (Whisper). Bilder laddas ned och beskrivs av en vision-kapabel modell. PDF:er valideras, hämtas och parsas så att AI:n kan svara utifrån innehållet i filen, inte gissningar.

Assistenten svarar, med minne för kontinuitet. AI-agenten genererar ett koncist svar med en anpassad systemprompt, medan ett minnesfönster behåller senaste kontext (cirka 10 turer). Om inmatningen var ljud kan flödet generera ett röstsvar och skicka tillbaka det som WhatsApp-ljud; annars skickas ett korrekt formaterat textsvar.

Du kan enkelt ändra systemprompten för att matcha dina policyer och din ton efter behov. Se den fullständiga implementationsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementering

Steg 1: konfigurera WhatsApp-triggern

Konfigurera arbetsflödets startpunkt så att inkommande WhatsApp-meddelanden kan tas emot och routas.

  1. Lägg till noden WhatsApp Inbound Hook och aktivera uppdateringar för messages.
  2. Inloggningsuppgifter krävs: Anslut era whatsAppTriggerApi-inloggningsuppgifter.
  3. Verifiera att webhooken är nåbar och returnerar events innan ni fortsätter.

Tips: Använd ett testmeddelande i WhatsApp för att bekräfta att webhooken triggar innan ni kopplar resten av flödet.

Steg 2: konfigurera routning av input och hämtning av media

Routa inkommande meddelanden efter typ och hämta mediafiler vid behov.

  1. I Route Input Type, bekräfta att det finns regler för Text, Voice, Image och Document med uttryck som {{ $json.messages[0].text.body }} och {{ $json.messages[0].audio }}.
  2. Anslut WhatsApp-media-noderna med inloggningsuppgifter: Retrieve Audio URL, Retrieve Image URL och Retrieve Doc URL.
  3. Inloggningsuppgifter krävs: Anslut era whatsAppApi-inloggningsuppgifter till alla WhatsApp action-noder (7 noder hanterar mediahämtning och svar).
  4. I Validate PDF Only, behåll villkoret att {{ $json.messages[0].document.mime_type }} är lika med application/pdf för att filtrera dokument.

⚠️ Vanlig fallgrop: Om Route Input Type inte matchar en meddelandetyp faller arbetsflödet tillbaka till Unsupported Notice, så säkerställ att reglerna täcker era förväntade inputs.

Steg 3: konfigurera hämtning och parsning av media

Ladda ner mediafiler och extrahera innehåll för ljud, bilder och PDF:er.

  1. Ställ in Fetch Image File-URL till {{ $json.url }} och autentisera med httpHeaderAuth.
  2. Ställ in Fetch Audio File-URL till {{ $json.url }} och autentisera med httpHeaderAuth.
  3. Ställ in Fetch Document File-URL till {{ $json.url }} och autentisera med httpHeaderAuth.
  4. I Parse PDF Content, ställ in Operation till pdf för att extrahera text.

Tips: Säkerställ att er HTTP-auth-token kan komma åt WhatsApp-media-URL:er; fel här kommer att stoppa AI-bearbetningen.

Steg 4: sätt upp AI-bearbetning och minne

Konfigurera AI-pipelinen för tolkning av text, röst, bild och dokument.

  1. I Image Insight Review, behåll Resource som image, Input Type som base64 och analysprompten enligt angiven konfiguration.
  2. I Speech To Text, ställ in Resource till audio och Operation till transcribe.
  3. I AI Response Agent, ställ in Text till {{ $json.text }} och behåll systemmeddelandet för multimodal analys.
  4. Öppna Chat Model Engine och välj modellen gpt-4o-mini.
  5. Öppna Conversation Memory och behåll Session Key som memory_{{ $('WhatsApp Inbound Hook').item.json.contacts[0].wa_id }} med Context Window Length satt till 10.
  6. Inloggningsuppgifter krävs: Anslut era openAiApi-inloggningsuppgifter till Image Insight Review, Speech To Text, Chat Model Engine och Generate Voice Output.

⚠️ Vanlig fallgrop: Conversation Memory är en subnod; inloggningsuppgifter måste läggas till på de överordnade AI-noderna som Chat Model Engine och AI Response Agent.

Steg 5: konfigurera mapping av svar och outputs

Mappa payloads till AI-prompter och definiera hur svar skickas via WhatsApp.

  1. I Map Text Payload, ställ in text till {{ $('WhatsApp Inbound Hook').item.json.messages[0].text.body }}.
  2. I Map Voice Payload, ställ in text till {{ $json.text }} (från Speech To Text).
  3. I Map Image Payload, ställ in text till User request on the image: {{ "Describe the following image" || $('WhatsApp Inbound Hook').item.json.messages[0].image.caption }} Image description: {{ $json.content }}.
  4. I Map Document Payload, ställ in text till User request on the file: {{ "Describe this file" || $('Validate PDF Only').item.json.messages[0].document.caption }} File content: {{ $json.text }}.
  5. I Voice Response Check, verifiera att villkoret {{ $('WhatsApp Inbound Hook').item.json.messages[0].audio }} finns för att avgöra röstsvar.
  6. I Send Text Reply, ställ in Text Body till {{ $json.output }} och Recipient Phone Number till {{ $('WhatsApp Inbound Hook').item.json.messages[0].from }}.
  7. I Generate Voice Output, ställ in Input till {{ $('AI Response Agent').item.json.output }} och Voice till onyx, och skicka sedan vidare via Normalize Audio Mime till Send Voice Reply.
  8. Säkerställ att Notify Wrong Format och Unsupported Notice är anslutna för dokumentvalidering och ej stödda inputs.

Tips: Ersätt [YOUR_ID] i WhatsApp-noderna med ert WhatsApp Phone Number ID.

Steg 6: testa och aktivera ert arbetsflöde

Kör end-to-end-tester för varje mediatyp och aktivera sedan arbetsflödet för produktion.

  1. Klicka på Execute Workflow och skicka ett text-, bild-, ljud- och PDF-meddelande till ert WhatsApp-nummer.
  2. Bekräfta utdata: textsvar ska returneras från Send Text Reply, och ljudinput ska returnera ett röstmeddelande via Send Voice Reply.
  3. Om PDF-valideringen misslyckas, verifiera att Validate PDF Only matchar application/pdf och att Notify Wrong Format triggar.
  4. När allt fungerar, slå om arbetsflödet till Active för att möjliggöra produktion.
🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Felsökningstips

  • Inloggningsuppgifter för WhatsApp Business API kan löpa ut eller kräva specifika behörigheter. Om det skapar fel, kontrollera först inställningarna i din Meta Developer-app och tokenstatus.
  • Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om efterföljande noder misslyckas på grund av tomma svar.
  • Standardprompter i AI-noder är generiska. Lägg in er varumärkeston tidigt, annars kommer du redigera output för alltid.

Snabba svar

Hur lång tid tar det att sätta upp den här WhatsApp OpenAI-automationen?

Cirka 45 minuter om dina WhatsApp- och OpenAI-uppgifter är klara.

Krävs kodning för den här automationen av supportsvar?

Nej. Du kopplar konton och justerar prompter och routingregler.

Är n8n gratis att använda för det här WhatsApp OpenAI-automationsflödet?

Ja. n8n har ett gratis alternativ för egen hosting och en gratis provperiod på n8n Cloud. Cloud-planer startar på 20 USD/månad för högre volym. Du behöver också räkna in OpenAI API-kostnader, som vanligtvis är små per meddelande men ökar med bild-, ljud- och PDF-bearbetning.

Var kan jag hosta n8n för att köra den här automationen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen hosting på en VPS. För egen hosting är Hostinger VPS prisvärd och hanterar n8n bra. Egen hosting ger obegränsade körningar men kräver grundläggande serverhantering.

Kan jag anpassa det här WhatsApp OpenAI-automationsflödet för olika användningsfall?

Ja, och det bör du. De flesta anpassningar sker i AI-agentens systemprompt (ton, policyer, eskaleringsregler) och i switchen ”Route Input Type” (vad du accepterar och hur du hanterar det). Många team lägger till en gren som routar meddelanden om ”återbetalning” eller ”arg kund” till en människa, medan rutin-FAQ:er fortsätter att automatiseras. Du kan också ändra logiken i ”Validate PDF Only” för att tillåta andra dokumenttyper om din supportprocess behöver det.

Varför fallerar min WhatsApp-anslutning i det här flödet?

Oftast beror det på en utgången Meta-token eller ett behörighetsproblem för WhatsApp Business API i ditt Meta Developer-konto. Uppdatera autentiseringarna i WhatsApp-triggern och sändnoderna och testa igen med ett nytt inkommande meddelande. Om bara mediameddelanden misslyckas, kontrollera att flödet kan hämta media-URL:er och att din app har rätt scopes för att ladda ned bilagor. Rate limiting kan också dyka upp när du bearbetar många mediatunga meddelanden efter varandra.

Vilka volymer kan det här WhatsApp OpenAI-automationsflödet hantera?

På n8n Cloud beror volymen på din plans månatliga körningar, medan egen hosting främst beror på din server. Praktiskt sett är de långsammaste delarna transkribering och dokument-/bildbearbetning, så räkna med att mediatunga chattar tar längre tid än enbart text. Om du kör en inkorg med hög volym blir köhantering samt större minnes-/compute-budget viktigare än själva flödeslogiken.

Är den här WhatsApp OpenAI-automationen bättre än att använda Zapier eller Make?

För multimodal WhatsApp-support är n8n oftast ett bättre val eftersom förgreningslogiken är flexibel, du kan köra egen hosting för skala och du kan hålla hela kedjan ”ladda ned fil → bearbeta → svara” på ett ställe. Zapier och Make kan fungera, men de blir ofta klumpiga när du lägger till flera rutter (text, bild, ljud, PDF) och vill ha delat minne mellan meddelanden. En annan skillnad är kostnadsbeteendet: med n8n betalar du inte extra varje gång du bygger mer avancerad logik, vilket spelar roll när du förfinar flödet över tid. Om du bara gör ett enkelt autosvar kan de verktygen kännas snabbare att starta med. Prata med en automationsexpert om du vill ha hjälp att välja.

När detta väl är igång slutar inkorgen kännas som en hög med pussel och börjar fungera som ett system. Flödet tar hand om den repetitiva tolkningen, så att du kan lägga din tid på de konversationer som faktiskt kräver en människa.

Kontakta oss

Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.

×

Använd mall

Få direkt tillgång till denna n8n-arbetsflödes JSON-fil

Launch login modal Launch register modal