Du laddar upp en bild för AI-granskning, får ett användbart första resultat … och sedan “försvinner” originalfilen i nästa steg. Nu laddar du upp igen, laddar ner igen, kopierar base64-klumpar och börjar ifrågasätta allt eftersom workflowet inte längre kan se bilden.
Den här OpenAI Vision Telegram-lösningen slår hårt mot ops-ansvariga och marknadsteam när de behöver snabba godkännanden. Den dyker också upp hos byråägare som granskar kundmaterial hela dagarna. Utfallet är enkelt: en uppladdning, två kontroller, och du behåller originalfilen intakt hela vägen.
Du får se hur detta workflow bevarar bilden (binary/base64), kör en första OpenAI Vision-tolkning, och sedan kontrollerar igen med en AI-agent och skickar vidare resultaten för snabb granskning.
Så fungerar den här automationen
Se hur detta löser problemet:
n8n Workflow Template: OpenAI Vision + Telegram: pålitliga bildkontroller
flowchart LR
subgraph sg0["Form Flow"]
direction LR
n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/form.svg' width='40' height='40' /></div><br/>Form Trigger1"]
n1@{ icon: "mdi:robot", form: "rounded", label: "Analyze image", pos: "b", h: 48 }
n2["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/merge.svg' width='40' height='40' /></div><br/>Merge1"]
n3@{ icon: "mdi:robot", form: "rounded", label: "AI Agent", pos: "b", h: 48 }
n4@{ icon: "mdi:brain", form: "rounded", label: "OpenAI Chat Model", pos: "b", h: 48 }
n2 --> n3
n1 --> n2
n0 --> n1
n0 --> n2
n4 -.-> n3
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n0 trigger
class n1,n3 ai
class n4 aiModel
classDef customIcon fill:none,stroke:none
class n0,n2 customIcon
Utmaningen: kontrollera bilder igen utan att tappa filen
Bildgranskning låter enkelt tills du ska göra det konsekvent. Någon laddar upp en JPG, OpenAI Vision analyserar den, och du vill ha en andra genomgång för att bekräfta detaljer eller förfina extraktionen. Sedan kommer den irriterande delen: steget längre fram kan inte längre komma åt originalets binärdata, så din “omkontroll” är egentligen ingen omkontroll. Du slutar med att pussla ihop saker manuellt, eller värre: lita på en enda AI-läsning när precision faktiskt spelar roll.
Det blir snabbt mycket, särskilt när bilden är källan till sanningen.
- Steg längre fram tappar ofta den uppladdade binärdatan, så den andra analysen kan inte referera till originalbilden.
- Team kompenserar genom att ladda upp filer igen i chatten eller på drive, vilket slösar cirka 10 minuter per objekt och förstör spårbarheten.
- Vision-resultat från en enda körning kan vara inkonsekventa på stökiga bilder, vilket gör att du antingen accepterar risk eller gör om arbetet.
- När du inte kan hålla “bild + första analys” ihop blir det svårare att jämföra utdata och känna trygghet i godkännanden.
Lösningen: bevara bilden och kör sedan en riktig andra kontroll
Det här workflowet använder ett enkelt mönster som löser problemet med “saknad binärdata” på ett rent sätt. Ett uppladdningsformulär tar emot en bild och output:ar den som ett binary/base64-fält med namnet data. OpenAI Vision (GPT-4o) kör en första analys med samma data-fält som base64-input och producerar ett textresultat (sparas som content). Sedan, i stället för att låta grenarna driva isär, slår en Merge-nod ihop originaluppladdningen och analysutdata efter position så att nästa steg får båda samtidigt. Till sist analyserar en AI-agent bilden igen samtidigt som den refererar till första resultatet, vilket är perfekt för validering, förfining eller “stämmer det här?”-kontroller innan du delar vidare.
Workflowet startar när någon skickar in en bild via det inbyggda n8n-formuläret. OpenAI Vision levererar första tolkningen, och sedan sammanför Merge originalfilen och den första analysen till en payload. AI-agenten kör en andra kontroll med bilden plus det tidigare resultatet, så du får en pålitlig omkontroll utan att ladda upp något igen.
Vad som förändras: före vs. efter
| Detta eliminerar | Effekten du märker |
|---|---|
|
|
Effekt i verkligheten
Säg att du granskar 20 inkommande bilder i veckan (kreativa utkast, skärmdumpar, kvitton, produktetiketter). Att manuellt göra “två kontroller” betyder ofta: ladda upp en gång, kopiera filen någonstans, ladda upp igen för andra tolkningen, och sedan klistra in resultat i chatten, alltså kanske 10 minuter per bild. Det blir runt 3 timmar i veckan. Med det här workflowet är det en formuläruppladdning och du får första analysen plus en riktig omkontroll i samma körning, oftast på ett par minuters väntetid medan AI:n svarar.
Krav
- n8n-instans (testa n8n Cloud gratis)
- Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
- OpenAI för Vision-analys och omkontroll.
- Telegram för att leverera resultat för granskning.
- OpenAI API-nyckel (hämta den från din OpenAI-dashboard)
Kunskapsnivå: Nybörjare. Du kopplar in autentisering, behåller uppladdningsfältet med namnet data, och testar med en exempelbild.
Behöver du hjälp att implementera detta? Prata med en automationsexpert (gratis 15-minuters konsultation).
Workflow-flödet
En bilduppladdning triggar allt. n8n Form Trigger visar en enkel sida med titeln “Image Document Upload” och output:ar filen i ett binary/base64-fält med namnet data.
OpenAI Vision gör första tolkningen. Bilden analyseras med en Vision-kompatibel modell (GPT-4o) med base64-input. Utdata blir ett textsvar som lagras som content, som du kan använda som en första sammanfattning, OCR-liknande extraktion eller en klassificeringsnotering.
Merge sammanför filen och första analysen. Workflowet kombinerar den orörda uppladdningsgrenen med analysgrenen med “combine by position”, så nästa nod får ett item som innehåller både data och content. Det är hela tricket, helt ärligt.
AI-agenten kör en riktig omkontroll. Agenten får en prompt att analysera bilden igen och verifiera om den får samma resultat, med både originalbilden och första analysen i kontext. Du kan skicka slutsvaret till Telegram, lagra det, eller routa det till ett CRM eller ett kalkylark.
Du kan enkelt justera AI-agentens prompt för att extrahera specifika fält i stället för en generell kontroll, beroende på behov. Se hela implementationsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementering
Steg 1: konfigurera formulärtriggern
Sätt upp det inkommande formuläret som samlar in bilduppladdningar för analys.
- Lägg till en Inbound Form Capture-nod som trigger.
- Ställ in Path till
d6f874ec-6cb3-46c7-8507-bd647c2484f0. - Ställ in Form Title till
Image Document Upload. - Ställ in Form Description till
Upload a image document for AI analysis. - I Form Fields lägger ni till ett filfält med Field Label satt till
data.
data eftersom efterföljande noder refererar till den direkt.Steg 2: anslut OpenAI-inloggningsuppgifter
Anslut OpenAI för bildanalys och chattmodellen som används av agenten.
- Öppna Image Insight Scan och välj Credential Required: Anslut era openAiApi-inloggningsuppgifter.
- Öppna Chat Model Engine och välj Credential Required: Anslut era openAiApi-inloggningsuppgifter.
- I Chat Model Engine ställer ni in Model till
gpt-4.1-mini. - Bekräfta att Chat Model Engine är ansluten som språkmodell för Vision Reasoning Agent (inloggningsuppgifter läggs till på föräldranoden, inte på agenten).
Steg 3: konfigurera bildanalys och sammanslagning av strömmar
Analysera den uppladdade bilden och slå ihop formulärdata med AI-utdata.
- I Image Insight Scan ställer ni in Resource till
imageoch Operation tillanalyze. - Ställ in Input Type till
base64och Text till=data. - Välj modellen i Image Insight Scan som
gpt-4o. - Konfigurera Combine Streams med Mode satt till
combineoch Combine By satt tillcombineByPosition.
Inbound Form Capture ger utdata till både Image Insight Scan och Combine Streams parallellt.
Steg 4: konfigurera resonemangsagenten
Kör ett resonemangssteg i andra passet som använder sammanslagen data och chattmodellen.
- Öppna Vision Reasoning Agent och ställ in Prompt Type till
define. - Ställ in Text till
=data {{ $json.content }}. - I Options → System Message anger ni
analyze the image again and see if you get the same result.. - Säkerställ att Combine Streams är kopplad till Vision Reasoning Agent på huvudutgången.
Steg 5: testa och aktivera ert arbetsflöde
Verifiera att hela flödet fungerar från formulärinsändning till resonemangsutdata.
- Klicka på Execute Workflow och öppna formuläret från Inbound Form Capture.
- Ladda upp en testbildfil och skicka in formuläret.
- Bekräfta att Image Insight Scan returnerar ett analysresultat och att Combine Streams slår ihop båda grenarna.
- Kontrollera utdata från Vision Reasoning Agent för analysen i andra passet.
- Växla arbetsflödet till Active när testkörningen lyckas.
Se upp med
- OpenAI-autentisering kan löpa ut eller kräva specifika behörigheter. Om något slutar fungera, kontrollera först OpenAI-credentialn i n8n (och fakturering/status i din OpenAI-dashboard).
- Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om noder längre fram fallerar på tomma svar.
- Standardprompter i AI-noder är generiska. Lägg in er tonalitet tidigt, annars kommer du redigera utdata i all evighet.
Vanliga frågor
Oftast cirka 30 minuter om din OpenAI-nyckel är redo.
Ja. Ingen kodning krävs, men du behöver följa fältnamngivningen så att uppladdningen fortsätter vara tillgänglig. Det mesta av jobbet är att koppla autentisering och köra en testbild från början till slut.
Ja. n8n har ett gratis alternativ för egen drift och en gratis testperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna med OpenAI API-kostnader, som oftast är några cent per bild beroende på modell och prompt.
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärd och klarar n8n bra. Egen drift ger dig obegränsat antal körningar men kräver grundläggande serverhantering.
Du kan behålla samma struktur och byta ut vad som händer efter Merge. Vanliga justeringar är att ändra AI-agentens prompt för att extrahera strukturerade fält (som fakturatotaler eller varumärkessignaler), skicka slutsvaret till Telegram, eller lägga till Google Drive-lagring direkt efter Combine Streams-noden så att varje originalfil arkiveras.
Oftast är det ett problem med API-nyckeln, en faktureringsgräns, eller att credentialn i n8n pekar på en gammal nyckel. Uppdatera OpenAI-credentialn i n8n och bekräfta sedan att modellen du valt stödjer bildanalys. Om Vision-noden bara ger fel för vissa bilder, kontrollera filtyp och storlek först, eftersom en udda uppladdning kan orsaka förvirrande fel.
I självhostad n8n beror kapaciteten främst på din server och OpenAI:s rate limits.
Ofta ja, för just det här mönstret “behåll binärdatan, förgrena, och slå sedan ihop igen”. n8n gör det enkelt att bevara den uppladdade filen, köra två AI-pass och styra exakt vilken data varje steg får. Zapier och Make kan göra delar av detta, men du kan lägga mer tid än du tror på filhantering och kontext över flera steg. Om du bara gör ett enkelt “bild in, text ut”-flöde kan de verktygen fungera bra. Prata med en automationsexpert om du vill ha en snabb rekommendation för din exakta setup.
När du slutar tappa originalfilen mitt i workflowet blir “omkontroller” rutin i stället för ett irritationsmoment. Sätt upp detta en gång, så följer bilden och båda analyserna med varje gång.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.