Telegram + OpenAI Vision: OCR-svar från bilder

Att kopiera text från kvitton och skärmdumpar är en särskilt irriterande typ av jobb. Du kisar, du skriver om, du missar ändå en siffra och plötsligt stämmer inte talen.

Telegram OCR-automatisering träffar driftteam och bokförare först, ärligt talat. Men marknadschefer som samlar skärmdumpar på konkurrenter känner av det också, eftersom “snabb delning” blir ett långsamt städjobb.

Det här arbetsflödet tar en bild som skickas in via ett enkelt formulär, kör den genom OpenAI Vision och skickar ett felfritt, lättläst Telegram-svar. Du får se vad det automatiserar, vilka resultat du kan förvänta dig och vad du behöver för att köra det stabilt.

Så här fungerar automatiseringen

Hela n8n-flödet, från trigger till slutligt resultat:

n8n Workflow Template: Telegram + OpenAI Vision: OCR-svar från bilder

Click to explore

flowchart LR

    subgraph sg0["Form Intake Flow"]
        direction LR
        n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/form.svg' width='40' height='40' /></div><br/>Form Intake Trigger"]
        n1@{ icon: "mdi:robot", form: "rounded", label: "Image Insight Analyzer", pos: "b", h: 48 }
        n2@{ icon: "mdi:swap-vertical", form: "rounded", label: "Assign Telegram Chat ID", pos: "b", h: 48 }
        n3["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Send Telegram Summary"]
        n1 --> n2
        n0 --> n1
        n2 --> n3
    end

    %% Styling
    classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
    classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
    classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
    classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
    classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
    classDef disabled stroke-dasharray: 5 5,opacity: 0.5
    class n0 trigger
    class n1 ai
    classDef customIcon fill:none,stroke:none
    class n0,n3 customIcon

Problemet: data i skärmdumpar sitter fast i pixlar

Mycket “viktig” affärsinformation dyker upp som bilder. Kvitton från en leverantör. En skärmdump på en orderbekräftelse. Ett foto av en pappersfaktura. Någon slänger in den i Telegram med “kan du logga det här?” och plötsligt gör du manuell OCR med ögonen. Kostnaden är inte bara tid. Det är de ständiga småfelen: omkastade siffror, saknade momsrader eller en totalsumma som skrivs fel och i tysthet skapar fel i rapporteringen senare. Och eftersom det känns snabbt fortsätter det hända.

Det summeras snabbt. Här är vad som börjar fallera när volymen ökar.

Att skriva av ett enda kvitto kan ta cirka 10 minuter, och du måste ändå dubbelkolla.
Skärmdumpar följer inget format, så varje bild blir ett helt nytt miniprojekt.
Folk frågar i chatten, sedan försvinner svaret i flödet, vilket betyder dubbla frågor senare.
Små fel smyger sig in i kalkylblad eller Airtable-baser och du märker det först vid månadsskiftet.

Lösningen: formulär-till-Telegram bildanalys med OpenAI Vision

Det här n8n-arbetsflödet gör “bild in, förvirring ut” till en förutsägbar, återanvändbar process. En bild skickas in via ett formulär (n8n:s webhook-formulär, Typeform, Tally eller vad som helst som kan anropa en webhook). n8n plockar upp filen, skickar den till OpenAI Vision med en prompt du styr och får tillbaka en strukturerad analys. Analysen blir ett Telegram-meddelande som levereras direkt till rätt chatt, så personen som behöver det ser en tydlig sammanfattning i stället för en suddig skärmdump. Sätt upp det en gång så rullar det tyst i bakgrunden, även när teamet har fullt upp.

Arbetsflödet startar vid formulärtriggern. OpenAI Vision läser bilden och tar fram texten och kontexten du bett om (kvittrader, totalsummor, datum, butik/handlarnamn eller en tolkning i klarspråk). Till sist sätter n8n Telegram-chatt-ID och skickar sammanfattningen som ett meddelande du kan vidarebefordra, nåla fast eller kopiera in i andra system.

Det här får du: automatisering vs resultat

Vad det här arbetsflödet automatiserar

Resultat du får

Samlar in en bild från en formulärinsändning och skickar in den i ditt arbetsflöde automatiskt.
Skickar bilden till OpenAI Vision med en prompt anpassad för ditt användningsfall.
Formaterar modellens output till en lättläst sammanfattning redo för chatten.
Levererar slutresultatet till Telegram utan att någon behöver copy-paste:a text.

De flesta team får tillbaka cirka 1–2 timmar per vecka när bilder blir rutin.
Renare överlämningar i Telegram, så färre uppföljningar som “vad står det här?”.
Färre avskriftsfel, särskilt för totalsummor, datum och fakturanummer.
Mer konsekventa sammanfattningar eftersom varje bild följer samma prompt.
Snabbare beslut, eftersom svaret kommer där samtalet redan pågår.

Exempel: så här ser det ut i praktiken

Säg att ditt team hanterar 20 kvitton i veckan som kommer in som skärmdumpar i chatten. Manuellt, om varje tar cirka 10 minuter att läsa, skriva av och rimlighetskolla, blir det ungefär 3 timmar monotont arbete. Med det här arbetsflödet tar det cirka 1 minut att skicka in bilden, sedan analyserar OpenAI i bakgrunden och din Telegram-sammanfattning landar strax efter. Du gör fortfarande stickprov ibland, men du gör inte längre hela avskriften varje gång.

Det här behöver du

n8n-instans (testa n8n Cloud gratis)
Self-hosting-alternativ om du föredrar det (Hostinger fungerar bra)
Telegram-bot för att skicka sammanfattningsmeddelandet
OpenAI (Vision) för att analysera bilder och extrahera text
OpenAI API-nyckel (hämta den i OpenAI-dashboarden)

Kunskapsnivå: Nybörjare. Du kopplar konton, klistrar in en nyckel och justerar en prompt.

Vill du inte sätta upp detta själv? Prata med en automationsexpert (gratis 15-minuters konsultation).

Så fungerar det

En bild skickas in via ditt formulär. Form Intake Trigger tar emot bildfilen (eller bild-URL:en) så att n8n har något tillförlitligt att processa, inte en slumpmässig uppladdning i chatten.

OpenAI Vision tolkar vad som finns i bilden. Image Insight Analyzer skickar filen till OpenAI med dina instruktioner, som “extrahera rader och totalsummor” eller “sammanfatta den här skärmdumpen på enkel engelska.” Prompten spelar större roll än de flesta tror.

Arbetsflödet förbereder leveransen till Telegram. n8n sätter Telegram-chatt-ID (en enkel Set-nod), vilket är hur du styr var meddelanden hamnar. Du kan låsa det till en teamchatt, eller senare bygga ut det till att routa per användare.

En felfri sammanfattning visas i Telegram. Noden Send Telegram Summary postar analysresultatet som ett meddelande, så outputen blir direkt delbar och sökbar i chattens historik.

Du kan enkelt ändra analys-prompten för att få ett tajtare kvittoformat eller en längre förklaring beroende på behov. Se hela implementeringsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementering

Steg 1: Konfigurera formulärtriggern

Konfigurera formuläret som tar emot bilduppladdningar och startar workflowet.

Lägg till noden Form Intake Trigger som workflowets trigger.
Ställ in Form Title till ANALYZE IMAGE.
Ställ in Form Description till input the image you want to analyse .
I Form Fields lägger ni till ett filfält med etiketten upload here (detta mappas till den binära egenskapen som används senare).

Steg 2: Konfigurera bildanalys

Konfigurera noden för AI-bildanalys och koppla den till triggern.

Lägg till noden Image Insight Analyzer och anslut den efter Form Intake Trigger.
Ställ in Resource till image och Operation till analyze.
Ställ in Input Type till base64 och Binary Property Name till upload_here.
Välj modellen gpt-4o-mini i Model.
Credential Required: Anslut era openAiApi-credentials.

Tips: Namnet på den binära egenskapen måste matcha filfältets etikett från Form Intake Trigger (mellanslag blir understreck, så upload here mappas till upload_here).

Steg 3: Lägg till Telegram-chat-ID

Definiera destinationens chat-ID så att sammanfattningen kan levereras till Telegram.

Lägg till noden Assign Telegram Chat ID och anslut den efter Image Insight Analyzer.
I Assignments ställer ni in fältnamnet till telegram chat id (observera det avslutande mellanslaget).
Ställ in värdet till ert chat-ID och ersätt [YOUR_ID] med det faktiska numret.

⚠️ Vanlig fallgrop: Fältnamnet innehåller ett avslutande mellanslag (telegram chat id ). Om ni tar bort det kommer uttrycket i Send Telegram Summary att sluta fungera.

Steg 4: Konfigurera Telegram-utdata

Skicka den AI-genererade sammanfattningen till Telegram.

Lägg till noden Send Telegram Summary och anslut den efter Assign Telegram Chat ID.
Ställ in Text till {{ $('Image Insight Analyzer').item.json.content }}.
Ställ in Chat ID till {{ $json['telegram chat id '] }}.
Credential Required: Anslut era telegramApi-credentials.

Steg 5: Testa och aktivera ert workflow

Verifiera flödet från början till slut innan ni slår på det.

Klicka på Execute Workflow och skicka in en bild via formuläret i Form Intake Trigger.
Bekräfta att Image Insight Analyzer returnerar ett svar i content.
Verifiera att Send Telegram Summary publicerar analysen i målchatten.
När allt fungerar växlar ni workflowet till Active för att aktivera löpande användning.

🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Vanliga fallgropar

Telegram-autentisering kan löpa ut eller så kan boten tappa åtkomst till målchatten. Om det slutar fungera: kontrollera bot-token i n8n-credentials och bekräfta först att boten fortfarande finns i chatten.
Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om efterföljande noder fallerar på tomma svar.
Standardprompter i AI-noder är generiska. Lägg in er tonalitet tidigt, annars kommer du redigera output för alltid.

Vanliga frågor

Hur lång tid tar det att sätta upp den här Telegram OCR-automatiseringen?

Cirka 30 minuter om du redan har din Telegram-bot och din OpenAI-nyckel.

Behöver jag kunna koda för att automatisera OCR-svar i Telegram?

Nej. Du kopplar Telegram och OpenAI och justerar sedan en prompt.

Är n8n gratis att använda för det här arbetsflödet för Telegram OCR-automatisering?

Ja. n8n har ett gratis self-hosted-alternativ och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna med OpenAI API-kostnader (för många kvitto-liknande bilder är det oftast bara några cent per körning, beroende på prompt och längd på output).

Var kan jag hosta n8n för att köra den här automatiseringen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller self-hosting på en VPS. För self-hosting är Hostinger VPS prisvärd och klarar n8n bra. Self-hosting ger dig obegränsade körningar men kräver grundläggande serverhantering.

Kan jag anpassa det här arbetsflödet för Telegram OCR-automatisering för routing till flera användare?

Ja, men du behöver ändra hur chatt-ID sätts. I det här arbetsflödet är steget “Assign Telegram Chat ID” ett manuellt värde; du kan ersätta det med en uppslagning från Airtable eller Google Sheets och sedan skicka varje användares sammanfattning till deras egen chatt. Vanliga anpassningar är routing baserat på formulärets e-post, att lägga till en notis om säkerhetsgrad i sammanfattningen och att outputa ett strikt JSON-block för senare loggning.

Varför misslyckas min Telegram-anslutning i det här arbetsflödet?

Oftast är det ett problem med bot-token, eller så har boten inte längre behörighet att posta i målchatten. Skapa om token (vid behov), uppdatera Telegram-credentials i n8n och bekräfta att boten fortfarande är tillagd i chatten du skickar till. Om det fungerar i en chatt men inte i en annan handlar det nästan alltid om chattbehörigheter eller ett felaktigt chatt-ID.

Hur många bilder kan den här Telegram OCR-automatiseringen hantera?

Många, inom rimliga gränser. På n8n Cloud är begränsningen främst dina månatliga körningar och hur snabbt du vill att meddelanden ska komma fram; self-hosting tar bort körningsbegränsningar men din server och OpenAI:s rate limits gäller fortfarande. I praktiken kan de flesta små team köra från dussintals till några hundra bilder i veckan utan att behöva tänka på det. Om du väntar toppar (som kvittodumpar vid månadsskiftet), lägg till enkel köhantering och håll Telegram-meddelandet kort.

Är den här Telegram OCR-automatiseringen bättre än att använda Zapier eller Make?

Ibland. n8n passar bättre när du vill ha mer kontroll över prompter, formatering och förgreningslogik utan att betala extra för varje steg, och self-hosting är en tydlig fördel om volymen växer. Zapier eller Make kan gå snabbare för en enkel prototyp “bild in, meddelande ut”, men kostnaderna kan dra iväg när antalet tasks ökar. Den stora skillnaden är flexibilitet: i n8n kan du fortsätta bygga ut samma arbetsflöde till loggning, godkännanden eller routing till flera användare. Om du är osäker, prata med en automationsexpert och beskriv din volym och var datan behöver hamna.

Det här är den typen av automatisering som känns liten tills du har kört den i en månad. Då inser du hur mycket arbete som tidigare gömde sig i “skicka bara skärmdumpen.”

Telegram + OpenAI Vision: OCR-svar från bilder

Så här fungerar automatiseringen

n8n Workflow Template: Telegram + OpenAI Vision: OCR-svar från bilder

Problemet: data i skärmdumpar sitter fast i pixlar

Lösningen: formulär-till-Telegram bildanalys med OpenAI Vision

Det här får du: automatisering vs resultat

Exempel: så här ser det ut i praktiken

Det här behöver du

Så fungerar det

Steg-för-steg-guide för implementering

Steg 1: Konfigurera formulärtriggern

Steg 2: Konfigurera bildanalys

Steg 3: Lägg till Telegram-chat-ID

Steg 4: Konfigurera Telegram-utdata

Steg 5: Testa och aktivera ert workflow

Lås upp fullständig steg-för-steg-guide

Vanliga fallgropar

Vanliga frågor

Kontakta oss

Kontakta oss

Telegram + OpenAI Vision: OCR-svar från bilder

Så här fungerar automatiseringen

n8n Workflow Template: Telegram + OpenAI Vision: OCR-svar från bilder

Problemet: data i skärmdumpar sitter fast i pixlar

Lösningen: formulär-till-Telegram bildanalys med OpenAI Vision

Det här får du: automatisering vs resultat

Exempel: så här ser det ut i praktiken

Det här behöver du

Så fungerar det

Steg-för-steg-guide för implementering

Steg 1: Konfigurera formulärtriggern

Steg 2: Konfigurera bildanalys

Steg 3: Lägg till Telegram-chat-ID

Steg 4: Konfigurera Telegram-utdata

Steg 5: Testa och aktivera ert workflow

Lås upp fullständig steg-för-steg-guide

Vanliga fallgropar

Relaterade arbetsflöden

Vanliga frågor

Kontakta oss

Använd mall