Telegram + Google Gemini: kopiera text ur bilder

Du tar en skärmdump, zoomar in, skriver om den viktiga raden och inser sedan att du missade en siffra. Gör du det några gånger om dagen blir det snabbt tröttsamt.

Den här Telegram OCR-automationen drabbar operations managers och byråägare först, eftersom de lever i chatten. Men även marknadsförare som jagar citat, statistik och ”snabba godkännanden” känner av det. Resultatet är enkelt: skicka en bild till din bot och få tillbaka korrekt formaterad text, redo att klistra in.

Nedan ser du hur flödet gör om Telegram-bilder till korrekt, formaterad text, och var du kan justera det för att matcha din ton eller spara resultat för senare.

Så fungerar automationen

Hela n8n-flödet, från trigger till slutlig output:

n8n Workflow Template: Telegram + Google Gemini: kopiera text ur bilder

Click to explore

flowchart LR

    subgraph sg0["Telegram Flow"]
        direction LR
        n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Telegram Trigger"]
        n1@{ icon: "mdi:swap-vertical", form: "rounded", label: "Clean Input Data", pos: "b", h: 48 }
        n2["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>get file"]
        n3["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Telegram"]
        n4@{ icon: "mdi:robot", form: "rounded", label: "AI Agent", pos: "b", h: 48 }
        n5@{ icon: "mdi:brain", form: "rounded", label: "Google Gemini Chat Model", pos: "b", h: 48 }
        n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Replace"]
        n7@{ icon: "mdi:cog", form: "rounded", label: "Tesseract OCR", pos: "b", h: 48 }
        n6 --> n3
        n4 --> n6
        n2 --> n7
        n7 --> n4
        n1 --> n2
        n0 --> n1
        n5 -.-> n4
    end

    %% Styling
    classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
    classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
    classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
    classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
    classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
    classDef disabled stroke-dasharray: 5 5,opacity: 0.5
    class n0 trigger
    class n4 ai
    class n5 aiModel
    class n6 code
    classDef customIcon fill:none,stroke:none
    class n0,n2,n3,n6 customIcon

Problemet: att kopiera text från bilder slösar din dag

Text dyker upp i bilder oftare än någon vill erkänna. Kvitton skickade av en leverantör. Ett foto på en fraktsedel från lagret. En skärmdump av en pristabell från en kund. ”Snabbuppgiften” blir: ladda ner bilden, öppna den, zooma in, skriva av, dubbelkolla, och sedan fixa formateringen eftersom Telegram och Google Docs inte är överens. Den verkliga kostnaden är inte bara minuter. Det är kontextbyten, små misstag och den där gnagande känslan av att du kanske kopierade fel.

Det byggs upp snabbt. Här är var det brukar skapa fel i verkligt arbete.

Du slutar med att skriva om samma typer av detaljer varje vecka, som totalsummor, spårningsnummer, adresser och order-ID:n.
Skärmdumpar innehåller ofta extra brus, så du slösar tid på att leta efter de två rader du faktiskt behöver.
Små avskrivningsfel slinker igenom, och att rätta dem senare tar längre tid än att göra rätt direkt.
Även när du delegerar det måste du ändå granska allt, eftersom precision är viktig.

Lösningen: Telegram bild-till-text, rensad av Gemini

Det här flödet gör Telegram till din ”skicka in, få text tillbaka”-inkorg. När någon skickar en bild till din Telegram-bot hämtar n8n filen från Telegram, säkerställer att innehållet är i ett format som OCR kan läsa och kör den genom Tesseract för att extrahera råtexten. Därefter skickas texten in i ett Gemini-chatsteg som förfinar outputen så att den blir enklare att klistra in i mejl, kalkylark eller dokument. Slutligen hanterar den Telegrams Markdown-quirks och svarar i samma chatt-tråd med text som är redo att kopiera. Ingen nedladdning. Ingen zoomning. Ingen avskrivning.

Flödet startar när en Telegram-bild kommer in. OCR gör grovjobbet, och sedan rensar Gemini upp mellanrum och uppenbart brus. Resultatet skickas direkt tillbaka till Telegram, så att du kan kopiera det direkt eller vidarebefordra till någon annan.

Det du får: automation vs. resultat

Vad det här flödet automatiserar

Resultat du får

Det lyssnar efter nya bildmeddelanden som skickas till din Telegram-bot.
Det laddar ner bildfilen från Telegram automatiskt.
Det extraherar text via OCR och förfinar den sedan med Gemini chat.
Det formaterar svaret säkert för Telegram och svarar i tråden.

De flesta team får tillbaka cirka 1 timme per vecka bara genom färre ”små” kopieringsuppgifter.
Du slipper jonglera skärmdumpar, kamerarulle och desktop-verktyg bara för att fånga en rad.
Texten blir enklare att klistra in i Google Docs, mejl och ärenden utan efterstädning.
Färre kopieringsmisstag, särskilt med siffror och ID:n.
Du kan standardisera vad ”korrekt formaterad text” betyder i hela teamet.

Exempel: så här ser det ut

Säg att du hanterar 20 bildbaserade ”kan du plocka ut den här texten”-förfrågningar per vecka. Manuellt tar det oftast ungefär 5 minuter styck när du räknar in nedladdning, zoomning, avskrivning och formateringsfix, alltså cirka 100 minuter i veckan. Med det här flödet skickar du bilden i Telegram och väntar kanske 30 sekunder på att få tillbaka korrekt formaterad text, vilket innebär att ”jobbet” i princip bara är att skicka bilden. Det är runt 1,5 timme tillbaka varje vecka, och ärligt talat känns det som mer eftersom hjärnan slipper byta kontext hela tiden.

Det du behöver

n8n-instans (testa n8n Cloud gratis)
Alternativ för self-hosting om du föredrar det (Hostinger fungerar bra)
Telegram-bot för att ta emot bilder och svara.
Google Gemini för att förfina OCR till korrekt formaterad text.
Telegram bot-token (hämta den från BotFather i Telegram).

Svårighetsnivå: Medel. Du kopplar Telegram-credentials, installerar en community node och testar med några riktiga bilder.

Vill du inte sätta upp detta själv? Prata med en automationsexpert (gratis 15-minuters konsultation).

Så fungerar det

Telegram-bild anländer. Flödet triggas i samma ögonblick som din bot tar emot ett meddelande med en bildbilaga, så att användarna inte behöver ändra sina vanor.

Meddelandedata struktureras. n8n normaliserar inkommande fält (file IDs, chat IDs, meddelandekontext) så att nästa steg alltid vet vad som ska hämtas och var svaret ska skickas.

Bilden hämtas och läses. n8n laddar ner filen från Telegram och kör sedan OCR (Tesseract) för att få ut text, även om det är ett foto av ett utskrivet kvitto eller en skärmdump med små typsnitt.

Gemini förfinar de stökiga delarna. Den extraherade texten skickas till Gemini chat, som rensar upp mellanrum, tar bort uppenbart skräp och gör att outputen känns som något en människa faktiskt skulle klistra in i ett dokument.

Flödet svarar med text redo att klistra in. Ett litet formateringssteg escapear Telegram Markdown V2-tecken, och sedan skickar boten sluttexten tillbaka till samma chatt-tråd.

Du kan enkelt ändra ”förfina”-prompten för att matcha din tonalitet eller för att extrahera specifika fält (som totalsummor och datum) utifrån dina behov. Se hela implementationsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementering

Steg 1: Konfigurera Telegram-triggern

Det här arbetsflödet startar när en användare skickar ett Telegram-meddelande med en bild, som fångas upp av trigger-noden.

Lägg till noden Telegram Intake Trigger som din trigger.
Ställ in Updates på message.
Aktivera Additional Fields → Download till true så att bildfilen finns tillgänglig för hämtning.
Credential Required: Anslut era telegramApi-credentials.
Koppla Telegram Intake Trigger till Sanitize Incoming Data.

Steg 2: Anslut Telegram och förbered bilddata

Det här steget extraherar chatt-ID:t och fil-ID:t för fotot med högst upplösning, och laddar därefter ner bildfilen från Telegram.

I Sanitize Incoming Data, lägg till två tilldelningar: chatID med värdet {{ $json.message.chat.id }} och Image med värdet {{ $json["message"]["photo"][$json["message"]["photo"].length - 1]["file_id"] }}.
Lägg till noden Retrieve Telegram File och ställ in Resource på file.
Ställ in File ID på {{ $json.Image.replace(/\n/g, '') }}.
Credential Required: Anslut era telegramApi-credentials.
Koppla Sanitize Incoming Data → Retrieve Telegram File.

Steg 3: Extrahera text och förfina med AI

I det här steget utförs OCR på bilden och därefter förfinas den extraherade texten med Gemini.

Lägg till Extract Text via OCR och koppla den till Retrieve Telegram File.
Lägg till AI Text Refiner och ställ in Text på {{ $json.text }}.
Låt Prompt Type vara inställd på define och bekräfta att System Message är den angivna vägledningen för OCR-rensning.
Lägg till Gemini Chat Processor och ställ in Model Name på models/gemini-2.0-flash.
Credential Required: Anslut era googlePalmApi-credentials.
Säkerställ att Gemini Chat Processor är ansluten som språkmodell för AI Text Refiner (credentials ska läggas till i Gemini Chat Processor, inte i agent-noden).
Koppla Extract Text via OCR → AI Text Refiner.

Steg 4: Formatera utdata och skicka Telegram-svar

Den förfinade texten escap:as för kompatibilitet med Markdown V2 och skickas tillbaka till den ursprungliga chatten.

Lägg till Escape Markdown V2 och klistra in JavaScript-koden i JS Code: let text = $json.output; text = text .replace(/[_*[\]()~`>#+\-=|{}.!]/g, '\\$&'); // Escape karakter markdown V2 return { json: { output: text } };
Lägg till Send Telegram Response och ställ in Text på {{ $json.output }}.
Ställ in Chat ID på {{ $('Sanitize Incoming Data').item.json.chatID }}.
Ställ in Additional Fields → Append Attribution på false.
Credential Required: Anslut era telegramApi-credentials.
Koppla AI Text Refiner → Escape Markdown V2 → Send Telegram Response.

Tips: Escape:ningen i Escape Markdown V2 förhindrar Telegram Markdown V2-fel när den förfinade texten innehåller specialtecken.

Steg 5: Testa och aktivera ert arbetsflöde

Verifiera hela flödet från bild till text innan ni aktiverar det för produktion.

Klicka på Execute Workflow och skicka en testbild till er Telegram-bot för att trigga Telegram Intake Trigger.
Bekräfta att Retrieve Telegram File laddar ner bilden korrekt och att Extract Text via OCR returnerar text.
Verifiera att AI Text Refiner returnerar ett rensat svar och att Escape Markdown V2 returnerar escap:ad text.
Kontrollera att Send Telegram Response levererar den förfinade texten tillbaka till samma chatt.
När allt fungerar, slå på arbetsflödet till Active för att köra kontinuerligt.

🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Vanliga fallgropar

Telegram-credentials kan gå ut eller få fel scope. Om svar slutar fungera, kontrollera först Telegram bot-token och chattbehörigheter i dina n8n Telegram-noder.
Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om efterföljande noder fallerar på tomma svar.
Standardprompter i AI-noder är generiska. Lägg in din tonalitet tidigt, annars kommer du redigera output för alltid.

Vanliga frågor

Hur lång tid tar det att sätta upp den här Telegram OCR-automationen?

Cirka 30 minuter om din Telegram-bot redan är skapad.

Behöver jag kunna koda för att automatisera Telegram OCR?

Nej. Du kopplar mest konton och klistrar in en bot-token. Den enda ”tekniska” delen är att installera Tesseract community node, vilket oftast är ett copy-paste-kommando.

Är n8n gratis att använda för det här Telegram OCR-automationsflödet?

Ja. n8n har ett gratis self-hosted-alternativ och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna in kostnader för Gemini-användning, som vanligtvis är låga för kort textstädning.

Var kan jag hosta n8n för att köra den här automationen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller self-hosting på en VPS. För self-hosting är Hostinger VPS prisvärd och hanterar n8n bra. Self-hosting ger dig obegränsade körningar men kräver grundläggande serverhantering.

Kan jag anpassa det här Telegram OCR-automationsflödet för bara kvittototaler?

Ja, och det är en av de bästa justeringarna du kan göra. Uppdatera prompten i steget AI Text Refiner / Gemini Chat Processor för att be om specifika fält (till exempel: handlare, datum, total och moms) och ignorera allt annat. Du kan också behålla både rå OCR-output och den förfinade versionen genom att förgrena efter Extract Text via OCR. Om du vill spara totalerna automatiskt, lägg till en rad i Google Sheets direkt efter refiner-steget.

Varför misslyckas min Telegram-anslutning i det här flödet?

Oftast är det bot-token: den är utgången, felkopierad eller sparad i fel credential i n8n. Kontrollera också att din trigger är kopplad till rätt bot och att boten får läsa meddelanden (integritetsinställningar kan blockera gruppmeddelanden). Om filnedladdningen misslyckas kan det vara en felaktig file_id-mappning från ”sanitize”-steget, så bekräfta att inkommande update-payload matchar vad din Telegram-nod förväntar sig.

Hur många bilder kan den här Telegram OCR-automationen hantera?

Många, inom rimliga gränser. På n8n Cloud är din begränsning främst månatliga körningar (Starter räcker för små team; högre nivåer klarar mer). Om du self-hostar finns inget körningstak, men serverns CPU blir flaskhalsen eftersom OCR är beräkningstungt. I praktiken kan de flesta småföretag hantera dussintals bilder per dag utan att tänka på det, och sedan se över skalning när det blivit en vana.

Är den här Telegram OCR-automationen bättre än att använda Zapier eller Make?

Ofta, ja. OCR plus ”rensa upp med AI” är ofta mer än en enkel 2-stegs-zap, och n8n hanterar förgrening, filhantering och self-hosting utan att tvinga dig in i dyra nivåer. Zapier och Make kan fortfarande fungera om du bara vill ha en lätt prototyp, men du kan stöta på begränsningar när du börjar bearbeta många bilder eller behöver mer kontroll över formateringen. En annan faktor är integritet: self-hosting håller bilder och extraherad text i din egen miljö, vilket spelar roll för kvitton och interna skärmdumpar. Prata med en automationsexpert om du vill ha en snabb rekommendation för din exakta setup.

När detta väl rullar slutar ”kan du plocka ut texten från det här?” att vara en uppgift. Det blir bara ett meddelande du skickar och går vidare från direkt.

Telegram + Google Gemini: kopiera text ur bilder

Så fungerar automationen

n8n Workflow Template: Telegram + Google Gemini: kopiera text ur bilder

Problemet: att kopiera text från bilder slösar din dag

Lösningen: Telegram bild-till-text, rensad av Gemini

Det du får: automation vs. resultat

Exempel: så här ser det ut

Det du behöver

Så fungerar det

Steg-för-steg-guide för implementering

Steg 1: Konfigurera Telegram-triggern

Steg 2: Anslut Telegram och förbered bilddata

Steg 3: Extrahera text och förfina med AI

Steg 4: Formatera utdata och skicka Telegram-svar

Steg 5: Testa och aktivera ert arbetsflöde

Lås upp fullständig steg-för-steg-guide

Vanliga fallgropar

Vanliga frågor

Kontakta oss

Kontakta oss

Telegram + Google Gemini: kopiera text ur bilder

Så fungerar automationen

n8n Workflow Template: Telegram + Google Gemini: kopiera text ur bilder

Problemet: att kopiera text från bilder slösar din dag

Lösningen: Telegram bild-till-text, rensad av Gemini

Det du får: automation vs. resultat

Exempel: så här ser det ut

Det du behöver

Så fungerar det

Steg-för-steg-guide för implementering

Steg 1: Konfigurera Telegram-triggern

Steg 2: Anslut Telegram och förbered bilddata

Steg 3: Extrahera text och förfina med AI

Steg 4: Formatera utdata och skicka Telegram-svar

Steg 5: Testa och aktivera ert arbetsflöde

Lås upp fullständig steg-för-steg-guide

Vanliga fallgropar

Relaterade flöden

Vanliga frågor

Kontakta oss

Använd mall