Behöver ert företag hjälp med att implementera AI? Kontakta oss och få prisoffert här →
AI Skolan
januari 22, 2026

Telegram + Google Gemini: kopiera text ur bilder

Rickard Andersson Partner, Nodenordic.se

Du tar en skärmdump, zoomar in, skriver om den viktiga raden och inser sedan att du missade en siffra. Gör du det några gånger om dagen blir det snabbt tröttsamt.

Den här Telegram OCR-automationen drabbar operations managers och byråägare först, eftersom de lever i chatten. Men även marknadsförare som jagar citat, statistik och ”snabba godkännanden” känner av det. Resultatet är enkelt: skicka en bild till din bot och få tillbaka korrekt formaterad text, redo att klistra in.

Nedan ser du hur flödet gör om Telegram-bilder till korrekt, formaterad text, och var du kan justera det för att matcha din ton eller spara resultat för senare.

Så fungerar automationen

Hela n8n-flödet, från trigger till slutlig output:

n8n Workflow Template: Telegram + Google Gemini: kopiera text ur bilder

Problemet: att kopiera text från bilder slösar din dag

Text dyker upp i bilder oftare än någon vill erkänna. Kvitton skickade av en leverantör. Ett foto på en fraktsedel från lagret. En skärmdump av en pristabell från en kund. ”Snabbuppgiften” blir: ladda ner bilden, öppna den, zooma in, skriva av, dubbelkolla, och sedan fixa formateringen eftersom Telegram och Google Docs inte är överens. Den verkliga kostnaden är inte bara minuter. Det är kontextbyten, små misstag och den där gnagande känslan av att du kanske kopierade fel.

Det byggs upp snabbt. Här är var det brukar skapa fel i verkligt arbete.

  • Du slutar med att skriva om samma typer av detaljer varje vecka, som totalsummor, spårningsnummer, adresser och order-ID:n.
  • Skärmdumpar innehåller ofta extra brus, så du slösar tid på att leta efter de två rader du faktiskt behöver.
  • Små avskrivningsfel slinker igenom, och att rätta dem senare tar längre tid än att göra rätt direkt.
  • Även när du delegerar det måste du ändå granska allt, eftersom precision är viktig.

Lösningen: Telegram bild-till-text, rensad av Gemini

Det här flödet gör Telegram till din ”skicka in, få text tillbaka”-inkorg. När någon skickar en bild till din Telegram-bot hämtar n8n filen från Telegram, säkerställer att innehållet är i ett format som OCR kan läsa och kör den genom Tesseract för att extrahera råtexten. Därefter skickas texten in i ett Gemini-chatsteg som förfinar outputen så att den blir enklare att klistra in i mejl, kalkylark eller dokument. Slutligen hanterar den Telegrams Markdown-quirks och svarar i samma chatt-tråd med text som är redo att kopiera. Ingen nedladdning. Ingen zoomning. Ingen avskrivning.

Flödet startar när en Telegram-bild kommer in. OCR gör grovjobbet, och sedan rensar Gemini upp mellanrum och uppenbart brus. Resultatet skickas direkt tillbaka till Telegram, så att du kan kopiera det direkt eller vidarebefordra till någon annan.

Det du får: automation vs. resultat

Exempel: så här ser det ut

Säg att du hanterar 20 bildbaserade ”kan du plocka ut den här texten”-förfrågningar per vecka. Manuellt tar det oftast ungefär 5 minuter styck när du räknar in nedladdning, zoomning, avskrivning och formateringsfix, alltså cirka 100 minuter i veckan. Med det här flödet skickar du bilden i Telegram och väntar kanske 30 sekunder på att få tillbaka korrekt formaterad text, vilket innebär att ”jobbet” i princip bara är att skicka bilden. Det är runt 1,5 timme tillbaka varje vecka, och ärligt talat känns det som mer eftersom hjärnan slipper byta kontext hela tiden.

Det du behöver

  • n8n-instans (testa n8n Cloud gratis)
  • Alternativ för self-hosting om du föredrar det (Hostinger fungerar bra)
  • Telegram-bot för att ta emot bilder och svara.
  • Google Gemini för att förfina OCR till korrekt formaterad text.
  • Telegram bot-token (hämta den från BotFather i Telegram).

Svårighetsnivå: Medel. Du kopplar Telegram-credentials, installerar en community node och testar med några riktiga bilder.

Vill du inte sätta upp detta själv? Prata med en automationsexpert (gratis 15-minuters konsultation).

Så fungerar det

Telegram-bild anländer. Flödet triggas i samma ögonblick som din bot tar emot ett meddelande med en bildbilaga, så att användarna inte behöver ändra sina vanor.

Meddelandedata struktureras. n8n normaliserar inkommande fält (file IDs, chat IDs, meddelandekontext) så att nästa steg alltid vet vad som ska hämtas och var svaret ska skickas.

Bilden hämtas och läses. n8n laddar ner filen från Telegram och kör sedan OCR (Tesseract) för att få ut text, även om det är ett foto av ett utskrivet kvitto eller en skärmdump med små typsnitt.

Gemini förfinar de stökiga delarna. Den extraherade texten skickas till Gemini chat, som rensar upp mellanrum, tar bort uppenbart skräp och gör att outputen känns som något en människa faktiskt skulle klistra in i ett dokument.

Flödet svarar med text redo att klistra in. Ett litet formateringssteg escapear Telegram Markdown V2-tecken, och sedan skickar boten sluttexten tillbaka till samma chatt-tråd.

Du kan enkelt ändra ”förfina”-prompten för att matcha din tonalitet eller för att extrahera specifika fält (som totalsummor och datum) utifrån dina behov. Se hela implementationsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementering

Steg 1: Konfigurera Telegram-triggern

Det här arbetsflödet startar när en användare skickar ett Telegram-meddelande med en bild, som fångas upp av trigger-noden.

  1. Lägg till noden Telegram Intake Trigger som din trigger.
  2. Ställ in Updatesmessage.
  3. Aktivera Additional FieldsDownload till true så att bildfilen finns tillgänglig för hämtning.
  4. Credential Required: Anslut era telegramApi-credentials.
  5. Koppla Telegram Intake Trigger till Sanitize Incoming Data.

Steg 2: Anslut Telegram och förbered bilddata

Det här steget extraherar chatt-ID:t och fil-ID:t för fotot med högst upplösning, och laddar därefter ner bildfilen från Telegram.

  1. I Sanitize Incoming Data, lägg till två tilldelningar: chatID med värdet {{ $json.message.chat.id }} och Image med värdet {{ $json["message"]["photo"][$json["message"]["photo"].length - 1]["file_id"] }}.
  2. Lägg till noden Retrieve Telegram File och ställ in Resourcefile.
  3. Ställ in File ID{{ $json.Image.replace(/\n/g, '') }}.
  4. Credential Required: Anslut era telegramApi-credentials.
  5. Koppla Sanitize Incoming DataRetrieve Telegram File.

Steg 3: Extrahera text och förfina med AI

I det här steget utförs OCR på bilden och därefter förfinas den extraherade texten med Gemini.

  1. Lägg till Extract Text via OCR och koppla den till Retrieve Telegram File.
  2. Lägg till AI Text Refiner och ställ in Text{{ $json.text }}.
  3. Låt Prompt Type vara inställd på define och bekräfta att System Message är den angivna vägledningen för OCR-rensning.
  4. Lägg till Gemini Chat Processor och ställ in Model Namemodels/gemini-2.0-flash.
  5. Credential Required: Anslut era googlePalmApi-credentials.
  6. Säkerställ att Gemini Chat Processor är ansluten som språkmodell för AI Text Refiner (credentials ska läggas till i Gemini Chat Processor, inte i agent-noden).
  7. Koppla Extract Text via OCRAI Text Refiner.

Steg 4: Formatera utdata och skicka Telegram-svar

Den förfinade texten escap:as för kompatibilitet med Markdown V2 och skickas tillbaka till den ursprungliga chatten.

  1. Lägg till Escape Markdown V2 och klistra in JavaScript-koden i JS Code: let text = $json.output; text = text .replace(/[_*[\]()~`>#+\-=|{}.!]/g, '\\$&'); // Escape karakter markdown V2 return { json: { output: text } };
  2. Lägg till Send Telegram Response och ställ in Text{{ $json.output }}.
  3. Ställ in Chat ID{{ $('Sanitize Incoming Data').item.json.chatID }}.
  4. Ställ in Additional FieldsAppend Attributionfalse.
  5. Credential Required: Anslut era telegramApi-credentials.
  6. Koppla AI Text RefinerEscape Markdown V2Send Telegram Response.

Tips: Escape:ningen i Escape Markdown V2 förhindrar Telegram Markdown V2-fel när den förfinade texten innehåller specialtecken.

Steg 5: Testa och aktivera ert arbetsflöde

Verifiera hela flödet från bild till text innan ni aktiverar det för produktion.

  1. Klicka på Execute Workflow och skicka en testbild till er Telegram-bot för att trigga Telegram Intake Trigger.
  2. Bekräfta att Retrieve Telegram File laddar ner bilden korrekt och att Extract Text via OCR returnerar text.
  3. Verifiera att AI Text Refiner returnerar ett rensat svar och att Escape Markdown V2 returnerar escap:ad text.
  4. Kontrollera att Send Telegram Response levererar den förfinade texten tillbaka till samma chatt.
  5. När allt fungerar, slå på arbetsflödet till Active för att köra kontinuerligt.
🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Vanliga fallgropar

  • Telegram-credentials kan gå ut eller få fel scope. Om svar slutar fungera, kontrollera först Telegram bot-token och chattbehörigheter i dina n8n Telegram-noder.
  • Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om efterföljande noder fallerar på tomma svar.
  • Standardprompter i AI-noder är generiska. Lägg in din tonalitet tidigt, annars kommer du redigera output för alltid.

Vanliga frågor

Hur lång tid tar det att sätta upp den här Telegram OCR-automationen?

Cirka 30 minuter om din Telegram-bot redan är skapad.

Behöver jag kunna koda för att automatisera Telegram OCR?

Nej. Du kopplar mest konton och klistrar in en bot-token. Den enda ”tekniska” delen är att installera Tesseract community node, vilket oftast är ett copy-paste-kommando.

Är n8n gratis att använda för det här Telegram OCR-automationsflödet?

Ja. n8n har ett gratis self-hosted-alternativ och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna in kostnader för Gemini-användning, som vanligtvis är låga för kort textstädning.

Var kan jag hosta n8n för att köra den här automationen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller self-hosting på en VPS. För self-hosting är Hostinger VPS prisvärd och hanterar n8n bra. Self-hosting ger dig obegränsade körningar men kräver grundläggande serverhantering.

Kan jag anpassa det här Telegram OCR-automationsflödet för bara kvittototaler?

Ja, och det är en av de bästa justeringarna du kan göra. Uppdatera prompten i steget AI Text Refiner / Gemini Chat Processor för att be om specifika fält (till exempel: handlare, datum, total och moms) och ignorera allt annat. Du kan också behålla både rå OCR-output och den förfinade versionen genom att förgrena efter Extract Text via OCR. Om du vill spara totalerna automatiskt, lägg till en rad i Google Sheets direkt efter refiner-steget.

Varför misslyckas min Telegram-anslutning i det här flödet?

Oftast är det bot-token: den är utgången, felkopierad eller sparad i fel credential i n8n. Kontrollera också att din trigger är kopplad till rätt bot och att boten får läsa meddelanden (integritetsinställningar kan blockera gruppmeddelanden). Om filnedladdningen misslyckas kan det vara en felaktig file_id-mappning från ”sanitize”-steget, så bekräfta att inkommande update-payload matchar vad din Telegram-nod förväntar sig.

Hur många bilder kan den här Telegram OCR-automationen hantera?

Många, inom rimliga gränser. På n8n Cloud är din begränsning främst månatliga körningar (Starter räcker för små team; högre nivåer klarar mer). Om du self-hostar finns inget körningstak, men serverns CPU blir flaskhalsen eftersom OCR är beräkningstungt. I praktiken kan de flesta småföretag hantera dussintals bilder per dag utan att tänka på det, och sedan se över skalning när det blivit en vana.

Är den här Telegram OCR-automationen bättre än att använda Zapier eller Make?

Ofta, ja. OCR plus ”rensa upp med AI” är ofta mer än en enkel 2-stegs-zap, och n8n hanterar förgrening, filhantering och self-hosting utan att tvinga dig in i dyra nivåer. Zapier och Make kan fortfarande fungera om du bara vill ha en lätt prototyp, men du kan stöta på begränsningar när du börjar bearbeta många bilder eller behöver mer kontroll över formateringen. En annan faktor är integritet: self-hosting håller bilder och extraherad text i din egen miljö, vilket spelar roll för kvitton och interna skärmdumpar. Prata med en automationsexpert om du vill ha en snabb rekommendation för din exakta setup.

När detta väl rullar slutar ”kan du plocka ut texten från det här?” att vara en uppgift. Det blir bara ett meddelande du skickar och går vidare från direkt.

Kontakta oss

Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.

×

Använd mall

Få direkt tillgång till denna n8n-arbetsflödes JSON-fil

Launch login modal Launch register modal