Du kan det här. Någon släpper in en bild i chatten och plötsligt sitter du och jonglerar nedladdningar, byter filnamn och försöker skriva en “snabb bildtext” som blir fem minuters pill.
Den här Telegram Groq captions-automationen träffar marknadsförare först, ärligt talat. Men e-handlare som städar upp produktbilder och byråteam som levererar kundinlägg känner av samma friktion. Du skickar en bild, du får tillbaka en strukturerad beskrivning och går vidare.
Det här arbetsflödet gör Telegram till en direkt bildtextassistent med Groqs LLaVA-visionsmodell. Du får se hur det fungerar, vad du behöver och var folk oftast fastnar när de kopplar ihop det första gången.
Så fungerar den här automatiseringen
Hela n8n-flödet, från trigger till slutligt resultat:
n8n Workflow Template: Telegram + Groq: direkta bildtexter i chatten
flowchart LR
subgraph sg0["Telegram Flow"]
direction LR
n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Telegram Trigger"]
n1["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Telegram send the text"]
n2@{ icon: "mdi:swap-vertical", form: "rounded", label: "Get only the text", pos: "b", h: 48 }
n3["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>HTTP Request GROQ LLAVA"]
n4@{ icon: "mdi:cog", form: "rounded", label: "convert the image file to ba..", pos: "b", h: 48 }
n5["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/telegram.svg' width='40' height='40' /></div><br/>Receive the File"]
n5 --> n4
n0 --> n5
n2 --> n1
n3 --> n2
n4 --> n3
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n0 trigger
class n3 api
classDef customIcon fill:none,stroke:none
class n0,n1,n3,n5 customIcon
Problemet: att skriva bildtexter är småjobb som stjäl din dag
Bildtexter, alt-texter, kreativa anteckningar, sammanfattningar av “vad finns i den här bilden?”. Inget av det är svårt. Det är därför det är så irriterande. Du måste fortfarande ladda ner bilden från Telegram, öppna den någonstans, kisa efter detaljer och sedan skriva en beskrivning som är tydlig nog för en kollega (eller en kund) att använda. Gör du det ett dussin gånger förlorar du inte bara tid, du tappar fokus. Och eftersom det är manuellt glider kvaliteten. Vissa bildtexter är detaljerade, andra är vaga, och vissa missar tillgänglighet helt.
Friktionen byggs på. Här är var det oftast faller isär.
- Bilder laddas ner och laddas upp igen mellan verktyg, vilket slösar tid och skapar versionsförvirring.
- Alt-text blir en eftertanke, så tillgänglighet och SEO får en tyst smäll.
- Kollegor beskriver samma typ av bild på helt olika sätt, vilket gör ditt innehållsbibliotek rörigt.
- När det går fort hoppar du över anteckningar helt och ångrar det senare.
Lösningen: Telegram-bilder in, Groq-bildtexter ut
Det här n8n-arbetsflödet gör ett enkelt Telegram-meddelande till en pålitlig pipeline för bildtexter. Det startar när du skickar en bild till din Telegram-bot. n8n hämtar filen automatiskt, konverterar den till ett format som visionsmodellen kan förstå (base64) och skickar den till Groqs multimodala API via ett HTTP-anrop. Groq returnerar ett strukturerat svar och flödet plockar ut den användbara texten. Till sist skickar n8n beskrivningen direkt tillbaka i samma Telegram-chatt, så du lämnar aldrig konversationen där bilden redan finns.
I praktiken känns det som att sms:a en assistent. Släpp in en bild, vänta en stund och kopiera sedan beskrivningen till ditt inlägg, din produktlistning, din designbrief eller dina innehållsanteckningar.
Det här får du: automation vs. resultat
| Det här automatiserar arbetsflödet | Resultat du får |
|---|---|
|
|
Exempel: så här kan det se ut
Säg att teamet granskar 20 bilder i veckan för sociala inlägg och produktsidor. Manuellt kanske du lägger cirka 5 minuter per bild på att ladda ner, öppna, skriva bildtext och klistra in den igen i Slack eller ett dokument. Det blir ungefär 2 timmar i veckan. Med det här flödet blir “arbetet” att skicka bilden till Telegram (några sekunder) och vänta på svaret, vilket oftast känns som under en minut per bild. Du granskar fortfarande texten, men du börjar inte längre från ett tomt blad.
Det här behöver du
- n8n-instans (testa n8n Cloud gratis)
- Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
- Telegram för att ta emot bilder och skicka svar.
- Groq API för snabb multimodal bildförståelse.
- Telegram bot-token (hämta den från BotFather i Telegram)
Kunskapsnivå: Nybörjare. Du kopplar Telegram, lägger till en API-nyckel och klistrar in en request-payload utan att skriva kod.
Vill du inte sätta upp det här själv? Prata med en automationsspecialist (gratis 15-minuters konsultation).
Så fungerar det
En Telegram-bild triggar flödet. När någon skickar en bild till din Telegram-bot fångar n8n meddelandet direkt via Telegram Trigger.
Bildfilen hämtas och förbereds. n8n hämtar själva filen från Telegram och konverterar den sedan till base64 så att den kan skickas rent i ett API-anrop.
Groq genererar beskrivningen. En HTTP Request-nod skickar bilden till Groqs LLaVA V1.5 7B vision-endpoint och tar emot ett svar som innehåller modellens beskrivning.
Det bästa kommer tillbaka till chatten. n8n extraherar svarstexten, formaterar den och svarar i Telegram så att du kan kopiera den till alt-text, bildtexter eller interna anteckningar.
Du kan enkelt ändra prompten för att styra stilen (korta bildtexter, detaljerad inventering, alt-text med fokus på tillgänglighet) utifrån dina behov. Se hela implementationsguiden nedan för anpassningsalternativ.
Steg-för-steg-implementeringsguide
Steg 1: Konfigurera Telegram-triggern
Konfigurera arbetsflödet så att det lyssnar efter inkommande Telegram-meddelanden med bilder.
- Lägg till noden Incoming Telegram Trigger för att starta arbetsflödet.
- Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Incoming Telegram Trigger.
- Låt Updates stå kvar på
*för att ta emot alla meddelandetyper.
Steg 2: Anslut hämtning av Telegram-fil
Hämta bildfilen från det inkommande Telegram-meddelandet så att den kan bearbetas.
- Lägg till Retrieve Telegram File och anslut den efter Incoming Telegram Trigger.
- Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Retrieve Telegram File.
- Ställ in Resource till
file. - Ställ in File ID till
{{ $json.message.photo[0].file_id }}.
Steg 3: Konfigurera bildbearbetning och vision-förfrågan
Konvertera Telegram-bilden till Base64 och skicka den till visionmodellens API.
- Lägg till Convert Image to Base64 och anslut den efter Retrieve Telegram File.
- Ställ in Operation till
binaryToPropery. - Lägg till Vision API Request och anslut den efter Convert Image to Base64.
- Ställ in URL till
https://api.groq.com/openai/v1/chat/completionsoch Method tillPOST. - Ställ in Specify Body till
jsonoch aktivera Send Body och Send Headers. - Ställ in JSON Body till
{ "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe this image in great detail" }, { "type": "image_url", "image_url": { "url": "data:image/jpeg;base64,{{ $json.data }}" } } ] } ], "model": "llava-v1.5-7b-4096-preview" }. - I Header Parameters ställer ni in Authorization till
Bearer [CONFIGURE_YOUR_TOKEN]och Content-Type tillapplication/json.
⚠️ Vanlig fallgrop: Ersätt [CONFIGURE_YOUR_TOKEN] med en giltig Groq API-token, annars kommer vision-förfrågan att misslyckas.
Steg 4: Konfigurera extrahering av svar och svara
Extrahera beskrivningstexten från vision API-svaret och skicka tillbaka den till användaren i Telegram.
- Lägg till Extract Response Text och anslut den efter Vision API Request.
- I Assignments ställer ni in Name till
choices[0].message.contentoch Value till{{ $json.choices[0].message.content }}. - Lägg till Send Telegram Reply och anslut den efter Extract Response Text.
- Inloggningsuppgifter krävs: Anslut era telegramApi-inloggningsuppgifter i Send Telegram Reply.
- Ställ in Text till
{{ $json.choices[0].message.content }}. - Ställ in Chat ID till
{{ $('Incoming Telegram Trigger').item.json.message.chat.id }}.
Steg 5: Testa och aktivera ert arbetsflöde
Verifiera hela flödet från start till mål med ett riktigt Telegram-bildmeddelande och aktivera det sedan.
- Klicka på Test Workflow och skicka ett foto till er Telegram-bot.
- Bekräfta att Vision API Request returnerar ett svar och att Send Telegram Reply levererar ett beskrivande meddelande till samma chatt.
- Om det fungerar, växla arbetsflödet till Active för att köra kontinuerligt.
Vanliga fallgropar
- Telegram-uppgifter kan löpa ut eller så kan boten blockeras i en gruppchatt. Om något slutar fungera, kontrollera bot-token i n8n-credentials och bekräfta att boten fortfarande har behörighet att läsa meddelanden.
- Om du skickar stora bilder kan Groq-anrop misslyckas på grund av payload-storlek eller timeout-gränser. Skala ner bilder innan du skickar, eller öka timeout i HTTP-noden så att flödet inte avbryts för tidigt.
- Standardprompter för vision är generiska. Lägg in riktlinjer för varumärkets ton (och vad som ska ignoreras, som vattenstämplar eller stökig bakgrund) tidigt, annars kommer du att redigera utdata för alltid.
Vanliga frågor
Cirka 30 minuter om din bot och din Groq-nyckel är redo.
Nej. Du kopplar konton och klistrar in API-detaljerna i n8n:s HTTP-nod.
Ja. n8n har ett gratis alternativ för egen drift och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna in kostnader för Groq API-användning (oftast småpengar vid lätt veckovis användning, mer om du sätter bildtexter på många bilder).
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärd och klarar n8n bra. Egen drift ger dig obegränsade körningar men kräver grundläggande serverhantering.
Ja, och det är den första anpassningen du bör göra. Uppdatera prompten i noden Vision API Request och be om “en mening alt-text under 125 tecken” (eller den standard du använder). Du kan också justera steget Extract Response Text för att lägga till ett prefix som “Alt-text:” eller för att returnera flera varianter (kort, mellan, detaljerad). Om du vill att boten ska bete sig olika per chatt kan du lägga till en enkel regel som letar efter nyckelord som “/alt” eller “/caption” innan API-anropet skickas.
Oftast är det bot-token. Generera en ny i BotFather och uppdatera sedan Telegram-credentials i n8n. Ett annat vanligt problem är att boten inte får läsa meddelanden i chatten du testar, särskilt i grupper. Kontrollera också att flödet tar emot bildmeddelanden (photos) och inte filbilagor, eftersom Telegram hanterar dem olika.
Massor, så länge dina Groq-gränser och din n8n-plan hänger med.
Ofta, ja, eftersom den här typen av flöde gynnas av ett riktigt HTTP-anrop, flexibel datahantering och möjligheten att köra i egen drift när volymen växer. n8n gör det också enklare att ha hela payloaden synlig, vilket spelar roll när du finjusterar prompter och felsöker visionsvar. Zapier eller Make kan fortfarande fungera om du hittar en färdig Groq/vision-connector, men du kan behöva lägga mer tid på att jobba runt begränsningar. Om du vill, prata med en automationsspecialist så hjälper vi dig välja enklaste vägen.
När det här väl rullar slutar bildbeskrivningar vara en syssla du skjuter upp. Skicka bilden, få orden tillbaka och fortsätt framåt.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.