Din ”enkla” PDF-till-innehåll-uppgift blir snabbt en röra. Du kopierar text från en PDF, rubrikerna kollapsar, punktlistor går sönder och tabeller blir skräp. Sedan lägger du ytterligare en timme på att fixa till det, och ändå ser det inte rätt ut.
Den här PDF Markdown-automationen drabbar marknadschefer som förbereder artiklar hårdast, men ops-ansvariga som bygger interna wikis känner också av den. Konsulter som konverterar kunddokument stöter på samma irriterande formateringsstädning. Resultatet är enkelt: strukturerad Markdown som du kan publicera, söka i och återanvända utan copy-paste-smärtan.
Du sätter upp ett n8n-flöde som tar en PDF från en formuläruppladdning, skickar den till LlamaIndex Cloud för extrahering, väntar medan den bearbetas, hämtar tillbaka Markdown och sparar den i Google Drive. Och du lär dig var du kan justera för din egen innehållspipeline.
Så fungerar automationen
Här är hela flödet du kommer att sätta upp:
n8n Workflow Template: LlamaIndex Cloud till Google Drive, rensad Markdown
flowchart LR
subgraph sg0["On form submission Flow"]
direction LR
n0@{ icon: "mdi:cog", form: "rounded", label: "Wait", pos: "b", h: 48 }
n1["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Upload_doc"]
n2@{ icon: "mdi:swap-horizontal", form: "rounded", label: "If", pos: "b", h: 48 }
n3["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/form.svg' width='40' height='40' /></div><br/>On form submission"]
n4@{ icon: "mdi:cog", form: "rounded", label: "Wait2", pos: "b", h: 48 }
n5["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Status Verification"]
n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Content extraction"]
n2 --> n6
n2 --> n4
n0 --> n5
n4 --> n5
n1 --> n0
n3 --> n1
n5 --> n2
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n3 trigger
class n2 decision
class n1,n5,n6 api
classDef customIcon fill:none,stroke:none
class n1,n3,n5,n6 customIcon
Varför det här spelar roll: PDF-innehållsstädning äter din tid
PDF:er finns överallt, och de är ett uselt ”källformat” för modern publicering. Du kan ha produktblad, kundcase, leverantörsdokumentation eller gamla utbildningsmanualer som fastnat i PDF-format. Så fort du försöker göra om dem till webbinnehåll, en kunskapsbas eller ett sökbart bibliotek, tar du stopp på samma ställe: extraheringen är stökig. Styckeordning blir omkastad, rubriker tappar hierarki, och halva tiden kan du inte lita på det du klistrade in i ditt CMS. Värst är den mentala belastningen. Du tvivlar hela tiden på om du missade en sektion, vilket bromsar allt.
Det bygger snabbt på. Här är var det vanligtvis faller isär:
- Varje PDF-konvertering blir till cirka 30–60 minuter manuell efterbearbetning, särskilt om rubriker och listor är viktiga.
- Team får inkonsekvent formatering mellan dokument, vilket gör att publicering blir långsammare och redigering aldrig riktigt blir ”klar”.
- Folk sparar den ”slutliga” versionen på slumpmässiga ställen, vilket gör att nästa person ändå gör om extraheringsjobbet.
- När du gör detta i större volym (även 10–20 PDF:er) sjunker kvaliteten eftersom ingen vill korrekturläsa extraheringsresultatet rad för rad.
Det du bygger: PDF → strukturerad Markdown → Google Drive
Det här flödet gör en PDF-uppladdning till en pålitlig, repeterbar innehållstillgång. Det startar när någon skickar in ett formulär med en PDF-fil. n8n skickar direkt filen till LlamaIndex Cloud API som ett bearbetningsjobb. Eftersom dokumentextrahering inte sker direkt väntar flödet, kontrollerar jobbstatus och fortsätter att polla tills jobbet är klart (eller misslyckas). När jobbet lyckas hämtar det Markdown-resultatet och förbereder det för vidare användning. I praktiken betyder det att du får en strukturerad Markdown-fil som du kan spara, dela, publicera eller senare mata in i ett sök-/indexeringsverktyg.
Flödet är enkelt: uppladdning triggar bearbetning, bearbetning triggar statuskontroller och lyckat resultat triggar hämtning. ”Väntandet” är hemligheten, eftersom det undviker delresultat och körningar som skapar fel. När det är klart är din Markdown redo att sparas i Google Drive och skickas vidare i din innehållsprocess.
Det du bygger
| Vad som automatiseras | Vad du uppnår |
|---|---|
|
|
Förväntade resultat
Säg att du konverterar 10 PDF:er i veckan till publicerbart innehåll. Manuellt: räkna med cirka 45 minuter per PDF för copy-paste, formatering, fix av rubriker och att spara filen, vilket är ungefär 7–8 timmar per vecka. Med det här flödet är den mänskliga delen i princip att ladda upp PDF:en (en minut eller två), och sedan väntar bearbetningen i bakgrunden medan du gör annat. Även om extraheringen tar 10–15 minuter i bakgrunden får du tillbaka det mesta av det där 7-timmarspasset.
Innan du börjar
- n8n-instans (testa n8n Cloud gratis)
- Alternativ för egen hosting om du föredrar det (Hostinger fungerar bra)
- LlamaIndex Cloud för PDF-till-Markdown-bearbetning.
- Google Drive för att lagra färdiga Markdown-filer.
- LlamaIndex Cloud API-nyckel (hämta den i din LlamaIndex Cloud-dashboard).
Kunskapsnivå: Nybörjare. Du klistrar in en API-nyckel, kopplar Google Drive och justerar ett par vänt-/poll-inställningar.
Vill du att någon bygger detta åt dig? Prata med en automationsexpert (gratis 15-minuters konsultation).
Steg för steg
En formuläruppladdning drar igång allt. Någon skickar in ett formulär med en PDF-fil bifogad, vilket triggar n8n direkt. Det här fungerar bra för interna team eftersom det standardiserar ”hur dokument kommer in i systemet”.
PDF:en skickas till LlamaIndex Cloud. n8n skickar filen till LlamaIndex Cloud API med en HTTP Request-nod, vilket skapar ett bearbetningsjobb du kan följa. Det här är överlämningen från ”rå PDF” till ”strukturerad extraheringspipeline”.
Statuskontroller hanterar väntan. Flödet pausar en kort stund, frågar LlamaIndex Cloud om jobbet är klart och använder sedan ett villkor för att avgöra nästa steg. Om det fortfarande körs väntar det igen och kontrollerar på nytt. Om det lyckades går det vidare.
Markdown-utdata hämtas och sparas. När jobbet är klart hämtar flödet Markdown-resultatet via HTTP-förfrågan och sparar det i Google Drive så att teamet har en konsekvent plats att hitta det på.
Du kan enkelt ändra poll-intervallet och slutdestinationen (Drive, loggning i Sheets, ett CMS eller en kunskapsbas) efter dina behov. Se hela implementationsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementering
Steg 1: konfigurera formulärtriggern
Konfigurera formuläret som samlar in PDF-filen för att starta arbetsflödet.
- Lägg till noden Form Submission Trigger.
- Ställ in Form Title till
Upload file. - I Form Fields lägger ni till ett fält av typen File med Accept File Types satt till
pdf. - Bekräfta att etiketten för filfältet matchar
Fileså att uppladdningsfältets namn är konsekvent.
file för att matcha uppladdningskonfigurationen i Transmit File Upload.Steg 2: koppla LlamaIndex API för filuppladdning
Skicka den uppladdade PDF:en till LlamaIndex för tolkning.
- Lägg till noden Transmit File Upload och koppla den efter Form Submission Trigger.
- Ställ in URL till
https://api.cloud.llamaindex.ai/api/v1/parsing/uploadoch Method tillPOST. - Aktivera Send Body och ställ in Content Type till
multipart-form-data. - I Body Parameters lägger ni till file med Parameter Type
formBinaryDataoch Input Data Field Namefile. - Aktivera Send Headers och ställ in headers: accept =
application/json, Content-Type =multipart/form-data. - Inloggningsuppgifter krävs: Anslut era
httpBearerAuth-uppgifter. - Inloggningsuppgifter krävs: Anslut era
httpHeaderAuth-uppgifter.
file kommer API:t att ta emot en tom payload och returnera ett fel.Steg 3: konfigurera statuspollning och logik för lyckat resultat
Poll:a jobbstatusen tills den lyckas och förgrena sedan till utdata-steget.
- Lägg till noden Pause Interval och ställ in Amount till
30. - Lägg till noden Job Status Inquiry och koppla den efter Pause Interval.
- Ställ in URL till
=https://api.cloud.llamaindex.ai/api/parsing/job/{{ $('Transmit File Upload').item.json.id }}. - Aktivera Send Headers och ställ in accept till
application/json. - Inloggningsuppgifter krävs: Anslut era
httpBearerAuth-uppgifter. - Lägg till noden Success Condition Check med ett villkor: Left Value
={{ $json.status }}är lika medSUCCESS. - Lägg till noden Secondary Delay och ställ in Amount till
60, koppla sedan false-utgången från Success Condition Check till Secondary Delay, och från Secondary Delay tillbaka till Job Status Inquiry för att fortsätta pollningen.
Steg 4: konfigurera hämtning av Markdown
Hämta den tolkade Markdownen när jobbet lyckas.
- Lägg till noden Retrieve Markdown Output och koppla den till true-utgången från Success Condition Check.
- Ställ in URL till
=https://api.cloud.llamaindex.ai/api/v1/parsing/job/{{ $json.id }}/result/markdown. - Aktivera Send Headers och ställ in accept till
application/json. - Inloggningsuppgifter krävs: Anslut era
httpBearerAuth-uppgifter.
Steg 5: testa och aktivera ert arbetsflöde
Verifiera hela flödet från uppladdning till Markdown innan ni aktiverar det för produktion.
- Klicka på Execute Workflow och använd Form Submission Trigger för att ladda upp en test-PDF.
- Bekräfta att Transmit File Upload returnerar ett jobb-id och att Job Status Inquiry till slut rapporterar
SUCCESS. - Verifiera att Retrieve Markdown Output returnerar Markdown-payloaden i svaret.
- När allt fungerar växlar ni arbetsflödet till Active för att ta emot live-uppladdningar.
Felsökningstips
- LlamaIndex Cloud-inloggningsuppgifter kan löpa ut eller klistras in fel. Om något slutar fungera: börja med att kontrollera Authorization-headern (eller API-nyckelfältet) i dina HTTP Request-noder.
- Om du använder Wait-noder eller extern bearbetning varierar tiderna. Öka väntetiden om efterföljande ”hämta utdata”-anrop misslyckas eftersom jobbet inte är klart ännu.
- Standardinställningar för extrahering kan vara för generiska för dina formateringskrav. Om du bryr dig om konsekventa rubriker: lägg in dina Markdown-regler tidigt så att du inte lägger livet på att redigera utdata.
Snabba svar
Cirka 10 minuter om du redan har din LlamaIndex Cloud-nyckel och Google Drive kopplat.
Nej. Du kopplar konton och klistrar in en API-nyckel i stegen med HTTP Request.
Ja. n8n har ett gratis alternativ för egen hosting och en gratis provperiod på n8n Cloud. Molnplaner börjar på 20 USD/månad för högre volym. Du behöver också räkna in kostnader för LlamaIndex Cloud API-användning baserat på hur många PDF:er du bearbetar.
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen hosting på en VPS. För egen hosting är Hostinger VPS prisvärd och klarar n8n bra. Egen hosting ger dig obegränsade körningar men kräver grundläggande serverhantering.
Ja, och det bör du sannolikt göra. Du kan ändra poll-takten genom att justera väntestegen Pause Interval och Secondary Delay, och du kan byta sista lagringssteget till Google Sheets eller ett annat verktyg efter Retrieve Markdown Output. Vanliga anpassningar är att spara Markdown tillbaka i en matchande Google Drive-mapp, lägga till metadata som författare/datum och lägga in ett andra steg som sammanfattar Markdown för snabbare granskning.
Oftast är det API-nyckeln eller headers i HTTP Request-noderna. Skapa en ny LlamaIndex Cloud API-nyckel och uppdatera den överallt där flödet skickar requests (uppladdning, statuskontroll och hämtning). Kontrollera också att formuläret faktiskt skickar en PDF-fil, eftersom en tom uppladdning kan se ut som ett ”API-fel” när det i själva verket saknas indata. Om du bearbetar många dokument efter varandra, sänk poll-frekvensen lite för att undvika rate limits.
Det beror på din n8n-plan och hur lång tid varje PDF tar att bearbeta. På n8n Cloud stödjer högre nivåer fler körningar per månad; om du hostar själv är du främst begränsad av din server och det externa API:et. I praktiken kör de flesta små team från dussintals upp till några hundra PDF:er per månad utan att tänka på det, så länge vänt-/poll-inställningarna är rimliga.
Ofta, ja. Det här flödet behöver polling (vänta, kontrollera status, loopa tills klart), och n8n hanterar den typen av logik snyggt utan krångliga nödlösningar. Du får också möjligheten att hosta själv, vilket är användbart när du börjar köra många dokumentkonverteringar. Zapier eller Make kan fortfarande fungera för enklare ”skicka fil, få svar”-fall, men långkörande jobb är där de blir irriterande. Om du vill ha hjälp att välja den enklaste uppsättningen, prata med en automationsexpert.
Strukturerad Markdown på autopilot är en sån där osexig uppgradering som betalar tillbaka varje vecka. Sätt upp det en gång och låt flödet göra det monotona jobbet medan du fokuserar på publicering och återanvändning.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.