Du kan rutinen. En PDF landar i Google Drive, någon öppnar den, letar efter nyckeldetaljer och klistrar sedan in dem i ett kalkylark som blir ”single source of truth” — tills det inte är det längre.
PDF-dataextrahering slår mot marketing ops när kampanjdokument behöver rapporteras, och den irriterar byråägare som försöker standardisera kundintag. Även en småföretagare känner av det under intensiva veckor. Resultatet är enkelt: felfria, återanvändbara fält i Google Sheets utan manuell ommatning.
Den här guiden bryter ned ett arbetsflöde som hittar PDF:er i en Drive-mapp, extraherar texten, städar upp den till strukturerad data och förbereder den för loggning. Du ser vad det gör, varför det spelar roll och hur du kör det stabilt.
Så fungerar den här automatiseringen
Här är hela arbetsflödet du kommer att sätta upp:
n8n Workflow Template: Google Drive till Google Sheets, pdf:er blir data
flowchart LR
subgraph sg0["Manual Launch Flow"]
direction LR
n0@{ icon: "mdi:cog", form: "rounded", label: "Completion Marker", pos: "b", h: 48 }
n1@{ icon: "mdi:play-circle", form: "rounded", label: "Manual Launch Trigger", pos: "b", h: 48 }
n2@{ icon: "mdi:swap-vertical", form: "rounded", label: "Isolate PDF Text", pos: "b", h: 48 }
n3@{ icon: "mdi:cog", form: "rounded", label: "Retrieve PDF Files", pos: "b", h: 48 }
n4@{ icon: "mdi:cog", form: "rounded", label: "Download Source Documents", pos: "b", h: 48 }
n5@{ icon: "mdi:cog", form: "rounded", label: "Extract PDF Content", pos: "b", h: 48 }
n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Cleanse Text Script"]
n1 --> n3
n2 --> n6
n3 --> n4
n6 --> n0
n5 --> n2
n4 --> n5
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n1 trigger
class n6 code
classDef customIcon fill:none,stroke:none
class n6 customIcon
Varför det här är viktigt: förvandla PDF:er till tillförlitlig kalkylarksdata
PDF:er är bra för delning. De är dåliga för drift. I samma stund som en PDF blir ”indata” (en faktura, en signerad orderblankett, en mediaplan, en brief) måste någon översätta den till rader och kolumner. Det är där felen smyger sig in: en missad rad, ett förväxlat datum, en siffra inmatad i fel format. Och den större kostnaden är fokus. Att växla mellan Drive, en PDF-läsare och Sheets hela dagen är utmattande, även om varje fil ”bara tar några minuter”.
Det blir mycket snabbt. Här är var det brukar fallera i riktiga team.
- Någon glömmer att logga en PDF helt, så kalkylarket ser korrekt ut tills det är dags att rapportera.
- Kopiera-klistra blir till formateringsstädning, vilket är rutinjobb maskerat som ”dataarbete”.
- Samma fält får fem olika namn, och nu blir dina pivottabeller och dashboards sköra.
- När volymen ökar sjunker kvaliteten, eftersom människor skyndar när mappen svämmar över.
Vad du bygger: PDF:er i Google Drive till strukturerade fält
Det här arbetsflödet tittar i en specifik Google Drive-mapp när du kör det, hämtar PDF-filerna i den och laddar ned dem för bearbetning. Sedan extraherar det råtext från varje PDF, vilket ofta är rörigt och inkonsekvent, och isolerar bara den text du bryr dig om. Därefter formaterar ett städsteg råtexten till ett prydligt JSON-objekt (tänk ”Fält: Värde”-par i stället för en vägg av text). När du har den konsekventa strukturen blir loggning till Google Sheets enkel, och rapporteringen blir mindre skör eftersom samma fält ser likadana ut varje gång.
Arbetsflödet startar med en manuell körning i n8n, så att du behåller kontrollen. Google Drive hanterar filhittning och nedladdning, PDF-extraktionssteget plockar ut text, och städ-/kodsteget gör om det till felfri output som du kan mappa in i ett ark. Klart.
Det här bygger du
| Det som automatiseras | Det du uppnår |
|---|---|
|
|
Förväntade resultat
Säg att du hanterar 20 PDF:er i veckan och att varje tar cirka 10 minuter att öppna, söka i, kopiera, klistra in och sedan fixa formatering i Google Sheets. Det är ungefär 3 timmar manuellt arbete, och ärligt talat känns det längre eftersom det är så ryckigt. Med det här arbetsflödet kör du det en gång, låter det hämta och extrahera i bakgrunden och granskar sedan strukturerad output på ett ställe. De flesta team får ned veckoinsatsen till en snabb stickprovskontroll, kanske 20 minuter, och går vidare.
Innan du börjar
- n8n-instans (prova n8n Cloud gratis)
- Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
- Google Drive för att lagra PDF:er i en dedikerad mapp
- Google Sheets för att lagra extraherade fält och rapporteringsklar data
- Google Drive OAuth2 (skapa den i n8n Credentials)
Kunskapsnivå: Nybörjare. Du kopplar Google-inloggning och justerar ett par fält så att de matchar din mapp och dina databehov.
Vill du att någon bygger detta åt dig? Prata med en automationsexpert (gratis 15-minuters konsultation).
Steg för steg
Manuell körning startar allt. Du kör arbetsflödet i n8n när du är redo att bearbeta mappen. Det passar perfekt om du vill ha ett ”batchläge” i stället för en alltid-på-automatisering.
Google Drive hittar och laddar ned PDF:er. Arbetsflödet söker i en specifik mapp efter PDF-filer (med en fråga som *.pdf) och laddar sedan ned varje matchande dokument så att det kan läsas av efterföljande steg.
PDF-text extraheras och isoleras. n8n läser filinnehållet och extraherar rå text från PDF:en. Ett snabbt ”isolate”-steg håller payloaden strukturerad så att nästa steg slipper brottas med onödig metadata.
Texten städas till strukturerad output. Ett kod-/städsteg förfinar extraherat innehåll, normaliserar formatering och levererar ett prydligt JSON-objekt som du kan mappa till fält (inklusive kolumner i Google Sheets).
Du kan enkelt justera vilka fält du behåller så att de matchar din kalkylarksstruktur utifrån dina behov. Se den fullständiga implementationsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementering
Steg 1: Konfigurera den manuella triggern
Det här arbetsflödet startar manuellt, vilket är idealiskt för att testa PDF-extraktion och rensning vid behov.
- Lägg till noden Manual Launch Trigger som er workflow-trigger.
- Bekräfta att triggern inte har några ytterligare parametrar och att den är kopplad till Retrieve PDF Files.
- Valfritt: behåll Flowpast Branding som en sticky note endast för dokumentation i canvasen.
Steg 2: Anslut Google Drive
Dessa noder hittar och laddar ner PDF:er från Google Drive.
- Öppna Retrieve PDF Files och ställ in Resource på
fileFolder. - Ställ in Return All på
trueoch Query String på*.pdf. - I Retrieve PDF Files kan ni lämna Folder ID tomt för att söka i alla åtkomliga mappar, eller ange en mapp vid behov.
- Inloggning krävs: Anslut era googleDriveOAuth2Api-uppgifter i Retrieve PDF Files.
- Öppna Download Source Documents och ställ in Operation på
download. - Ställ in File ID på
={{ $json.id }}för att ladda ner varje fil som returneras från sökningen. - Inloggning krävs: Anslut era googleDriveOAuth2Api-uppgifter i Download Source Documents.
Steg 3: Konfigurera PDF-extraktion och isolering av text
Det här steget laddar ner varje PDF och extraherar dess text för rensning.
- I Extract PDF Content ställer ni in Operation på
pdfför att tolka filen till text. - Öppna Isolate PDF Text och lägg till en tilldelning: Name =
text, Type =string, Value =={{ $json.text }}. - Säkerställ att flödet är Download Source Documents → Extract PDF Content → Isolate PDF Text.
Steg 4: Konfigurera textrensning och slutförande
Arbetsflödet tar bort radbrytningar och markerar slutförande.
- I Cleanse Text Script behåller ni JavaScript-koden som anropar
removeNewlines()och returnerar{ cleanedText: cleanedText }. - Bekräfta att indataraden använder
$input.first().json.textså att den läser texten från Isolate PDF Text. - Koppla Cleanse Text Script till Completion Marker för att indikera slutet på arbetsflödet.
Steg 5: Testa och aktivera ert arbetsflöde
Kör ett manuellt test för att bekräfta att PDF-text extraheras och rensas korrekt.
- Klicka på Execute Workflow från Manual Launch Trigger för att köra flödet.
- Verifiera att Retrieve PDF Files skickar ut PDF-fil-ID:n och namn, och bekräfta sedan att Download Source Documents hämtar binärerna.
- Kontrollera att utdata från Cleanse Text Script innehåller fältet
cleanedTextmed borttagna radbrytningar. - När allt fungerar, spara arbetsflödet och använd aktiv-reglaget för att aktivera det för produktion.
Felsökningstips
- Google Drive-inloggningar kan löpa ut eller kräva specifika behörigheter. Om det strular, kontrollera först n8n:s område Credentials och autentisera sedan om Google Drive OAuth2-anslutningen.
- Om dina PDF:er är skannade bilder kan ”extract text” ge väldigt lite tillbaka. Då behöver du OCR (optical character recognition) i stället för vanlig PDF-textextrahering, vilket förändrar resultaten drastiskt.
- Städ-/kodsteget bygger på förutsägbara textmönster. Om leverantörer eller dokumentmallar ändras, se över tolkningsreglerna så att du inte får tomma fält eller felmärkta värden.
Snabba svar
Cirka 10 minuter om din Google Drive-åtkomst redan är klar.
Nej. Arbetsflödet innehåller redan ett städsteg och du kan köra det som det är. Du ändrar bara fält om du vill ha annan output.
Ja. n8n har ett gratis alternativ för egen drift och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna in Google API-användning (oftast minimal för Drive-åtkomst).
Två alternativ: n8n Cloud (hanterat, enklast uppsättning) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärt och hanterar n8n bra. Egen drift ger dig obegränsade körningar men kräver grundläggande serverhantering.
Ja, och det bör du. Uppdatera sökinställningarna i Google Drive i ”Retrieve PDF Files” så att den pekar på en annan mapp, och justera sedan ”Isolate PDF Text” och logiken i ”Cleanse Text Script” för att extrahera exakt de fält du behöver. Vanliga justeringar är att hämta fakturanummer och totalsummor, extrahera namn och e-post från formulär eller standardisera datum så att sortering i Google Sheets fungerar korrekt. Om du vill skicka resultaten till ett annat verktyg kan du lägga till en Google Sheets-nod, en webhook eller till och med Telegram-notiser efter städsteget.
Oftast beror det på en utgången OAuth-anslutning i n8n. Återanslut din Google Drive-inloggning och bekräfta sedan att kontot har åtkomst till mappen du valde. Kontrollera också att din sökfråga är giltig (till exempel *.pdf) och att du söker efter filer, inte mappar.
Om du kör egen drift finns ingen fast körningsgräns (det beror på din server och hur stora PDF:erna är). På n8n Cloud blir planens månatliga körningar den främsta begränsningen, och det här arbetsflödet räknas typiskt som en körning per körning plus det som din konfiguration gör per fil. Praktiskt sett går det bra att bearbeta en mapp med dussintals PDF:er; när du går upp till hundratals åt gången vill du batcha via undermappar och hålla koll på körtiden.
Ofta, ja, eftersom PDF-extrahering och anpassad städlogik lätt blir klumpigt i enklare ”tvåstegsverktyg”. n8n ger dig mer kontroll över hur du tolkar text, hur du hanterar flera filer och hur du bygger ut flödet senare (som att lägga till granskningssteg eller routa undantag). Zapier och Make kan fungera om dina PDF:er redan är strukturerade och du gör lätt extrahering, men kostnaderna kan dra iväg när du kör många tasks. Om du är osäker, prata med en automationsexpert och beskriv vilka PDF:er du hanterar.
När det här väl är på plats slutar PDF:er vara återvändsgrändsdokument och börjar fungera som användbar data. Kör det, granska outputen och håll din rapportering i Google Sheets felfri utan ständig manuell städning.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.