Du har resebroschyrer, resplaner och paket-PDF:er som ligger i Google Drive. Problemet är att du faktiskt inte kan använda dem. Att söka i en mapp full av PDF:er är långsamt, inkonsekvent och slutar oftast med att någon ställer samma fråga igen i Slack.
Den här Drive Pinecone search-automationen träffar marknadsteam först (de behöver snabba svar till landningssidor), men driftteam och små byråägare känner av det lika mycket. Du förvandlar ”Var finns den detaljen?” till en snabb, pålitlig uppslagning, utan att bygga om dina dokument eller flytta dem från Drive.
Den här guiden går igenom vad arbetsflödet gör, vad du behöver för att köra det och hur delarna hänger ihop så att dina PDF:er blir sökbara som en modern kunskapsbas.
Så fungerar den här automationen
Här är hela arbetsflödet du kommer att sätta upp:
n8n Workflow Template: Från Google Drive till Pinecone: sökbara pdf:er
flowchart LR
subgraph sg0["Manual Start Flow"]
direction LR
n0@{ icon: "mdi:play-circle", form: "rounded", label: "Manual Start Trigger", pos: "b", h: 48 }
n1@{ icon: "mdi:cog", form: "rounded", label: "Fetch Tour PDF Folder", pos: "b", h: 48 }
n2@{ icon: "mdi:cog", form: "rounded", label: "Retrieve Package PDFs", pos: "b", h: 48 }
n3@{ icon: "mdi:swap-vertical", form: "rounded", label: "Iterate PDF Items", pos: "b", h: 48 }
n4@{ icon: "mdi:cube-outline", form: "rounded", label: "Pinecone Vector Insert", pos: "b", h: 48 }
n5@{ icon: "mdi:vector-polygon", form: "rounded", label: "OpenAI Embedding Generator", pos: "b", h: 48 }
n6@{ icon: "mdi:robot", form: "rounded", label: "Binary Data Loader", pos: "b", h: 48 }
n7@{ icon: "mdi:robot", form: "rounded", label: "Recursive Text Splitter", pos: "b", h: 48 }
n6 -.-> n4
n5 -.-> n4
n2 --> n3
n3 --> n4
n1 --> n2
n7 -.-> n6
n0 --> n1
n4 --> n3
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n0 trigger
class n6,n7 ai
class n4 ai
class n5 ai
Varför det här spelar roll: PDF-kunskap försvinner mitt framför ögonen
PDF:er är bra för att dela ”slutlig” information, men de är usla för daglig åtkomst. Någon behöver avbokningspolicyn för en specifik resa. En annan behöver veta vilka dagar som innehåller guidade aktiviteter. Du minns att det står ”i broschyren”, men inte vilken, och Drive-sökningen tar dig bara halva vägen. Sedan kommer den riktiga tidsboven: öppna filer, scrolla, Ctrl+F (om PDF-texten ens går att läsa) och jaga samma sak igen nästa vecka. Ärligt talat är det värsta osäkerheten. Du känner dig aldrig helt säker på att du hittade den senaste, korrekta detaljen.
Det går snabbt att summera till mycket tid. Här är hur det faller isär i riktiga team.
- Folk svarar kunder ur minnet, och små felaktigheter leder till återbetalningar eller obekväma uppföljningar.
- Nyanställda kan inte självserva turnédetaljer, så dina ”snabba frågor”-avbrott blir fler varje dag.
- Copy-uppdateringar tar längre tid eftersom marknadsförare måste läsa om broschyrer i stället för att plocka exakt det stycke de behöver.
- Drive-mappar blir ”lagring”, inte ett användbart kunskapssystem, vilket gör att du till slut skriver om info du redan har.
Vad du bygger: Google Drive-PDF:er till Pinecone-sökindex
Det här arbetsflödet tar rese-PDF:erna som du redan lagrar i en Google Drive-mapp och gör dem till ett sökbart vektorindex i Pinecone. Det börjar med att hitta PDF:erna i mappen, ladda ner dem och extrahera textinnehållet. Därefter delas texten upp i mindre chunkar så att långa broschyrer inte blir en enda stor klump. Chunkarna konverteras till OpenAI-embeddings (tänk: ett numeriskt ”fingeravtryck” som fångar betydelse, inte bara nyckelord). Till sist lägger arbetsflödet in varje chunk och dess metadata i Pinecone, så att din app, agent eller interna sökfunktion kan fråga mot innehållet senare och snabbt få tillbaka relevanta avsnitt.
Flödet är enkelt när du zoomar ut. Google Drive är källan som gäller, OpenAI sköter betydelsebaserad indexering och Pinecone blir det snabba lagret för hämtning. När det väl är på plats blir sökning en produktfunktion, inte en veckovis skattjakt.
Det du bygger
| Vad som automatiseras | Vad du uppnår |
|---|---|
|
|
Förväntade resultat
Säg att ditt team hanterar 20 resebroschyrer och att ni kollar detaljer i PDF:er cirka 10 gånger om dagen. Manuellt är det kanske 5 minuter per uppslagning mellan att öppna Drive, hitta rätt fil och skanna sidan, alltså runt 50 minuter per dag. Med det här arbetsflödet körs indexeringen i bakgrunden (sätt upp en gång, trigga sedan på schema eller vid nya filer). De där 10 frågorna blir snabba semantiska sökningar som tar ungefär en minut totalt, så du får tillbaka cirka 40 minuter varje dag.
Innan du börjar
- n8n-instans (prova n8n Cloud gratis)
- Alternativ för egen hosting om du föredrar det (Hostinger fungerar bra)
- Google Drive för att lagra PDF-broschyrerna
- Pinecone för att lagra och fråga mot vektorindexet
- OpenAI API-nyckel (hämta den i din OpenAI-dashboard)
Svårighetsnivå: Nybörjare. Du kopplar konton, klistrar in API-nycklar och väljer en Drive-mapp och ett Pinecone-index.
Vill du att någon bygger det åt dig? Prata med en automationsexpert (gratis 15-minuters konsultation).
Steg för steg
En manuell eller schemalagd körning startar allt. Versionen du börjar med använder en manuell trigger, vilket är perfekt för test. I produktion byter de flesta team till en Google Drive-trigger eller ett enkelt schema så att nya broschyrer indexeras automatiskt.
Google Drive skannas efter PDF:er. n8n söker i den valda mappen och laddar sedan ner varje matchande fil så att innehållet kan bearbetas. Det här är steget som sätter ”källan som gäller”, och det är därför systemet förblir pålitligt.
PDF-texten extraheras och förbereds. En dokumentladdare läser den binära PDF-filen och matar ut text. Därefter delar en rekursiv text-splitter upp den i chunkar med lite överlapp, så att viktig kontext (datum, vad som ingår, vad som inte ingår) inte kapas mitt i en tanke.
Embeddings genereras och lagras i Pinecone. Varje chunk skickas till OpenAI:s embedding-modell och läggs sedan in i Pinecone tillsammans med metadata som källfilnamn och chunk-ID. Senare kan din AI-agent eller sök-UI fråga Pinecone för att hämta de mest relevanta avsnitten.
Du kan enkelt ändra Drive-mappen, chunkstorlek eller metadatafält så att det matchar hur ditt team söker. Se hela implementationsguiden nedan för alternativ för anpassning.
Steg-för-steg-guide för implementering
Steg 1: Konfigurera den manuella triggern
Starta arbetsflödet manuellt så att ni kan testa PDF-inläsning innan schemaläggning eller användning i produktion.
- Lägg till noden Manual Start Trigger som arbetsflödets startpunkt.
- Koppla Manual Start Trigger till Fetch Tour PDF Folder så att det matchar körflödet.
Steg 2: Anslut Google Drive
Lista innehållet i målmappen och ladda ned varje PDF för bearbetning.
- Öppna Fetch Tour PDF Folder och ställ in Resource på
fileFolder. - Ställ in mappfiltret Folder ID till
[YOUR_ID]. - Aktivera Return All genom att ställa in det på
true. - Inloggning krävs: Anslut era googleDriveOAuth2Api-inloggningsuppgifter i Fetch Tour PDF Folder.
- Öppna Retrieve Package PDFs och ställ in Operation på
download. - Ställ in File ID till
{{ $json.id }}så att varje fil i mappen laddas ned. - Inloggning krävs: Anslut era googleDriveOAuth2Api-inloggningsuppgifter i Retrieve Package PDFs.
Fetch Tour PDF Folder skickar output till Retrieve Package PDFs, som i sin tur skickar output till Iterate PDF Items enligt arbetsflödets körning.
Steg 3: Ställ in PDF-iterering och AI-bearbetning
Iterera igenom varje PDF, ladda binärdata, dela upp texten, skapa embeddings och förbered dokument för vektorinföring.
- Placera Iterate PDF Items efter Retrieve Package PDFs för att bearbeta filer en i taget.
- Konfigurera Binary Data Loader med Data Type inställt på
binary. - Konfigurera Recursive Text Splitter med Chunk Overlap inställt på
50. - Säkerställ att Recursive Text Splitter är kopplad till Binary Data Loader via AI-textdelar-länken.
OpenAI Embedding Generator och Binary Data Loader är anslutna som AI-undernoder för Pinecone Vector Insert—se till att inloggningsuppgifter är tillagda i föräldranoderna.
Steg 4: Konfigurera output till vektordatabasen
Infoga de bearbetade dokumentsegmenten och embeddings i Pinecone för semantisk sökning eller hämtning.
- Öppna Pinecone Vector Insert och ställ in Mode på
insert. - Ställ in Pinecone Index på
package1536. - Inloggning krävs: Anslut era pineconeApi-inloggningsuppgifter i Pinecone Vector Insert.
- Öppna OpenAI Embedding Generator och koppla den till Pinecone Vector Insert som embedding-leverantör.
- Inloggning krävs: Anslut era openAiApi-inloggningsuppgifter i OpenAI Embedding Generator.
Pinecone Vector Insert skickar output tillbaka till Iterate PDF Items för att fortsätta bearbeta nästa PDF tills alla objekt är infogade.
Steg 5: Testa och aktivera ert arbetsflöde
Kör ett manuellt test för att bekräfta att PDF:er laddas ned, delas upp, bäddas in och infogas i Pinecone utan problem.
- Klicka på Execute Workflow på Manual Start Trigger för att starta bearbetningen.
- Verifiera att Retrieve Package PDFs laddar ned filer och att Iterate PDF Items loopar igenom varje objekt.
- Bekräfta att Pinecone Vector Insert slutför utan fel och att data syns i indexet
package1536. - När allt fungerar, slå på arbetsflödet Active för att aktivera det för produktion.
Tips för felsökning
- Google Drive-uppgifter kan löpa ut eller kräva specifika behörigheter. Om det skapar fel, kontrollera först Google-kopplingen i n8n under fliken Credentials och bekräfta sedan att mappen är delad med det anslutna kontot.
- Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om nedströmsnoder fallerar på tomma svar.
- Standardprompter i AI-noder är generiska. Lägg in er tonalitet tidigt, annars kommer du att redigera output för alltid.
Snabba svar
Cirka 30 minuter om du redan har dina API-nycklar.
Nej. Du kopplar Google Drive, OpenAI och Pinecone och väljer sedan mapp och index.
Ja. n8n har ett gratis self-hosted-alternativ och en gratis provperiod på n8n Cloud. Cloud-planer börjar på $20/månad för högre volymer. Du behöver också räkna med OpenAI API-kostnader (oftast några dollar i månaden för små index) samt Pinecones kostnader för lagring och frågor.
Två alternativ: n8n Cloud (hanterat, enklast uppsättning) eller egen hosting på en VPS. För egen hosting är Hostinger VPS prisvärd och hanterar n8n bra. Egen hosting ger dig obegränsade körningar men kräver grundläggande serverhantering.
Ja, och det borde du förmodligen. Du kan byta Google Drive-mapp för att indexera andra dokumentbibliotek och sedan justera chunkstorleken i Recursive Text Splitter efter ditt innehåll (korta policydokument behöver mindre chunkar än långa broschyrer). Många team lägger också till rikare metadata innan insättning i Pinecone, som destination, turkod eller säsong, så att filter fungerar bättre. Om du senare bestämmer dig för att använda en annan vektordatabas kan du byta ut noden Pinecone Vector Store och behålla resten av pipelinen.
Oftast beror det på utgångna OAuth-uppgifter eller att det anslutna kontot inte har åtkomst till mål-mappen. Anslut Google Drive på nytt i n8n och dubbelkolla sedan mappens behörigheter och att du inte pekar på en delad enhet som ditt konto inte kan läsa. Om arbetsflödet hittar filer men nedladdningar misslyckas kan det också vara ett scope-problem i inloggningsuppgifterna eller en fil som är blockerad för delning. Åtgärda åtkomsten först och kör sedan igen på en enskild PDF för att bekräfta att det är stabilt.
En typisk uppsättning kan hantera dussintals PDF:er per körning, och du kan skala upp genom att köra det på schema eller indexera i mindre batcher.
För det här use caset passar n8n oftast bättre eftersom arbetsflödet behöver loopar, dokumentinläsning, text-splitting och insättning i en vektordatabas, vilket blir klumpigt (och dyrt) i enklare verktyg. Zapier och Make är bra för snabba tvåstegsautomationer, men de är inte byggda för AI-pipelines med många noder. n8n ger dig också möjlighet till egen hosting, vilket spelar roll om du indexerar många dokument. Nackdelen är att du lägger lite mer tid på att konfigurera inloggningsuppgifter och testa. Om du är osäker, prata med en automationsexpert så pekar vi dig till det enklaste alternativet.
När dina PDF:er är indexerade försvinner merarbetet i bakgrunden. Du slutar leta upp samma detaljer om och om igen och börjar använda dem.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.