Din ”fullständiga URL-lista” är i praktiken aldrig fullständig. Du hämtar en sitemap, den missar sidor, inkluderar länkar från sitemap till sitemap och lämnar dig ändå letandes i robots.txt och slumpmässiga sitemap-indexfiler.
Den här automatiseringen för rensning av sitemap-URL:er är en räddare i nöden för SEO-konsulter som gör revisioner, marknadschefer som jagar snabba vinster och operativt lagda grundare som bara behöver en strukturerad lista för rapportering.
Du skickar in en domän en gång. Workflowet hittar de riktiga sitemapsen (inklusive referenser i robots.txt), extraherar faktiska sid-URL:er, tar bort skräp, avduplicerar och lägger sedan allt i Google Sheets redo för analys.
Så fungerar den här automatiseringen
Hela n8n-workflowet, från trigger till slutresultat:
n8n Workflow Template: Google Sheets + robots.txt: rensade sitemap-url:er
flowchart LR
subgraph sg0["Input Website URL Flow"]
direction LR
n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/form.svg' width='40' height='40' /></div><br/>Input Website URL"]
n1@{ icon: "mdi:swap-vertical", form: "rounded", label: "Prepare website URL", pos: "b", h: 48 }
n2["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Build sitemap URLs"]
n3@{ icon: "mdi:swap-vertical", form: "rounded", label: "Sitemap URL Check", pos: "b", h: 48 }
n4["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Fetch Sitemap Data"]
n5@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Filter Non-Empty Sitemap Res..", pos: "b", h: 48 }
n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Extract Sitemap URLs"]
n7["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Fetch Sitemap Pages XML"]
n8["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Extract Page URLs from Sitemap"]
n9@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Exclude the Sitemap URLs", pos: "b", h: 48 }
n10@{ icon: "mdi:database", form: "rounded", label: "Save Page URLs to Sheet", pos: "b", h: 48 }
n0 --> n1
n3 --> n5
n3 --> n4
n2 --> n3
n4 --> n3
n1 --> n2
n6 --> n7
n7 --> n8
n9 --> n10
n8 --> n9
n5 --> n6
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n0 trigger
class n5,n9 decision
class n10 database
class n4,n7 api
class n2,n6,n8 code
classDef customIcon fill:none,stroke:none
class n0,n2,n4,n6,n7,n8 customIcon
Problemet: sitemap-exporter är röriga och ofullständiga
Sitemaps borde göra SEO enkelt, men i verkligheten är de en labyrint. En sajt har /sitemap.xml, en annan har ett sitemap-index som länkar till tio filer till, och en tredje deklarerar bara sitemaps i robots.txt. Sen får du till slut ”listan”… och den är uppblåst med sitemap-URL:er, parameterskräp och dubbletter som skapar fel i pivottabeller, LETARAD och crawl-planering. Än värre: du vet inte vad du har missat, så du kan inte lita på din egen revision.
Friktionen byggs på. Här är var det faller isär i vardagsarbetet.
- Du lägger ungefär en timme per sajt bara på att hitta alla giltiga sitemap-varianter och testa vilka som faktiskt laddar.
- Sitemap-index döljer nästlade sitemaps, så du exporterar en fil och antar att den är komplett när den inte är det.
- Din ”URL-lista” innehåller sitemap- och index-URL:er, vilket förorenar revisioner och tvingar fram manuell rensning.
- Dubbletter smyger in från överlappande sitemaps, och plötsligt är dina antal, filter och rapporter opålitliga.
Lösningen: extrahera och rensa URL:er automatiskt till Google Sheets
Det här n8n-workflowet förvandlar en rörig sitemap-situation till ett enda, revisionsklart Google Sheet. Det börjar med en enkel formulärinlämning där du klistrar in en webbplats-URL. Därifrån normaliserar workflowet domänen (så att du inte fastnar på http vs https), genererar en lista över vanliga sitemap-platser och kontrollerar varje med live-HTTP-anrop. När det hittar ett sitemap-index följer det spåret, hämtar varje nästlad sitemap och extraherar sid-URL:er från XML-innehållet. Till sist filtrerar det bort allt som ser ut som ”sitemap” (för det är inte riktiga sidor), förhindrar dubbletter och lägger bara in felfria sid-URL:er i ditt Google Sheet.
Workflowet startar när du skickar in en sajt via formuläret. Det validerar och utökar sitemap-källorna (inklusive robots.txt-referenser) och parsar sedan alla nästlade filer tills det når faktiska sid-URL:er. Google Sheets blir den enda platsen du jobbar från efter det.
Det du får: automatisering vs. resultat
| Det här workflowet automatiserar | Resultat du får |
|---|---|
|
|
Exempel: så här ser det ut
Säg att du gör revisioner på 5 kundsajter den här veckan. Manuell hantering kan innebära runt 45 minuter per sajt för att jaga sitemap-varianter, öppna robots.txt, ladda ner sitemap-index och sedan rensa ”sitemap”-URL:er och dubbletter i Sheets. Det är ungefär 4 timmar adminarbete. Med det här workflowet klistrar du in varje domän i formuläret (kanske 2 minuter per sajt), låter n8n hämta och parsa allt och resultatet hamnar i Google Sheets på några minuter. Du får tillbaka större delen av eftermiddagen.
Det här behöver du
- n8n-instans (testa n8n Cloud gratis)
- Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
- Google Sheets för att lagra den slutliga URL-listan
- HTTP Request för att hämta robots.txt och sitemap-XML
- Google Sheets OAuth2-uppgifter (skapa i n8n-credentials)
Kunskapsnivå: Nybörjare. Du kopplar främst in Google Sheets, klistrar in en Sheet-URL och kör en testinlämning.
Vill du inte sätta upp detta själv? Prata med en automationsexpert (gratis 15-minuters konsultation).
Så fungerar det
Du skickar in en webbplats via ett formulär. Workflowet startar med ”Website Form Intake”, så indata blir enkel och konsekvent. Ingen kopiering av node-URL:er eller redigering av JSON varje gång du vill köra det.
Domänen städas upp först. ”Normalize Web Address” standardiserar URL:en, vilket undviker onödiga problem som dubbla snedstreck eller fel protokoll. Liten detalj, stor minskning av märkliga edge cases.
Sitemap-källor genereras och valideras. Workflowet bygger en lista över troliga sitemap-platser (inklusive robots.txt) och kör dem i batchar med HTTP-anrop. Det behåller bara de sitemap-endpoints som svarar med verkligt innehåll och fortsätter även om några ger fel.
Nästlade sitemaps expanderas till riktiga sid-URL:er. Om ett sitemap-index upptäcks extraherar workflowet länkarna till underliggande sitemaps, laddar ner varje sitemap-XML och härleder sedan sid-URL:er från <loc>-taggarna (och relaterade länkmönster) så att du inte missar delar av sajten.
Felfria URL:er sparas i Google Sheets. Allt som innehåller ”sitemap” filtreras bort, dubbletter förhindras och ”Append URLs to Sheet” skriver bara den slutliga sidlistan till din valda flik.
Du kan enkelt justera sitemap-URL-mönstren för att matcha ovanliga upplägg utifrån dina behov. Se hela implementeringsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementering
Steg 1: Konfigurera formulärtriggern
Konfigurera arbetsflödets startpunkt så att användare kan skicka in en webbplats-URL för extrahering av webbplatskarta.
- Lägg till eller öppna Website Form Intake och ställ in Form Title till
Sitemap Page Extractor. - I Form Fields, säkerställ att ett fält med etiketten
Website URLfinns. - Bekräfta att exekveringsflödet börjar med Website Form Intake → Normalize Web Address.
Steg 2: Anslut Google Sheets
Konfigurera målkalkylarket där extraherade URL:er ska lagras.
- Öppna Append URLs to Sheet och ställ in Operation till
appendOrUpdate. - Ställ in Sheet Name till
List_Of_All_URLs. - Ställ in Document ID till ert Google Sheet-ID (ersätt
[YOUR_ID]). - Uppgifter krävs: Anslut era
googleSheetsOAuth2Api-uppgifter.
[YOUR_ID] lämnas oförändrat kommer arbetsflödet att misslyckas när det ska skriva till Google Sheets.Steg 3: Konfigurera URL-normalisering och upptäckt av webbplatskarta
Normalisera användarinmatning och generera möjliga platser för webbplatskartan för validering.
- I Normalize Web Address, ställ in tilldelningen för url till
{{ $json["Website URL"] }}. - Granska Generate Sitemap Links för att säkerställa att den använder standard-JS som bygger vanliga sitemap-URL:er från basdomänen.
- Låt Batch Sitemap Validation vara ansluten så att den styr iterationen genom möjliga sitemap-URL:er.
Steg 4: Konfigurera hämtning, parsning och filtrering av webbplatskarta
Hämta innehållet i webbplatskartan, validera det, extrahera sid-URL:er och filtrera bort referenser till webbplatskartor.
- I Retrieve Sitemap Response, ställ in URL till
{{ $json.sitemap_url }}och behåll svarsformatet som text. - I Validate Sitemap Content, ställ in villkoret att kontrollera att
{{ $json.data }}är notEmpty. - Låt Parse Sitemap Index Links vara ansluten för att extrahera
Sitemap:- och-URL:er från innehållet. - I Download Sitemap XML, ställ in URL till
{{ $json.sitemap_url }}och Method tillGET. - Säkerställ att Derive Page Links förblir ansluten för att parsa sid-URL:er från XML- eller HTML-innehåll.
- I Remove Sitemap Entries, behåll filterregeln
{{ $json.page_url }}notContainssitemap.
Steg 5: Testa och aktivera ert arbetsflöde
Kör ett manuellt test för att bekräfta att arbetsflödet kan extrahera URL:er och skriva dem till ert ark.
- Klicka på Execute Workflow och skicka in ett exempel på
Website URLi Website Form Intake. - Verifiera att Append URLs to Sheet skapar eller uppdaterar rader i
List_Of_All_URLs. - Om resultatet är tomt, kontrollera Validate Sitemap Content för giltig textutdata och bekräfta att sitemap-URL:en går att nå.
- När ni är nöjda, växla arbetsflödet till Active för att ta emot formulärinsändningar i drift.
Vanliga fallgropar
- Google Sheets-uppgifter kan gå ut eller kräva specifika behörigheter. Om något slutar fungera, kontrollera avsnittet Credentials i n8n och bekräfta att Google-kontot kan redigera målarket.
- Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om noder nedströms fallerar på tomma svar.
- Standardprompter i AI-noder är generiska. Lägg in ert varumärkesspråk tidigt, annars kommer du att redigera utdata i all evighet.
Vanliga frågor
Cirka 10–15 minuter om din åtkomst till Google Sheets är klar.
Nej. Du kopplar Google Sheets och redigerar ett par fält, som målarket och fliknamnet.
Ja. n8n har ett gratis alternativ för egen drift och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volymer. Du behöver också räkna in användningen av Google Sheets (oftast gratis) och eventuella valfria AI-steg om du lägger till dem.
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärd och klarar n8n bra. Egen drift ger dig obegränsat antal körningar men kräver grundläggande serverhantering.
Ja, men du vill justera genereringen av sitemap-mönster. I n8n uppdaterar du logiken i ”Generate Sitemap Links” så att den inkluderar sitemap-sökvägar för subdomäner eller språksspecifika sitemaps, och behåller sedan samma validerings- och parsflöde. Vanliga justeringar är att lägga till variationer som /sitemap-index.xml, stöd för sökvägar i stil med /en/sitemap.xml och att skärpa filtret så att bara URL:er under ett specifikt värdnamn sparas.
Oftast handlar det om en utgången OAuth-token eller fel Google-konto. Återanslut Google Sheets-uppgifterna i n8n och bekräfta att arket är delat med det kontot med redigeringsrättigheter. Kontrollera också noden ”Append URLs to Sheet” för rätt kalkylark, fliknamn och kolumnrubrik, eftersom en mismatch där kan se ut som ett autentiseringsproblem.
Väldigt många.
För just det här jobbet är n8n oftast ett bättre val eftersom sitemap-parsning och nästlad ”följ indexet”-logik snabbt blir komplicerad. Du kan batcha flera sitemap-kandidater, fortsätta även efter ett misslyckat anrop och göra anpassad filtrering utan att tejpa ihop ett dussin små Zaps. Om du kör i egen drift betalar du dessutom inte per litet steg, vilket är viktigt när ett sitemap-index exploderar till tusentals URL:er. Zapier eller Make kan fungera för enkla tvåstegsflöden, men blir klumpiga när du behöver loopar, avduplicering och villkorsstyrda grenar. Om du tvekar, prata med en automationsexpert så hjälper vi dig att välja det enklaste alternativet.
När detta väl rullar blir din ”URL-lista” en tillförlitlig tillgång i stället för ett återkommande måste. Workflowet sköter den repetitiva rensningen så att du kan lägga tiden på de faktiska SEO-besluten.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.