Google Sheets + robots.txt: rensade sitemap-url:er

Din ”fullständiga URL-lista” är i praktiken aldrig fullständig. Du hämtar en sitemap, den missar sidor, inkluderar länkar från sitemap till sitemap och lämnar dig ändå letandes i robots.txt och slumpmässiga sitemap-indexfiler.

Den här automatiseringen för rensning av sitemap-URL:er är en räddare i nöden för SEO-konsulter som gör revisioner, marknadschefer som jagar snabba vinster och operativt lagda grundare som bara behöver en strukturerad lista för rapportering.

Du skickar in en domän en gång. Workflowet hittar de riktiga sitemapsen (inklusive referenser i robots.txt), extraherar faktiska sid-URL:er, tar bort skräp, avduplicerar och lägger sedan allt i Google Sheets redo för analys.

Så fungerar den här automatiseringen

Hela n8n-workflowet, från trigger till slutresultat:

n8n Workflow Template: Google Sheets + robots.txt: rensade sitemap-url:er

Click to explore

flowchart LR

    subgraph sg0["Input Website URL Flow"]
        direction LR
        n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/form.svg' width='40' height='40' /></div><br/>Input Website URL"]
        n1@{ icon: "mdi:swap-vertical", form: "rounded", label: "Prepare website URL", pos: "b", h: 48 }
        n2["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Build sitemap URLs"]
        n3@{ icon: "mdi:swap-vertical", form: "rounded", label: "Sitemap URL Check", pos: "b", h: 48 }
        n4["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Fetch Sitemap Data"]
        n5@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Filter Non-Empty Sitemap Res..", pos: "b", h: 48 }
        n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Extract Sitemap URLs"]
        n7["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Fetch Sitemap Pages XML"]
        n8["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/code.svg' width='40' height='40' /></div><br/>Extract Page URLs from Sitemap"]
        n9@{ icon: "mdi:swap-horizontal", form: "rounded", label: "Exclude the Sitemap URLs", pos: "b", h: 48 }
        n10@{ icon: "mdi:database", form: "rounded", label: "Save Page URLs to Sheet", pos: "b", h: 48 }
        n0 --> n1
        n3 --> n5
        n3 --> n4
        n2 --> n3
        n4 --> n3
        n1 --> n2
        n6 --> n7
        n7 --> n8
        n9 --> n10
        n8 --> n9
        n5 --> n6
    end

    %% Styling
    classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
    classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
    classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
    classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
    classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
    classDef disabled stroke-dasharray: 5 5,opacity: 0.5
    class n0 trigger
    class n5,n9 decision
    class n10 database
    class n4,n7 api
    class n2,n6,n8 code
    classDef customIcon fill:none,stroke:none
    class n0,n2,n4,n6,n7,n8 customIcon

Problemet: sitemap-exporter är röriga och ofullständiga

Sitemaps borde göra SEO enkelt, men i verkligheten är de en labyrint. En sajt har /sitemap.xml, en annan har ett sitemap-index som länkar till tio filer till, och en tredje deklarerar bara sitemaps i robots.txt. Sen får du till slut ”listan”… och den är uppblåst med sitemap-URL:er, parameterskräp och dubbletter som skapar fel i pivottabeller, LETARAD och crawl-planering. Än värre: du vet inte vad du har missat, så du kan inte lita på din egen revision.

Friktionen byggs på. Här är var det faller isär i vardagsarbetet.

Du lägger ungefär en timme per sajt bara på att hitta alla giltiga sitemap-varianter och testa vilka som faktiskt laddar.
Sitemap-index döljer nästlade sitemaps, så du exporterar en fil och antar att den är komplett när den inte är det.
Din ”URL-lista” innehåller sitemap- och index-URL:er, vilket förorenar revisioner och tvingar fram manuell rensning.
Dubbletter smyger in från överlappande sitemaps, och plötsligt är dina antal, filter och rapporter opålitliga.

Lösningen: extrahera och rensa URL:er automatiskt till Google Sheets

Det här n8n-workflowet förvandlar en rörig sitemap-situation till ett enda, revisionsklart Google Sheet. Det börjar med en enkel formulärinlämning där du klistrar in en webbplats-URL. Därifrån normaliserar workflowet domänen (så att du inte fastnar på http vs https), genererar en lista över vanliga sitemap-platser och kontrollerar varje med live-HTTP-anrop. När det hittar ett sitemap-index följer det spåret, hämtar varje nästlad sitemap och extraherar sid-URL:er från XML-innehållet. Till sist filtrerar det bort allt som ser ut som ”sitemap” (för det är inte riktiga sidor), förhindrar dubbletter och lägger bara in felfria sid-URL:er i ditt Google Sheet.

Workflowet startar när du skickar in en sajt via formuläret. Det validerar och utökar sitemap-källorna (inklusive robots.txt-referenser) och parsar sedan alla nästlade filer tills det når faktiska sid-URL:er. Google Sheets blir den enda platsen du jobbar från efter det.

Det du får: automatisering vs. resultat

Det här workflowet automatiserar

Resultat du får

Det genererar och testar flera sitemap-endpoints, inklusive robots.txt.
Det följer sitemap-index och hämtar nästlade sitemap-XML-filer automatiskt.
Det extraherar URL:er från XML--taggar och länkstrukturer.
Det filtrerar bort URL:er som ser ut som sitemap och förhindrar dubbletter innan det sparar.

De flesta team får en komplett URL-lista på cirka 5 minuter i stället för en timmes filkontroll.
Du slutar missa sidor som ligger i nästlade sitemap-index.
Ditt ark blir mer strukturerat, vilket innebär snabbare revisioner och färre ”varför stämmer inte det här?”-lägen.
Rapportering blir repeterbar eftersom du kan köra samma process för varje kund eller domän.
Du kan lämna över arket till en kollega och lita på antalen.

Exempel: så här ser det ut

Säg att du gör revisioner på 5 kundsajter den här veckan. Manuell hantering kan innebära runt 45 minuter per sajt för att jaga sitemap-varianter, öppna robots.txt, ladda ner sitemap-index och sedan rensa ”sitemap”-URL:er och dubbletter i Sheets. Det är ungefär 4 timmar adminarbete. Med det här workflowet klistrar du in varje domän i formuläret (kanske 2 minuter per sajt), låter n8n hämta och parsa allt och resultatet hamnar i Google Sheets på några minuter. Du får tillbaka större delen av eftermiddagen.

Det här behöver du

n8n-instans (testa n8n Cloud gratis)
Alternativ för egen drift om du föredrar det (Hostinger fungerar bra)
Google Sheets för att lagra den slutliga URL-listan
HTTP Request för att hämta robots.txt och sitemap-XML
Google Sheets OAuth2-uppgifter (skapa i n8n-credentials)

Kunskapsnivå: Nybörjare. Du kopplar främst in Google Sheets, klistrar in en Sheet-URL och kör en testinlämning.

Vill du inte sätta upp detta själv? Prata med en automationsexpert (gratis 15-minuters konsultation).

Så fungerar det

Du skickar in en webbplats via ett formulär. Workflowet startar med ”Website Form Intake”, så indata blir enkel och konsekvent. Ingen kopiering av node-URL:er eller redigering av JSON varje gång du vill köra det.

Domänen städas upp först. ”Normalize Web Address” standardiserar URL:en, vilket undviker onödiga problem som dubbla snedstreck eller fel protokoll. Liten detalj, stor minskning av märkliga edge cases.

Sitemap-källor genereras och valideras. Workflowet bygger en lista över troliga sitemap-platser (inklusive robots.txt) och kör dem i batchar med HTTP-anrop. Det behåller bara de sitemap-endpoints som svarar med verkligt innehåll och fortsätter även om några ger fel.

Nästlade sitemaps expanderas till riktiga sid-URL:er. Om ett sitemap-index upptäcks extraherar workflowet länkarna till underliggande sitemaps, laddar ner varje sitemap-XML och härleder sedan sid-URL:er från <loc>-taggarna (och relaterade länkmönster) så att du inte missar delar av sajten.

Felfria URL:er sparas i Google Sheets. Allt som innehåller ”sitemap” filtreras bort, dubbletter förhindras och ”Append URLs to Sheet” skriver bara den slutliga sidlistan till din valda flik.

Du kan enkelt justera sitemap-URL-mönstren för att matcha ovanliga upplägg utifrån dina behov. Se hela implementeringsguiden nedan för anpassningsalternativ.

Steg-för-steg-guide för implementering

Steg 1: Konfigurera formulärtriggern

Konfigurera arbetsflödets startpunkt så att användare kan skicka in en webbplats-URL för extrahering av webbplatskarta.

Lägg till eller öppna Website Form Intake och ställ in Form Title till Sitemap Page Extractor.
I Form Fields, säkerställ att ett fält med etiketten Website URL finns.
Bekräfta att exekveringsflödet börjar med Website Form Intake → Normalize Web Address.

Steg 2: Anslut Google Sheets

Konfigurera målkalkylarket där extraherade URL:er ska lagras.

Öppna Append URLs to Sheet och ställ in Operation till appendOrUpdate.
Ställ in Sheet Name till List_Of_All_URLs.
Ställ in Document ID till ert Google Sheet-ID (ersätt [YOUR_ID]).
Uppgifter krävs: Anslut era googleSheetsOAuth2Api-uppgifter.

⚠️ Vanlig fallgrop: Om [YOUR_ID] lämnas oförändrat kommer arbetsflödet att misslyckas när det ska skriva till Google Sheets.

Steg 3: Konfigurera URL-normalisering och upptäckt av webbplatskarta

Normalisera användarinmatning och generera möjliga platser för webbplatskartan för validering.

I Normalize Web Address, ställ in tilldelningen för url till {{ $json["Website URL"] }}.
Granska Generate Sitemap Links för att säkerställa att den använder standard-JS som bygger vanliga sitemap-URL:er från basdomänen.
Låt Batch Sitemap Validation vara ansluten så att den styr iterationen genom möjliga sitemap-URL:er.

Steg 4: Konfigurera hämtning, parsning och filtrering av webbplatskarta

Hämta innehållet i webbplatskartan, validera det, extrahera sid-URL:er och filtrera bort referenser till webbplatskartor.

I Retrieve Sitemap Response, ställ in URL till {{ $json.sitemap_url }} och behåll svarsformatet som text.
I Validate Sitemap Content, ställ in villkoret att kontrollera att {{ $json.data }} är notEmpty.
Låt Parse Sitemap Index Links vara ansluten för att extrahera Sitemap:- och -URL:er från innehållet.
I Download Sitemap XML, ställ in URL till {{ $json.sitemap_url }} och Method till GET.
Säkerställ att Derive Page Links förblir ansluten för att parsa sid-URL:er från XML- eller HTML-innehåll.
I Remove Sitemap Entries, behåll filterregeln {{ $json.page_url }} notContains sitemap.

Loopen mellan Batch Sitemap Validation och Retrieve Sitemap Response gör att flera kandidat-URL:er för webbplatskarta kan testas tills giltigt innehåll hittas.

Steg 5: Testa och aktivera ert arbetsflöde

Kör ett manuellt test för att bekräfta att arbetsflödet kan extrahera URL:er och skriva dem till ert ark.

Klicka på Execute Workflow och skicka in ett exempel på Website URL i Website Form Intake.
Verifiera att Append URLs to Sheet skapar eller uppdaterar rader i List_Of_All_URLs.
Om resultatet är tomt, kontrollera Validate Sitemap Content för giltig textutdata och bekräfta att sitemap-URL:en går att nå.
När ni är nöjda, växla arbetsflödet till Active för att ta emot formulärinsändningar i drift.

🔒

Lås upp fullständig steg-för-steg-guide

Få den kompletta implementeringsguiden + nedladdningsbar mall

Vanliga fallgropar

Google Sheets-uppgifter kan gå ut eller kräva specifika behörigheter. Om något slutar fungera, kontrollera avsnittet Credentials i n8n och bekräfta att Google-kontot kan redigera målarket.
Om du använder Wait-noder eller extern rendering varierar processtiderna. Öka väntetiden om noder nedströms fallerar på tomma svar.
Standardprompter i AI-noder är generiska. Lägg in ert varumärkesspråk tidigt, annars kommer du att redigera utdata i all evighet.

Vanliga frågor

Hur lång tid tar det att sätta upp den här automatiseringen för rensning av sitemap-URL:er?

Cirka 10–15 minuter om din åtkomst till Google Sheets är klar.

Behöver jag kunna koda för att automatisera rensning av sitemap-URL:er?

Nej. Du kopplar Google Sheets och redigerar ett par fält, som målarket och fliknamnet.

Är n8n gratis att använda för det här workflowet för rensning av sitemap-URL:er?

Ja. n8n har ett gratis alternativ för egen drift och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volymer. Du behöver också räkna in användningen av Google Sheets (oftast gratis) och eventuella valfria AI-steg om du lägger till dem.

Var kan jag hosta n8n för att köra den här automatiseringen?

Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller egen drift på en VPS. För egen drift är Hostinger VPS prisvärd och klarar n8n bra. Egen drift ger dig obegränsat antal körningar men kräver grundläggande serverhantering.

Kan jag anpassa det här workflowet för rensning av sitemap-URL:er för subdomäner eller internationella sajter?

Ja, men du vill justera genereringen av sitemap-mönster. I n8n uppdaterar du logiken i ”Generate Sitemap Links” så att den inkluderar sitemap-sökvägar för subdomäner eller språksspecifika sitemaps, och behåller sedan samma validerings- och parsflöde. Vanliga justeringar är att lägga till variationer som /sitemap-index.xml, stöd för sökvägar i stil med /en/sitemap.xml och att skärpa filtret så att bara URL:er under ett specifikt värdnamn sparas.

Varför misslyckas min Google Sheets-anslutning i det här workflowet?

Oftast handlar det om en utgången OAuth-token eller fel Google-konto. Återanslut Google Sheets-uppgifterna i n8n och bekräfta att arket är delat med det kontot med redigeringsrättigheter. Kontrollera också noden ”Append URLs to Sheet” för rätt kalkylark, fliknamn och kolumnrubrik, eftersom en mismatch där kan se ut som ett autentiseringsproblem.

Hur många URL:er kan den här automatiseringen för rensning av sitemap-URL:er hantera?

Väldigt många.

Är den här automatiseringen för rensning av sitemap-URL:er bättre än att använda Zapier eller Make?

För just det här jobbet är n8n oftast ett bättre val eftersom sitemap-parsning och nästlad ”följ indexet”-logik snabbt blir komplicerad. Du kan batcha flera sitemap-kandidater, fortsätta även efter ett misslyckat anrop och göra anpassad filtrering utan att tejpa ihop ett dussin små Zaps. Om du kör i egen drift betalar du dessutom inte per litet steg, vilket är viktigt när ett sitemap-index exploderar till tusentals URL:er. Zapier eller Make kan fungera för enkla tvåstegsflöden, men blir klumpiga när du behöver loopar, avduplicering och villkorsstyrda grenar. Om du tvekar, prata med en automationsexpert så hjälper vi dig att välja det enklaste alternativet.

När detta väl rullar blir din ”URL-lista” en tillförlitlig tillgång i stället för ett återkommande måste. Workflowet sköter den repetitiva rensningen så att du kan lägga tiden på de faktiska SEO-besluten.

Google Sheets + robots.txt: rensade sitemap-url:er

Så fungerar den här automatiseringen

n8n Workflow Template: Google Sheets + robots.txt: rensade sitemap-url:er

Problemet: sitemap-exporter är röriga och ofullständiga

Lösningen: extrahera och rensa URL:er automatiskt till Google Sheets

Det du får: automatisering vs. resultat

Exempel: så här ser det ut

Det här behöver du

Så fungerar det

Steg-för-steg-guide för implementering

Steg 1: Konfigurera formulärtriggern

Steg 2: Anslut Google Sheets

Steg 3: Konfigurera URL-normalisering och upptäckt av webbplatskarta

Steg 4: Konfigurera hämtning, parsning och filtrering av webbplatskarta

Steg 5: Testa och aktivera ert arbetsflöde

Lås upp fullständig steg-för-steg-guide

Vanliga fallgropar

Vanliga frågor

Kontakta oss

Kontakta oss

Google Sheets + robots.txt: rensade sitemap-url:er

Så fungerar den här automatiseringen

n8n Workflow Template: Google Sheets + robots.txt: rensade sitemap-url:er

Problemet: sitemap-exporter är röriga och ofullständiga

Lösningen: extrahera och rensa URL:er automatiskt till Google Sheets

Det du får: automatisering vs. resultat

Exempel: så här ser det ut

Det här behöver du

Så fungerar det

Steg-för-steg-guide för implementering

Steg 1: Konfigurera formulärtriggern

Steg 2: Anslut Google Sheets

Steg 3: Konfigurera URL-normalisering och upptäckt av webbplatskarta

Steg 4: Konfigurera hämtning, parsning och filtrering av webbplatskarta

Steg 5: Testa och aktivera ert arbetsflöde

Lås upp fullständig steg-för-steg-guide

Vanliga fallgropar

Relaterade workflows

Vanliga frågor

Kontakta oss

Använd mall