Att testa prompts mot flera modeller låter enkelt tills du gör det hela veckan. Till slut sitter du med fyra webbläsarflikar, inställningar som inte matchar, tappade exempel på ”bästa svaret” och ett kalkylark som aldrig riktigt är uppdaterat.
Det här drabbar growth marketers som kör copy-experiment hårdast, men produktteam och byråansvariga känner av det också. Nvidia-modelljämförelse blir en tidstjuv när varje körning är manuell, inkonsekvent och svår att granska i efterhand.
Det här arbetsflödet skickar en prompt till flera Nvidia-hostade modeller parallellt, returnerar ett korrekt formaterat JSON-svar och (med en liten utbyggnad) loggar varje körning till Google Sheets så att du kan jämföra sida vid sida och faktiskt fatta ett beslut.
Så fungerar den här automatiseringen
Se hur detta löser problemet:
n8n Workflow Template: Nvidia API + Google Sheets: jämför modeller sida vid sida
flowchart LR
subgraph sg0["Flow 1"]
direction LR
n0["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/webhook.dark.svg' width='40' height='40' /></div><br/>Webhook Trigger"]
n1@{ icon: "mdi:swap-vertical", form: "rounded", label: "Format Response", pos: "b", h: 48 }
n2["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/webhook.dark.svg' width='40' height='40' /></div><br/>Send Aggregated AI Model Res.."]
n3["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/merge.svg' width='40' height='40' /></div><br/>Merge AI Model"]
n4@{ icon: "mdi:swap-horizontal", form: "rounded", label: "AI Model Router", pos: "b", h: 48 }
n5["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Query Qwen3-next-80b-a3b-thi.."]
n6["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Query Bytedance/seed-oss-36b.."]
n7["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Query Nvidia-nemotron-nano-9.."]
n8["<div style='background:#f5f5f5;padding:10px;border-radius:8px;display:inline-block;border:1px solid #e0e0e0'><img src='https://flowpast.com/wp-content/uploads/n8n-workflow-icons/httprequest.dark.svg' width='40' height='40' /></div><br/>Query DeepSeekv3_1"]
n3 --> n1
n4 --> n5
n4 --> n6
n4 --> n8
n4 --> n7
n1 --> n2
n0 --> n4
n8 --> n3
n7 --> n3
n5 --> n3
n6 --> n3
end
%% Styling
classDef trigger fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
classDef ai fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef aiModel fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
classDef decision fill:#fff8e1,stroke:#f9a825,stroke-width:2px
classDef database fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef api fill:#fff3e0,stroke:#e65100,stroke-width:2px
classDef code fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef disabled stroke-dasharray: 5 5,opacity: 0.5
class n4 decision
class n0,n2,n5,n6,n7,n8 api
classDef customIcon fill:none,stroke:none
class n0,n2,n3,n5,n6,n7,n8 customIcon
Utmaningen: jämföra AI-modellutdata utan kaos
Om du utvärderar modeller för innehåll, supportsvar, kodgranskning eller research är den svåraste delen sällan att ”få ett svar”. Det svåra är att hålla testet rättvist och bevisen organiserade. En körning använder en annan temperature. En annan körning råkar träffa en annan modellversion. Och så frågar någon: ”Vilken modell valde vi för det onboarding-flödet?” och du har inget annat än en Slack-tråd och ett halvfärdigt dokument. Den mentala belastningen är påtaglig, och den bromsar leverans eftersom du inte kan lita på dina egna jämförelser.
Det summeras snabbt. Här är det som oftast fallerar.
- Du tappar timmar varje vecka på att köra om ”samma” prompt eftersom tidigare resultat inte sparas i ett konsekvent format.
- Jämförelser sida vid sida blir snedvridna eftersom inställningar driver mellan modeller, särskilt när du testar snabbt.
- Manuell copy-paste-loggning till Sheets skapar misstag, och de misstagen förstör i tysthet slutsatsen du trodde att du bevisade.
- När en modell timeoutar stannar hela experimentet, så du skjuter upp beslut och fortsätter diskutera i cirklar.
Lösningen: parallella modellkörningar + strukturerade utdata som du kan logga
Det här n8n-arbetsflödet ger dig ett repeterbart sätt att jämföra flera Nvidia-hostade modeller från en enda prompt. Det börjar med en webhook, så att teamet kan trigga tester via ett enkelt HTTP-anrop (eller ett lätt internt formulär). Baserat på dina regler för ”modellval” routar n8n begäran till parallella grenar och anropar varje modell via Nvidias API med HTTP Request-noder. En Merge-nod samlar sedan svaren, även om en modell är långsam eller timeoutar, och arbetsflödet formar slutpayloaden till en förutsägbar struktur. Webhooken svarar med JSON som innehåller varje modells output, redo för granskning eller loggning.
Flödet startar när du skickar en prompt till webhooken. Därefter förgrenar Switch-noden begäran till Qwen, Seed-OSS, DeepSeek och Nemotron parallellt. Till sist slår arbetsflödet ihop resultaten och returnerar ett kombinerat svar som är lätt att spara i Google Sheets.
Vad som förändras: före vs. efter
| Det här elimineras | Effekten du ser |
|---|---|
|
|
Effekt i verkligheten
Säg att du utvärderar 20 prompts i veckan och jämför 4 modeller varje gång. Manuellt kan du lägga cirka 3 minuter per modell (öppna, klistra in, köra, kopiera resultat), vilket blir ungefär 4 timmar i veckan av rent adminarbete. Med det här arbetsflödet skickar du en begäran (cirka 1 minut), väntar 2–3 sekunder på parallella svar och loggar sedan den samlade outputen till Google Sheets i ett steg. De flesta team får tillbaka cirka 3 timmar i veckan och får dessutom bättre underlag för slutvalet.
Krav
- n8n-instans (prova n8n Cloud gratis)
- Alternativ för self-hosting om du föredrar det (Hostinger fungerar bra)
- Nvidia API för att fråga Qwen, DeepSeek, Nemotron, Seed-OSS
- Google Sheets för att lagra resultat och jämföra körningar
- Nvidia API-nyckel (hämta den från build.nvidia.com)
Kunskapsnivå: Medel. Du kommer främst att klistra in API-uppgifter, justera några fält och validera svarsformatet.
Behöver du hjälp att implementera detta? Prata med en automationsspecialist (gratis 15-minuters konsultation).
Arbetsflödet steg för steg
En webhook tar emot din prompt. Du skickar en enkel begäran som innehåller prompttexten och den testmetadata du bryr dig om (som use case, temperature, max tokens eller ett ”körningsnamn”).
Arbetsflödet routar begäran till rätt modellgrenar. En Switch-nod avgör vilka modell-anrop som ska köras, så att du kan köra alla fyra för jämförelser eller bara en när du bara behöver ett snabbt svar.
Nvidia API-anrop körs parallellt. Fyra HTTP Request-noder anropar Qwen, Seed-OSS, DeepSeek R1 och Nemotron Nano samtidigt, vilket är varför du ser resultat på sekunder i stället för att vänta sekventiellt.
Resultat slås ihop och formas för lagring. Merge samlar det som returnerar korrekt (delresultat kan fortfarande gå vidare), sedan formaterar Set en korrekt formaterad payload och Respond to Webhook returnerar den som JSON. Om du lägger till Google Sheets-noden efter formateringen blir varje körning en rad med fyra output-kolumner.
Du kan enkelt ändra vilka modeller som körs för en viss begäran så att det matchar ditt testsätt. Se den fullständiga implementationsguiden nedan för anpassningsalternativ.
Steg-för-steg-guide för implementering
Steg 1: konfigurera webhook-triggern
Konfigurera den inkommande webhooken som startar workflowet och skickar den inkommande payloaden vidare till routern.
- Lägg till och öppna Incoming Webhook Start.
- Ställ in HTTP Method på
POST. - Ställ in Path på
6737b4b1-3c2f-47b9-89ff-a012c1fa4f29. - Ställ in Response Mode på
responseNodeför att lämna över kontrollen till Return Combined Reply.
AI Model och Insert your Query i JSON-body för att matcha uttrycken längre ned i flödet.Steg 2: routa förfrågningar till rätt modell
Använd switch-noden för att välja vilken nod för AI-modellförfrågan som ska köras baserat på det inkommande värdet AI Model.
- Öppna Route Model Choice.
- Bekräfta att den första regeln jämför
={{ $json['AI Model'] }}med1. - Bekräfta att den andra regeln jämför
={{ $json['AI Model'] }}med2. - Bekräfta att den tredje regeln jämför
={{ $json['AI Model'] }}med3. - Bekräfta att den fjärde regeln jämför
={{ $json['AI Model'] }}med4. - Bekräfta att den femte regeln jämför
={{ $json['AI Model'] }}med5.
model i stället för AI Model) kommer switchen inte att matcha någon regel.Steg 3: konfigurera noderna för modellförfrågningar
Varje vald gren gör en HTTP-förfrågan mot NVIDIAs API för chat completions med en modellspecifik payload.
- Öppna Request Qwen3 Thinking och ställ in URL på
https://integrate.api.nvidia.com/v1/chat/completionsoch Method påPOST. - Ställ in JSON Body i Request Qwen3 Thinking till
={ "model": "qwen/qwen3-next-80b-a3b-thinking", "messages": [ { "role": "user", "content": "{{ $('On form submission').item.json['Insert your Query'] }}" } ], "temperature": 0.7, "max_tokens": 1024 }. - Autentisering krävs: Anslut era
httpBearerAuth-credentials i Request Qwen3 Thinking. - Öppna Request Seed-OSS Response och ställ in JSON Body till
={ "model": "bytedance/seed-oss-36b-instruct", "messages": [ { "role": "user", "content": "{{ $json['Insert your Query'] }}" } ], "temperature": 1.1, "top_p": 0.95, "max_tokens": 4096, "thinking_budget": -1, "frequency_penalty": 0, "presence_penalty": 0, "stream": false }. - Autentisering krävs: Anslut era
httpBearerAuth-credentials i Request Seed-OSS Response. - Öppna Request DeepSeek R1 och ställ in JSON Body till
={ "model": "deepseek-ai/deepseek-r1", "messages": [ { "role": "user", "content": "{{ $('On form submission').item.json['Insert your Query'] }}" } ], "temperature": 0.6, "top_p": 0.7, "frequency_penalty": 0, "presence_penalty": 0, "max_tokens": 4096, "stream": true }. - Autentisering krävs: Anslut era
httpBearerAuth-credentials i Request DeepSeek R1. - Öppna Request Nemotron Nano och ställ in JSON Body till
{ "model": "nvidia/nvidia-nemotron-nano-9b-v2", "messages": [ { "role": "system", "content": "/think" } ], "temperature": 0.6, "top_p": 0.95, "max_tokens": 2048, "min_thinking_tokens": 1024, "max_thinking_tokens": 2048, "frequency_penalty": 0, "presence_penalty": 0, "stream": true }. - Autentisering krävs: Anslut era
httpBearerAuth-credentials i Request Nemotron Nano.
$('On form submission') i två noder. Säkerställ att era indata finns vid körning, eller uppdatera uttrycket så att det matchar payloaden från Incoming Webhook Start.Steg 4: slå ihop och forma svaret
Kombinera modellutdata, standardisera strukturen och returnera svaret till den som anropade webhooken.
- Öppna Combine Model Outputs och ställ in Number of Inputs på
4. - Öppna Shape Output Payload och lägg till en tilldelning med Name
choices[0].message.content. - Ställ in Value till
={{ $json.choices[0].message.content }}i Shape Output Payload. - Bekräfta att Shape Output Payload skickar utdata till Return Combined Reply.
- Öppna Return Combined Reply och behåll standardinställningen för Options om ni inte vill använda anpassade headers eller statuskoder.
choices[0].message.content.Steg 5: testa och aktivera ert workflow
Verifiera end-to-end-körning från webhooken till det sammanslagna svaret och aktivera det sedan för produktionsanvändning.
- Klicka på Execute Workflow och skicka en POST-förfrågan till Incoming Webhook Start-URL:en med JSON som innehåller
AI ModelochInsert your Query. - Bekräfta att den valda förfrågningsnoden (Request Qwen3 Thinking, Request Seed-OSS Response, Request DeepSeek R1 eller Request Nemotron Nano) körs och skickar data till Combine Model Outputs.
- Verifiera att svarspayloaden som returneras av Return Combined Reply innehåller
choices[0].message.content. - Slå på workflowet till Active för att aktivera webhook-hantering i produktion.
Se upp med
- Nvidia API-uppgifter kan gå ut eller sakna behörighet för modeller. Om något slutar fungera, kontrollera först din modellåtkomst och status för API-nyckeln i Nvidia-dashboarden.
- Om du använder parallella grenar och en modell är långsammare kan Merge fortsätta med delresultat. Det är användbart, men kan förvirra rapporteringen om din Google Sheets-rad inte innehåller en flagga för ”saknas/timeout”.
- Standardprompts och standardparametrar är oftast för generiska för en seriös utvärdering. Lås temperature/max tokens tidigt, annars blir jämförelserna inte jämförbara och du fastnar med att redigera output för alltid.
Vanliga frågor
Cirka 30 minuter om du redan har din Nvidia API-nyckel och ett testark i Sheets klart.
Ja, men någon behöver vara bekväm med att klistra in API-nycklar och testa en webhook-begäran. När det väl är uppsatt är det lika enkelt att köra jämförelser som att skicka in en prompt.
Ja. n8n har ett gratis self-hosted-alternativ och en gratis provperiod på n8n Cloud. Cloud-planer börjar på 20 USD/månad för högre volym. Du behöver också räkna med Nvidia API-användning (gratisnivå finns, därefter pay-as-you-go).
Två alternativ: n8n Cloud (hanterat, enklast att komma igång) eller self-hosting på en VPS. För self-hosting är Hostinger VPS prisvärt och klarar n8n bra. Self-hosting ger obegränsade exekveringar men kräver grundläggande serverhantering.
Du kan justera Switch-reglerna i ”Route Model Choice” så att bara de modeller du bryr dig om körs för en viss prompt. De flesta team anpassar också HTTP Request-noderna för att låsa temperature/max_tokens och justerar sedan ”Shape Output Payload” för att lägga till kolumner som use case, granskaranteckningar eller ett enkelt vinnar-fält för Google Sheets.
Oftast beror det på en ogiltig eller utgången Bearer-token, eller att ditt konto saknar åtkomst till en av de valda modellerna. Kontrollera Authorization-headern i varje HTTP Request-nod och bekräfta sedan modellåtkomst i Nvidia-dashboarden. Om det bara fallerar under belastning kan du slå i rate limits, så minska parallellitet eller lägg till retries.
På n8n Cloud beror kapaciteten på hur många exekveringar per månad din plan tillåter, och varje promptkörning räknas som en arbetsflödesexekvering även om den anropar flera modeller. Om du self-hostar finns ingen exekveringstak, men din server och Nvidias rate limits blir den verkliga begränsningen. I praktiken kör många team dussintals eller ett par hundra jämförelser per dag utan problem. Om du vill ha uthålligt hög volym, lägg till en kö och lagra resultaten asynkront så att timeouts inte staplas.
Ofta, ja. Parallell förgrening och merge-beteende är mycket enklare att styra i n8n, vilket spelar roll när du anropar fyra modeller samtidigt och vill kunna få delresultat vid timeout. Du får också self-hosting med obegränsade exekveringar, vilket kan vara avgörande om du loggar många körningar till Google Sheets. Zapier eller Make kan fungera, men LLM-testning med flera grenar blir ofta dyr och klumpig så fort du lägger till retries, routing och strukturerad loggning. Prata med en automationsspecialist om du väger alternativen.
När detta väl är igång slutar modelltestning att vara en diskussion och blir i stället ett underlag. Du får mer konsekventa jämförelser, snabbare val och ett Sheet du kan lita på även nästa månad.
Kontakta oss
Hör av dig, så diskuterar vi hur just din verksamhet kan dra nytta av alla fantastiska möjligheter som AI skapar.