Chain of thought

Er AI ger ibland korrekta svar men missar logiken – och det blir dyrt i prognoser, prissättning och kundservice. Chain of thought hjälper modeller att tänka högt steg för steg, vilket både höjer korrekthet och gör resonemanget transparent. I den här guiden får ni en konkret metod för att implementera det i era prompts, vilka varianter som fungerar bäst och hur ni mäter effekten.

📌 Sammanfattning (TL;DR)

Chain of thought bryter ner problem i tydliga delsteg och förbättrar resonemang i LLM:er.
Börja med ”Låt oss tänka steg för steg” (zero-shot), uppgradera till få exempel (few-shot) för högre träffsäkerhet^[1].
Använd Auto-CoT för att skala upp utan manuell exempelbyggnad; mångfald i exempel ger bättre resultat^[2].
Störst effekt i stora modeller (>~100B parametrar); mät förbättring via testfall och self-consistency^[1],^[3].

Vad är Chain of thought och varför det fungerar

Chain of thought är en promptteknik som får språkmodeller att redovisa mellanliggande resonemang innan slutsvaret, precis som en analytiker gör på en whiteboard. Genom att visa hur man löser ett problem i flera steg ökar chanserna att modellen landar rätt och att ni kan granska logiken^[1],^[4]. Metoden har visat stora lyft i uppgifter som aritmetik (textbaserad matematik), allmännkunskapsresonemang och symbolisk logik^[1].

Forskning visar tydliga effekter: i matematikbenchmark GSM8K ökade träffsäkerheten från 55% till 74% med Chain of thought på PaLM 540B, och i SVAMP från 57% till 81%. Symbolisk logik steg från ~60% till ~95%^[1]. Google rapporterar dessutom 58% som nytt resultat på GSM8K med PaLM 540B och att self-consistency (majoritetsröstning över flera resonemang) tar det vidare till 74%^[3].

Vill ni förstå hur detta relaterar till andra prompttekniker kan ni läsa Vad är prompt engineering?.

När svenska företag ska använda tekniken

Chain of thought passar alla uppgifter där svaret kräver flera logiska steg eller beräkningar:

Ekonomi: bryta ner resultatbudget (intäkter, kostnader, säsongsfaktorer) och visa delberäkningar innan totalsvar.
Operativt: planera leveransflöden eller bemanning med tydliga antaganden och steg (kapacitet, efterfrågan, begränsningar).
Kundservice: felsöka i flera led (problem → möjliga orsaker → diagnostik → åtgärd), där transparent resonemang minskar felbeslut.
Policy/Compliance: kontrollera regler stegvis (regel A→B→C) och motivera varför ett ärende uppfyller/inte uppfyller krav.

För promptstruktur, se AI prompt struktur, som ger en mall att bygga vidare på.

Chain of thought i praktiken: steg-för-steg

1) Välj en uppgift som kräver flera delsteg. Definiera vilket slutresultat som räknas som korrekt (ex. ”beräkna kassaflöde Q1”).

2) Zero-shot: lägg till en enkel instruktion som triggar resonemang. På svenska fungerar ”Låt oss tänka steg för steg” eller ”Beskriv resonemanget punkt för punkt”^[4]. Kör uppgiften och granska resonemanget.

3) Few-shot: inkludera 2–3 korta exempel som visar hur resonemanget ska se ut (fråga → steg → slutsvar). Detta slår ofta zero-shot i noggrannhet, och demonstrationssteg kan öka träffsäkerhet markant i flera uppgifter^[1]. För tekniken bakom exempel, se Few-shot prompting.

4) Self-consistency: kör er Chain of thought-prompt flera gånger, spara 5–10 resonemang och välj den mest konsistenta slutsatsen (majoritetsröst). Metoden har visat starka förbättringar i matematikuppgifter^[3].

5) Kvalitetssäkra: be modellen ange antaganden per steg. Lägg till ett kontrollsteg som validerar att varje delresultat är rimligt (”Kontrollera att summan av delposterna = totalen”).

6) Dokumentera: spara bra resonemang som exempel i framtida prompts för återanvändning i er verksamhet.

Vill ni fördjupa er i avancerade instruktioner och kombinationer, läs Avancerad AI prompt-teknik.

Varianter som kan höja kvaliteten

Zero-shot Chain of thought: kort fras som tvingar fram stegvis resonemang. Enkelt att komma igång, men ofta sämre än få bra exempel^[1].

Few-shot Chain of thought: skicka med exempel som visar hur resonemanget ska formateras. Detta förbättrar träffsäkerhet jämfört med zero-shot, särskilt i komplexa uppgifter^[1].

Self-consistency: generera flera resonemang och ta det mest konsistenta slutsvaret. Visat stark effekt i matematikbenchmark GSM8K^[3].

Auto-CoT: automatisera skapandet av demonstrations-exempel. Metoden klustrar frågor för mångfald och genererar resonemang, vilket kan matcha eller överträffa manuellt byggda exempel på många uppgifter^[2].

Andra variationer: Step-back (abstrahera principer först), Analogical (generera relevanta analogier), Thread of Thought (håll samman resonemang över lång kontext), Contrastive (visa rätt och fel resonemang bredvid varandra), Faithful (säkerställ att resonemanget leder till svaret), Tabular (skriv steg i tabell). Dessa kan kombineras med Chain of thought beroende på uppgift och krav^[1].

Skillnad mot prompt chaining: chaining delar upp uppgiften i flera separata prompts; Chain of thought elicerar resonemang inom en enda prompt. Båda ökar transparensen, men används olika beroende på systemupplägg^[4].

Begränsningar, kostnad och risker

Effekten är störst i stora modeller: vinsterna med Chain of thought uppstår tydligt kring ~100 miljarder parametrar. Mindre modeller kan ibland producera övertygande men felaktiga resonemang, vilket sänker noggrannhet jämfört med standardprompting^[1]. Dessutom ökar beräkningskostnaden när ni genererar och evaluerar flera resonemang per fråga^[4].

Kvalitetskontroll är avgörande: felaktiga mellansteg kan vilseleda. Använd kontrollfrågor, verifikationssteg och jämför mot baslinje. Var medveten om risken för överanpassning till en specifik resonemangsstil och se till att exempel är varierade^[4],^[2].

För att skriva robusta instruktioner och undvika vanliga misstag, se Hur skriver man bra AI prompts.

Mätning: så följer ni upp effekten

Bygg ett enkelt testbatteri med 30–50 representativa frågor. Mät:

Korrekthet: baseline vs. Chain of thought vs. Chain of thought + self-consistency.
Transparens: andel svar med tydliga delsteg och motiveringar.
Stabilitet: hur ofta samma uppgift ger samma slutsvar.

I matematikuppgifter har self-consistency visat lyft upp till 74% på GSM8K med stor modell, vilket illustrerar nyttan av att rösta över flera resonemang^[3]. Följ upp månadsvis och förbättra era exempel och kontrollsteg kontinuerligt. För mer om KPI:er kring AI, se Mäta AI-resultat.

Vanliga frågor

Vad är Chain of thought i praktiken?

Det är en prompt som tvingar modellen att visa mellanliggande steg före slutsvaret. Exempel: budgetberäkning (intäkter→kostnader→resultat), felsökning (symptom→orsaker→tester→åtgärd) eller prisoptimering (efterfrågan→kostnadsstruktur→prisintervall). Forskning visar stora lyft i matematik och logik när steg redovisas tydligt^[1].

Fungerar zero-shot frasen ”Låt oss tänka steg för steg”?

Ja, det är ett enkelt sätt att utlösa resonemang. Effekten blir ofta större med få bra exempel (few-shot). PaLM 540B visade t.ex. 19–35 procentenheters förbättring i flera benchmark när Chain of thought användes med exempel jämfört med standardprompting^[1].

När ska vi använda self-consistency?

När ett felaktigt enstaka resonemang kan ge ett missvisande svar. Kör samma prompt 5–10 gånger, jämför resonemangen och välj det mest konsistenta slutsvaret. På GSM8K ökade träffsäkerhet till 74% med self-consistency på stor modell^[3].

Vad är Auto-CoT och varför är det användbart?

Auto-CoT genererar demonstrations-exempel automatiskt. Metoden väljer varierade frågor, skapar resonemang och bygger en few-shot prompt utan manuell handpåläggning. I studier har Auto-CoT matchat eller överträffat manuellt byggda exempel på tio offentliga uppgifter^[2].

Vilka begränsningar har tekniken?

Störst effekt i stora modeller (~100B+). Mindre modeller kan producera övertygande men felaktiga kedjor. Dessutom kostar det mer beräkningsmässigt att generera och validera flera resonemang, och promptkvalitet är avgörande^[1],^[4].

Hur skiljer sig Chain of thought från prompt chaining?

Prompt chaining delar upp uppgiften i flera efterföljande prompts. Chain of thought elicerar hela resonemanget inom en enda prompt. Båda ökar transparens; välj efter hur ert system och er process är uppbyggd^[4].

Kan vi använda tekniken i kundservice?

Ja. Exempel: ”identifiera problemet→lista sannolika orsaker→föreslå diagnossteg→ge åtgärd”. Lägg till kontrollfrågor (”Validera att kundens garanti gäller”). Kör self-consistency vid svårare ärenden för stabilare svar^[1],^[3].

Hur mäter vi att Chain of thought ger ROI?

Bygg testfall och mät korrekthet före/efter, antal felbeslut som undviks och handläggningstid. Exempel: i matematikuppgifter har self-consistency visat tydliga lyft; överför principen till era beräknings- eller regelstyrda processer^[3].

Vilka fraser fungerar på svenska?

Testa: ”Låt oss tänka steg för steg”, ”Beskriv resonemanget punkt för punkt”, ”Gå igenom logiken innan svaret”. Kombinera med exempel som visar hur delstegen ska struktureras^[4],^[1].

Hur undviker vi felaktiga resonemangskedjor?

Använd kontrollsteg (balanscheck, rimlighetskontroll), jämför mot baslinje, lägg till kontrasterande exempel (rätt vs. fel resonemang) och säkerställ mångfald i demonstrations-exempel – det sistnämnda är centralt i Auto-CoT^[2],^[1].

Källor

Learn Prompting: Chain-of-Thought Prompting – https://learnprompting.org/docs/intermediate/chain_of_thought
arXiv: Automatic Chain of Thought Prompting in Large Language Models – https://arxiv.org/abs/2210.03493
Google Research: Language Models Perform Reasoning via Chain of Thought – https://research.google/blog/language-models-perform-reasoning-via-chain-of-thought/
IBM: What is chain of thought (CoT) prompting? – https://www.ibm.com/think/topics/chain-of-thoughts
PromptHub: Chain of Thought Prompting Guide – https://www.prompthub.us/blog/chain-of-thought-prompting-guide

📌 Sammanfattning (TL;DR)

Vad är Chain of thought och varför det fungerar

När svenska företag ska använda tekniken

Chain of thought i praktiken: steg-för-steg

Varianter som kan höja kvaliteten

Begränsningar, kostnad och risker

Mätning: så följer ni upp effekten

Vanliga frågor

Källor

Kontakta oss

Kontakta oss

Chain of thought

📌 Sammanfattning (TL;DR)

Vad är Chain of thought och varför det fungerar

När svenska företag ska använda tekniken

Chain of thought i praktiken: steg-för-steg

Varianter som kan höja kvaliteten

Begränsningar, kostnad och risker

Mätning: så följer ni upp effekten

Vanliga frågor

Källor

Kontakta oss

Använd mall