AI-agenter i praktiken — hur vi bygger automatiserade arbetsflöden med Claude och MCP

Häromveckan satt jag och väntade på att ett agentflöde jag byggt med Claude skulle slutföra en uppgift som normalt tar mig en halvtimme. Det tog tre minuter. Agenten öppnade en databas, hämtade relevant dokumentation via MCP, genererade en analys, formaterade om den till rätt format och sparade resultatet på rätt ställe. Utan att jag rörde ett finger.

Det är inte magi. Det är ingenjörsarbete. Och det är skillnaden jag försöker förklara varje gång en kund frågar mig om “AI-agenter” — för det är ett begrepp som i dag betyder allt från en enkel chatbot med ett par extra funktioner till genuint avancerade autonoma system som fattar beslut i flera steg.

Den viktigaste frågan att ställa 2026 är inte längre “ska vi ha AI?” utan “vad ska AI:n faktiskt göra?” Och svaret beror nästan alltid på om man bygger en agent eller en chatbot. Det är inte samma sak.

Varför agenter — inte chatbotar — är rätt fråga att ställa

En chatbot svarar. En agent agerar.

Det låter som en semantisk distinktion, men det är en fundamental skillnad i hur systemen är byggda och vad de kan åstadkomma. En chatbot — även en väldigt bra sådan — tar emot ett meddelande och genererar ett svar. Det är vad den gör. En AI-agent tar emot ett mål och avgör sedan självständigt vilka steg som krävs för att nå dit. Den kan anropa externa system, hämta data, fatta mellanliggande beslut, rätta till sina egna misstag och återkoppla resultatet.

Tänk det konkret. Om du ber en chatbot “sammanfatta de senaste veckans supportärenden” svarar den att den inte har tillgång till ditt ärendesystem. En agent? Den kopplar upp sig mot ärendesystemet, hämtar rätt data, analyserar mönster och levererar sammanfattningen. Och om något går fel i ett steg försöker den igen — eller berättar varför den inte kan fortsätta.

Det är inte nödvändigtvis mer komplext att använda. Men det är mer komplext att bygga. Och det är viktigt att förstå vad man ger sig in på.

Gartner förutspår att 40% av enterprise-applikationer kommer innehålla uppgiftsspecifika AI-agenter vid slutet av 2026 — upp från under 5% under 2025. Den rörelsen är verklig. Men — och det här är den siffra som sällan syns i leverantörernas pressmeddelanden — bara 29% av organisationer ser signifikant ROI från generativ AI, och 22% av agentdeployments visar negativ avkastning vid 12 månader. Negativ. Det handlar om otydliga framgångskriterier och otillräcklig datatillgång, enligt Forrester.

Så ja, agenter är rätt riktning. Men det är inte ett självmål att bygga en.

Vad är MCP och varför spelar det roll?

Model Context Protocol — MCP — är den infrastrukturfråga som avgör om du bygger något hållbart eller något som ni kastar om ett halvår.

Kort version: MCP är ett öppet standardprotokoll som låter AI-modeller kommunicera med externa system på ett enhetligt sätt. Tänk det som USB för AI-integrationer — ett universellt gränssnitt istället för att behöva skriva en specialanpassad integration för varje kombination av modell och system.

Anthropic lanserade MCP i slutet av 2024 och donerade det i december 2025 till Agentic AI Foundation (AAIF) — ett initiativ under Linux Foundation med OpenAI, Google, Microsoft och AWS som medgrundare, och ett 30-tal andra aktörer som signatärer. Det är ett starkt tecken på att detta är på väg att bli de facto-standard — inte en leverantörslåsning.

Siffrorna talar för sig själva: över 10 000 publicerade MCP-servrar finns i dag, 97 miljoner nedladdningar av SDK:n per månad, och first-class stöd i Claude, ChatGPT, GitHub Copilot, Cursor, Gemini och VS Code.

Varför spelar det roll för dig som bygger agenter? För att alternativen är sämre.

Det gamla sättet — function calling som OpenAI introducerade 2023 — är enkelt och snabbt för avgränsade uppgifter. Men det kräver att du skriver om dina scheman för varje leverantör, det hanterar inte persistenta sessioner, och det skalas dåligt när agenten behöver koordinera mot många system. MCP löser det: du bygger en integration en gång, och den fungerar oavsett vilken modell som sitter i motorn.

För svenska företag med befintliga system — CRM, ERP, ärendehantering, databaser — är det här en konkret fördel. MCP har färdiga connectors mot de flesta vanliga plattformar. Du börjar inte från noll.

Hur ett agentflöde faktiskt ser ut

Låt mig gå igenom hur ett verkligt agentflöde är byggt, utan att det behöver bli ett arkitekturdokument.

Det finns tre grundläggande lager:

Modellen — hjärnan. I min erfarenhet är Claude det starkaste alternativet för agentic use cases just nu. Claude Opus 4.7 uppnår 87,6% på SWE-bench Verified och 79,1% på MCP Atlas tool-use benchmark, med en 14-procentig förbättring i multi-step agentic reasoning jämfört med föregångaren och en tredjedel färre toolanropsfel. Det är inte marknadsföring — det är mätbara skillnader som syns när agenten ska hålla ihop komplexa flöden utan att tappa tråden.

Verktygen — armarna och benen. Via MCP kopplar agenten ihop sig med de externa system den behöver — databaser, API:er, filsystem, interna kunskapsbaser. Claude har även “computer use”, vilket innebär att den kan navigera i en webbläsare, klicka, scrolla och interagera med system som inte har ett API. Det öppnar upp för automatisering av processer som tidigare krävde mänsklig handpåläggning.

Orkestreringslagret — ryggraden. Det är här agenten bestämmer i vilken ordning den anropar verktyg, hanterar fel, och avgör när den behöver eskalera till en människa. Claude Agent SDK (Python och TypeScript) exponerar den agentloop som driver Claude Code och är vad jag använder som bas för de flesta agentbyggen.

I praktiken ser ett enkelt flöde ut ungefär så här: ett inkommande ärende triggar agenten, som via MCP hämtar relevant kontext från ett ärendesystem och en intern kunskapsbas, resonerar om rätt svar, skriver ett utkast, kontrollerar det mot interna riktlinjer, och antingen skickar det direkt eller lägger det i en kö för mänsklig granskning — beroende på hur hög autonominivå man har konfigurerat.

Det sista steget är det viktigaste. Hur mycket autonomi agenten har är ett aktivt beslut, inte ett standardvärde.

Vad fungerar i dag — och vad är fortfarande hype

Jag har nu byggt tillräckligt många agentflöden för att ha en ganska tydlig bild av var linjen går.

Det som faktiskt levererar värde:

Repetitiva, regelbaserade processer med tydliga framgångskriterier. Klassificering och routing av inkommande ärenden. Fakturahantering för standardfakturor. Datainsamling och rapportgenerering. Intern sökning och kunskapsåtervinning mot strukturerade kunskapsbaser.

Det sexiga är det inte. Men det är det som sparar tid och går att mäta. Och mätbarhet är vad som skiljer ett pilot-som-överlever från ett pilot-som-läggs-ner.

Det som kräver mer försiktighet:

Uppgifter med hög undantagsfrekvens, bedömningsintensiva processer eller situationer där ett fel har stora konsekvenser. En agent som hanterar 85% av kundärendena korrekt låter imponerande — tills man inser att de 15% den missar kanske är de känsligaste ärendena. Kunder som redan är frustrerade. Ärenden som kräver empati och nyansering som ingen LLM hanterar konsekvent.

Klarna är ett illustrativt exempel. De gick hårt in på att ersätta mänsklig kundtjänst med AI-agenter och fick backa redan under 2025 — nu är strategin att lägga AI ovanpå mänskliga handläggare, inte i stället för dem. Det är inte ett misslyckande för tekniken. Det är ett misslyckande i hur man satte förväntningarna.

Hallucineringar i agentkedjor är ett underskatttat problem. När en chatbot hallucinerar ser du det i svaret och kan bortse från det. När en agent hallucinerar i ett mellansteg och agerar på det — skickar ett mail, ändrar en post i en databas, fattar ett beslut — sprider sig felet genom hela flödet. Det är ett av de starkaste skälen till att Anthropics permission-first-approach i Claude är välgenomtänkt: agenten ska aldrig kunna göra känsliga saker utan ett explicit godkännande.

Kom igång — tre konkreta steg för svenska företag

Baserat på vad jag sett fungera i praktiken, och vad som inte gör det.

Steg ett: identifiera rätt process.

Inte “var kan AI hjälpa oss?” — det är för brett. Frågan är: vilken process tar mest tid, är mest repetitiv, och har tydliga regler för vad som är rätt svar? Ofta hittar man svaret inte hos IT-avdelningen utan hos den person i organisationen som har en halvtid bortslösad på att flytta information från ett system till ett annat. Det är startpunkten.

Steg två: bygg smått med mänsklig tillsyn.

Resistera frestelsen att börja med ett transformativt projekt. Bygg en agent för den enskilda process du identifierade. Kör den med human-in-the-loop — agenten föreslår, en människa godkänner — under de första veckorna. Det är inte ett tecken på att tekniken inte fungerar. Det är så du lär dig hur just din agent beter sig i just din miljö. Utöka autonomin baserat på vad du observerar, inte vad leverantörens demo visade.

Median time-to-value för agentprojekt som lyckas är 5,1 månader enligt BCG. Det är rimligt. Förvänta dig inte ROI på tre veckor.

Steg tre: välj infrastruktur som håller.

Om du vet att du vill integrera mot mer än ett eller två system — börja med MCP som integrationslager. Det tar lite mer tid att sätta upp initialt men betalar sig snabbt när du slipper skriva om integrationer varje gång du byter modell eller lägger till ett nytt system. Claude Agent SDK är ett naturligt val om du kör med Claude, och det finns produktionsfärdigt med Python och TypeScript.

Och en sista sak: monitorering. Det är den punkt som nästan alltid saknas i första deploymentet och som kostar mest i längden. En agent i produktion behöver loggas, utvärderas och vid behov korrigeras på samma sätt som vilken modell som helst. Data driftar. Processer förändras. En agent som fungerade utmärkt i mars kan bete sig annorlunda i september utan att någon märkt det förrän en kund klagar.

Det är inte ett argument mot agenter. Det är ett argument för att behandla dem som vad de är: system i produktion som kräver förvaltning.

Läs även: AI-agenter 2026 — vad är det och varför pratar alla om det? och Så bygger du en AI-strategi som faktiskt fungerar