Bemærkning om gennemsigtighed i operationsagenten

Hvad er en gennemsigtighedsnote?

Et AI-system omfatter ikke kun teknologien, men også de mennesker, der bruger den, de mennesker, der påvirkes af den, og det miljø, hvor den implementeres. At skabe et system, der passer til det tiltænkte formål, kræver forståelse af, hvordan teknologien fungerer, hvad dens kapaciteter og begrænsninger er, og hvordan man opnår den bedste ydeevne. Microsofts gennemsigtighedsnoter hjælper dig med at forstå, hvordan vores AI-teknologi fungerer, hvilke valg systemejere kan træffe, som påvirker systemets ydeevne og adfærd, samt vigtigheden af at tænke på hele systemet, inklusive teknologien, menneskene og miljøet. Brug gennemsigtighedsnoter, når du udvikler eller implementerer dit eget system, eller del dem med de personer, der bruger eller er berørt af dit system.

Microsofts gennemsigtighedsnoter er en del af en bredere indsats hos Microsoft for at omsætte vores AI-principper til praksis. For mere information, se Microsoft AI-principperne.

Grundlæggende om Real-Time Intelligence operations-agenten

Introduction

Real-Time Intelligence operations-agenten er en platform til at skabe agenter, der overvåger datastrømme, opdager uregelmæssigheder eller forhold og anbefaler handlinger baseret på virkelige begivenheder. Disse agenter automatiserer opgaver, giver indsigt og støtter rettidig beslutningstagning. Ved at konfigurere forretningsmål, videnskilder, handlinger og instruktioner skaber agenten en plan for at spore mål, overvåge data og anvende regler til at opdage forhold. Agenten underretter brugerne med anbefalede handlinger, hvis passende betingelser opstår.

Vigtige udtryk

  • Videnskilde: En databaseforbindelse, som agenten kan bruge til at finde og overvåge data.

  • Værktøj: En indbygget funktionalitet, der gør det muligt for agenten at udføre opgaver, såsom at generere strukturerede forespørgsler fra naturligt sprog, udføre anomalidetektion og sende Microsoft Teams eller e-mails.

  • Tråd: En samtalesession mellem en agent og en bruger. Tråde gemmer beskeder og håndterer automatisk afskæring for at tilpasse indholdet til modellens kontekst.

  • Playbook: Agentens interne repræsentation af de enheder, data, regler og mulige handlinger, der udgør dens betjeningsmanual.

  • Entitet: Et objekt i din virksomhed, som agenten overvåger. For eksempel kan cykler og dokningsstationer i en cykeludlejningsvirksomhed være relevante enheder. I lufthavnsledelsen er indtjekningskøer, sikkerhedskontroller og passagerer relevante enheder.

  • Instanser: Specifikke forekomster af en enhed, såsom Bike 0451 eller Flight MS1234.

  • Regler: Betingelser eller mønstre i data, som agenten overvåger før anbefalinger.

  • Autonome regler: Regler, der har handlinger tilknyttet, som agenten må udføre uden menneskelig bekræftelse først.

Funktionaliteter

Systemfunktionsmåde

Når du opretter en operationsagent, konfigurerer du følgende indstillinger: forretningsmål, videnskilder, mulige handlinger og instruktioner. Med disse input bruger agenten store sprogmodeller (LLM'er) til at skabe en playbook med entiteter, kortlagte data og regler til overvågning. Du kan forfine modellen ved at justere mål og instruktioner. Når du aktiverer agenten, overvåger agenten data i baggrunden. Når forholdene stemmer overens med reglerne, analyserer den dataene, identificerer årsagen og anbefaler handlinger for at nå forretningsmål.

Agenten giver dig besked via Teams med naturlige sprogalarmer, så du holdes opdateret om de indledende anbefalinger. Du kan godkende, afvise eller gøre reglen autonom, så agenten kan handle uden yderligere bekræftelse.

Fordi agenten bruger LLM'er til at skabe agentens playbook og anbefale handlinger, bør du:

  • Gennemgå adfærdsmodellen grundigt, før du starter agenten.

  • Følg nøje agentens anbefalinger, og bekræft den begrundelse, den bruger til at give anbefalinger, før du handler.

  • Gennemgå nøje de autonome regler, du laver sammen med agenten. Disse regler styrer handlingen automatisk.

Bruge sager

Tiltænkt brug

Du kan bruge operationsagenter i forskellige scenarier. Systemets tilsigtede anvendelse omfatter:

  • Cykeludlejningsadministration: Du kan konfigurere driftsagenten til løbende at overvåge cykeltilgængelighed på forskellige stationer ved hjælp af realtidsdata. Sæt et mål for at sikre tilgængeligheden af cykler, så den finder de rigtige forespørgsler til at spore værdien for hver dockingstation.

  • Optimering af vindmøller: Agenten overvåger data fra vindmølleparker og sporer målinger som effektudgang samt retning og vinkel på bladene. Den leder efter afvigelser eller fald i effektudgangen og anbefaler justeringer af driftsparametrene.

  • Lagerlagerbalancering: Agenten overvåger lagerniveauer på tværs af flere lagre i realtid. Sæt et mål om at opretholde optimal lagerfordeling og undgå udsolgte lagre eller overfyldning.

  • Udgiftsovervågning: Giv agenten adgang til data om udgiftsanmodninger og rapporter. Bed den om at markere udgifter, der ikke overholder almindelige regler, og om at opdage uregelmæssigheder i langsigtede mønstre for hver medarbejder eller omkostningscenter.

  • Automatisering af hændelsesrespons: Agenten overvåger IT-infrastrukturlogs og telemetri for tegn på serviceforringelse eller sikkerhedsafvigelser. Målet er at reducere gennemsnitlig tid til detektering (MTTD) og gennemsnitlig tid til opløsning (MTTR).

Overvejelser ved valg af andre use cases

Vi opfordrer dig til at anvende driftsagenter i dine innovative løsninger eller applikationer. Overvej dog følgende faktorer for at sikre, at agenten er egnet til din specifikke brug:

  • Undgå situationer, hvor brug eller misbrug af systemet kan medføre betydelig fysisk eller psykisk skade på en person. For eksempel har scenarier, der diagnosticerer patienter eller ordinerer medicin, potentiale til at forårsage betydelig skade.

  • Undgå scenarier, hvor brug eller misbrug af systemet kan have en konsekvens for livsmuligheder eller juridisk status. Eksempler inkluderer scenarier, hvor AI-systemet eller agenten kan påvirke en persons juridiske status, juridiske rettigheder eller deres adgang til kredit, uddannelse, beskæftigelse, sundhedspleje, bolig, forsikring, sociale ydelser, ydelser, muligheder eller de vilkår, hvorpå de leveres.

  • Undgå situationer med høje indsatser, der kan føre til skade. Modellen, der bruges i en agent, kan afspejle visse samfundsmæssige synspunkter, bias og andet uønsket indhold, der findes i træningsdataene eller eksemplerne i prompten. Derfor advarer vi mod at bruge agenter i situationer med høje indsatser, hvor uretfærdig, upålidelig eller stødende adfærd kan være dyr eller føre til skade.

  • Overvej nøje brugsscenarier i et domæne eller en branche med høje indsatser, hvor agentens handlinger er irreversible eller meget betydningsfulde. Sådanne brancher omfatter, men er ikke begrænset til, sundhedsvæsen, medicin, finans eller juridiske områder.

  • Juridiske og lovgivningsmæssige overvejelser. Organisationer skal vurdere potentielle specifikke juridiske og regulatoriske forpligtelser, når de bruger AI-tjenester og -løsninger, som måske ikke er egnede til brug i alle brancher eller scenarier. Begrænsninger kan variere afhængigt af regionale eller lokale lovmæssige krav. Derudover er AI-tjenester eller -løsninger ikke designet til og kan ikke bruges på måder, der er forbudt i henhold til gældende servicebetingelser og relevante ordensregler.

Begrænsninger

Tekniske begrænsninger, driftsmæssige faktorer og intervaller

  • På trods af intensiv træning fra OpenAI og implementering af ansvarlige AI-kontroller af Microsoft, er AI-tjenester fejlbarlige og probabilistiske. Denne begrænsning gør det udfordrende at blokere alt upassende indhold fuldstændigt, hvilket kan føre til bias, stereotyper eller ubegrundet indhold i AI-genereret indhold. For mere om de kendte begrænsninger ved AI-genereret indhold, se Transparency note for Azure OpenAI, som indeholder referencer til LLM'erne bag operationsagenter.

  • Du kan give operationsagenter et bredt udvalg af instruktioner og mål. Den probabilistiske karakter af LLM-adfærdsmodeller betyder, at du måske ikke kan tilpasse agenterne til dine krav. Beskrivelsen af agentens adfærdsmodel genereres også ved hjælp af AI, så den er måske ikke helt nøjagtig.

  • For at bruge driftsagenter effektivt har du brug for træning til effektivt at interagere med og drage fordel af tjenesten.

  • Avancerede AI-modeller kræver betydelige beregningsressourcer, hvilket kan påvirke ydeevnen, især i ressourcebegrænsede miljøer. Du kan opleve latenstid eller ydeevneproblemer under spidsbelastning.

  • Fordi agenter kombinerer LLM'er med eksterne systemer, kan du have svært ved at forstå, hvorfor den valgte bestemte værktøjer eller kombinationer af værktøjer til at besvare en forespørgsel. Denne udfordring komplicerer tillid og verifikation af agentens output eller handlinger.

  • Organisationer skal tage hensyn til deres særlige juridiske og compliance-forpligtelser, når de bruger driftsagenter, især i regulerede brancher. Microsoft undersøger lovmæssige krav, der gælder for Microsoft som leverandør af teknologien, og adresserer dem i produktet gennem en proces med løbende forbedring.

  • Gennem agentbrugeroplevelsen kan du hurtigt afbryde eller lukke agenten ned når som helst. Denne handling stopper overvågningen af nye data og alle nye handlinger, som agenten måtte anbefale eller foretage. Handlinger, som agenten har kaldt i andre systemer (for eksempel at starte en Power Automate-arbejdsgang), stopper måske ikke med det samme. Agenten igangsætter disse handlinger som uafhængige processer, som du skal styre i de andre produktoplevelser.

  • Beskeder mellem agenten og brugeren leveres via Teams. Når du sender beskeder til agenten, behandler Azure Bot Service beskederne. Brugen af Azure AI Bot Service har en teknisk begrænsning, nemlig at hver bot kun kan have et enkelt globalt endpoint. For Teams-førstepartsbots sendes anmodninger til det globale endpoint og omdirigeres derefter til et regionalt endpoint nær brugeren. Operationsagenter bruger et endpoint placeret i EU, hvilket betyder, at dine brugerdata kan flyttes uden for dit geografiske område til behandling.

Systemydeevne

I AI-systemer er ydeevne ofte knyttet til nøjagtighed (hvor ofte systemet leverer korrekte output). For operationsagenter er ydeevnen mere fleksibel, fordi brugerne kan fortolke output forskelligt. Fejl opstår typisk, når agenten misforstår mål, data eller nøgleenheder i forretningsprocessen. Når agenten kommer med anbefalinger, bør brugerne nøje gennemgå den givne kontekst, før de godkender handlinger.

Bedste fremgangsmåder til forbedring af systemets ydeevne

For at opnå de bedste resultater med operationsagenter, bør du fokusere på at skabe detaljerede, velstrukturerede prompts. De mål og instruktioner, du giver, hjælper agenten med at identificere de korrekte datapunkter og regler for overvågning af ændringer over tid. Forbedre nøjagtigheden ved eksplicit at definere de dataværdier og betingelser, agenten skal overvåge. Skitser tydeligt, hvordan handlinger påvirker resultater, og hvordan overvågede værdier forventes at ændre sig.

Data af høj kvalitet er lige så vigtige. Sørg for, at datastrukturer er velorganiserede med meningsfulde kolonnenavne i stedet for kodede værdier. Flad ud indlejrede hændelsesdata, hvor det er muligt. Denne struktur gør det lettere for agenten effektivt at finde og overvåge de relevante oplysninger.

Evaluering af operationsagenter

Evalueringsmetoder

Operationsagentplatformen anvender en grundig, flertrinsproces til at evaluere nøjagtighed, sikkerhed og løbende forbedring. Kernen i det er en tretrinscyklus: spor,>iterer,>evaluer. Denne cyklus starter med at implementere telemetri for at overvåge agentens beslutningsprocesser, herunder planlægning, ontologidannelse, dataforankring, regelgenerering og eksekvering. Evalueringsdatasæt stammer fra virkelige anvendelsestilfælde og syntetiske data, der introducerer variation. Du måler målinger som nøjagtighed, konvergens, fejlrater og sikkerhed gennem hele agentens livscyklus, fra udvikling til produktion.

Evalueringsmiljøet afspejler produktionsforholdene og lægger vægt på adskillelse mellem udviklings- og evalueringspipelines for at undgå bias. Du kuraterer manuelt de indledende datasæt og definerer forventede ontologier og output på forhånd. Senere skalerer du disse datasæt ved hjælp af syntetisk generering. Datasættene fokuserer på operationelle mål, der er relevante for forretningsovervågning og beslutningstagning. Selvom de repræsenterer virkelige scenarier, inkluderer de endnu ikke bredere brugerpopulationer eller dynamiske målkonfigurationer. Denne tilgang holder evalueringerne fokuserede, reproducerbare og i overensstemmelse med ansvarlige AI-principper.

Evalueringsresultater

Vores evalueringsprocesser anvender en struktureret trace>iterate>evaluer-metodologi . Vi indlejrer evalueringer i hvert trin af agentens beslutningssløjfer. Disse evalueringer bekræftede, at agenten konsekvent producerer nøjagtige ontologier, genererer gyldige og relevante forespørgsler og vælger passende handlinger, der er i overensstemmelse med brugerens mål. Disse resultater understøtter systemets tilpasning til ansvarlighedsmålene, især i forhold til at sikre, at det fungerer som forventet i virkelige operationelle sammenhænge.

De trænings- og testdatasæt, der blev brugt i evalueringen, blev omhyggeligt kurateret for at afspejle et bredt spektrum af operationelle scenarier. Du konstruerede manuelt indledende datasæt ud fra virkelige brugsscenarier med klart definerede forventede output, inklusive ontologier og forespørgselsresultater. Senere udvidede du disse datasæt ved at bruge syntetisk generering til at øge variation og dækning. Du designede datasættene til at repræsentere de typer mål og datamiljøer, agenten forventes at støde på, inklusive variationer i skemakompleksitet, datatilgængelighed og brugerintention. Denne tilgang sikrede, at evalueringen indfangede et repræsentativt udvalg af operationelle faktorer og indstillinger, hvilket understøttede ansvarlig systemudvikling og implementering.

Evalueringsresultaterne påvirkede flere centrale designbegrænsninger i systemet. For eksempel indførte vi grænser for maksimal forespørgselsstørrelse og minimal ontologikompleksitet for at sikre ensartet ydeevne og reducere fejlrater. Selvom resultaterne bredt kan anvendes på mange operationelle overvågnings- og beslutningsstøttescenarier, omfattede den indledende evaluering ikke visse områder, såsom dynamisk målomkonfiguration og samarbejde mellem flere agenter. Disse områder repræsenterer muligheder for fremtidig testning og udvikling.

Evaluering og integration af operationsagenter til dit brug

En agents adfærd formes af de instruktioner, mål, data og handlinger, du giver. Præcise prompts og rene, velorganiserede data med intuitive kolonnenavne forbedrer nøjagtigheden og reducerer fejl.

Når du har konfigureret agenten, validerer du agentens adfærdsmodeller og regler ved at gennemgå KQL-forespørgsler for at sikre overensstemmelse med forretningsprocesserne. Mens regelbaserede betingelser udløser agenten, kan dens LLM-genererede anbefalinger indeholde unøjagtigheder, så gennemgå altid output, før du handler.

Meget responsive agenter kan føre til overdrevne notifikationer eller overforbrug af automatiserede handlinger, hvilket potentielt kan forårsage systemustabilitet. At mindske risici, justere regler, gennemføre regelmæssige revisioner, simulere edge cases og designe grænseflader, der fremmer gennemsigtighed. For eksempel kan du vise selvtillidsscorer og klare forklaringer på anbefalinger.