a16z dialog med 27-årig administrerende direktør: AI Agent har en enorm løftestangseffekt, og langsigtede priser vil være forbundet med lønomkostninger

Indholdsfortegnelse

Højdepunkter

Magien ved LLM'er er, at de er meget fleksible, kan tilpasse sig mange forskellige situationer og har grundlæggende intelligens.
Vi tror på, at UI og UX med tiden vil blive mere og mere naturligt sprogbaseret, fordi det er sådan et Agent-system tænker, eller det er i bund og grund grundlaget for træning af store sprogmodeller (LLM'er).
Hvis du vil have nogen til at acceptere en AI-agent, tager de faktisk en grad af "leap of faith", fordi for mange mennesker er dette et meget ukendt felt.

AI Agent omformer kundeoplevelsen

Jesse Zhang: Hvordan er en agent egentlig konstrueret? Vores opfattelse er, at det med tiden vil blive mere og mere som en naturlig sprogbaseret Agent, fordi det er sådan, de store sprogmodeller (LLM'er) trænes.

På lang sigt, hvis du har en super intelligent agent, der faktisk er som et menneske, kan du vise den ting, forklare den, give den feedback, og den vil opdatere informationen i sit sind.

Du kan forestille dig at have et meget dygtigt menneskeligt teammedlem. Når de først er med, lærer du dem noget, de begynder at arbejde, og så giver du dem feedback og viser dem ny information.

Til sidst vil det udvikle sig i denne retning – det vil blive mere samtaleagtigt og mere baseret på naturligt sprog, og måden mennesker kommunikerer med hinanden på bliver mere naturligt. Og folk vil ikke længere bruge de komplicerede beslutningstræer til at fange krav, som kan fungere, men som er tilbøjelige til at kollapse.

Tidligere var vi nødt til at gøre dette, fordi vi ikke havde en stor sprogmodel. Men nu, med Agentens kontinuerlige fremgang, vil brugeroplevelsen (UX) og brugergrænsefladen (UI) blive mere konverserende.

Derrick Harris: Hej alle sammen, velkommen til A16z AI Podcast. Jeg hedder Derrick Harris, og i dag får jeg selskab af Jesse Zhang, medstifter og administrerende direktør for Decagon, og Kimberly Tan, en partner hos a16z. Kimberly vil moderere diskussionen, og Jesse vil dele sin erfaring med at bygge Decagon og dets produkter.

Hvis du ikke ved meget om det, er Decagon en startup, der leverer AI-agenter til virksomheder for at hjælpe med kundesupport. Disse agenter er hverken chatbots eller LLM wrappers for et enkelt API-kald, men meget tilpassede avancerede agenter, der kan håndtere komplekse arbejdsgange baseret på en virksomheds specifikke behov.

Ud over at forklare, hvorfor de skabte Decagon, og hvordan det er designet til at håndtere forskellige LLM- og kundemiljøer, fortæller Jesse også om fordelene ved en forretningsmodel, der opkræves pr. samtale, og hvordan AI-agenter vil ændre de færdigheder, der kræves af kundesupportledere.

Det er også værd at nævne, at Kimberly for nylig skrev et blogindlæg med titlen "RIP to RPA, The Rise of Intelligent Automation", som vi kort diskuterer i denne episode.

Det er et godt udgangspunkt for at forstå, hvordan automatisering tager fart i forretningsprocesser, og vi vil give et link i shownoterne. Og endelig, som en påmindelse, er indholdet af denne artikel kun til informationsformål og bør ikke betragtes som juridisk, forretningsmæssig, skattemæssig eller investeringsrådgivning, og den bør heller ikke bruges til at evaluere nogen investering eller sikkerhed og er ikke rettet mod nogen a16z-fondsinvestor eller potentiel investor.

Jesse Zhang: En kort introduktion til mig selv. Jeg er født og opvokset i Boulder, og jeg deltog i rigtig mange matematikkonkurrencer og lignende som barn. Jeg studerede datalogi på Harvard, og startede derefter et firma, der også blev bakket op af a16z. Vi blev til sidst opkøbt af Niantic.

Så begyndte vi at bygge Decagon. Vores virksomhed bygger AI-agenter til kundeservice. I begyndelsen gjorde vi dette, fordi vi ville gøre noget, der lå vores hjerte meget nært.

Selvfølgelig behøver ingen at blive undervist om rollen som AI-agenter i kundeservice, vel? Vi har alle været i telefon med flyselskaber, hoteller osv. og ventet i venteposition. Så ideen kom derfra.

Vi talte med en masse kunder for at finde ud af, præcis hvilken slags produkt vi skulle bygge. En ting, der skilte sig ud for os, var, at efterhånden som vi lærte mere om AI-agenter, begyndte vi at tænke på, hvordan fremtiden ville være, når der var mange af dem. Jeg tror, at alle tror, at der vil være masser af AI-agenter i fremtiden.

Det, vi tænker på, er, hvad vil de medarbejdere, der arbejder omkring AI-agenter, gøre? Hvilken slags værktøjer vil de have? Hvordan vil de kontrollere eller se de agenter, de arbejder med eller administrerer?

Så dette er kernen i, hvordan vi byggede virksomheden op omkring dette spørgsmål. Jeg tror også, det er det, der adskiller os lige nu, fordi vi giver disse AI-agenter forskellige værktøjer til at hjælpe de mennesker, vi arbejder med, med at bygge og konfigurere disse agenter, så de ikke længere er en "sort boks". Sådan bygger vi vores brand.

Derrick Harris: Hvad inspirerede dig, siden din sidste virksomhed var en forbrugerorienteret videovirksomhed, til at flytte ind i virksomhedssoftware?

Jesse Zhang: Godt spørgsmål. Jeg tror, at grundlæggere ofte er "emneagnostiske", når det kommer til at vælge et emne, for i virkeligheden, når man nærmer sig et nyt felt, er man normalt ret naiv. Så der er en fordel ved at se tingene fra et nyt perspektiv. Så da vi tænkte over det, var der næsten ingen emnebegrænsninger.

Jeg tror, det er et meget almindeligt mønster for folk med mere kvantitativ baggrund, inklusive mig selv. Efter at have prøvet forbrugerprodukter, har du en tendens til at trække mere mod virksomhedssoftware, fordi virksomhedssoftware har mere konkrete problemer.

Du har faktiske kunder med faktiske behov og budgetter og den slags, og du kan optimere og løse problemer til dem. Forbrugermarkedet er også meget attraktivt, men det er mere baseret på intuition end drevet af eksperimenter. For mig personligt passer virksomhedssoftware bedre.

Kimberly Tan: Først kan vi starte med dette spørgsmål: Hvad er de mest almindelige støttekategorier, som Decagon beskæftiger sig med i dag? Kan du uddybe, hvordan du bruger store sprogmodeller (LLM'er) til at løse disse problemer, og hvad du nu kan gøre, som du ikke kunne før?

Jesse Zhang: Hvis du ser tilbage på tidligere automatisering, har du måske brugt beslutningstræer til at gøre noget simpelt for at bestemme, hvilken vej du skal tage. Men vi har alle brugt chatbots, og det er en ret frustrerende oplevelse.

Ofte kan dit spørgsmål ikke besvares fuldt ud af et beslutningstræ. Så du ender med at blive dirigeret ned ad en spørgsmålssti, der er relateret til spørgsmålet, men som ikke helt matcher det. Nu har vi store sprogmodeller (LLM'er). Magien ved LLM'er er, at de er meget fleksible, kan tilpasse sig mange forskellige situationer og har grundlæggende intelligens.

Når du anvender dette til kundesupport, eller når en kunde stiller et spørgsmål, kan du yde en mere personlig service. Dette er det første punkt, niveauet af personalisering er væsentligt forbedret. Dette låser op for højere metrics. Du kan løse flere problemer, kunderne er mere tilfredse, og kundetilfredsheden stiger.

Det næste naturlige skridt er: Hvis du har denne intelligens, burde du være i stand til at gøre flere af de ting, som mennesker kan. De ting, som mennesker kan gøre, er, at de kan trække data i realtid, de kan handle, og de kan ræsonnere gennem flere trin. Hvis en kunde stiller et relativt komplekst spørgsmål, måske "jeg vil gøre det og det", og AI'en er kun parat til at håndtere det første spørgsmål. LLM er smart nok til at erkende, at der er to spørgsmål her. Først vil det løse det første problem, og derefter hjælpe dig med at løse det andet problem.

Før LLM kom, var dette dybest set umuligt. Så vi ser nu en trinvis ændring i, hvad teknologien er i stand til, og det er takket være LLM.

Kimberly Tan: Hvordan vil du i denne sammenhæng definere en AI-agent? Da ordet "agent" er meget brugt, er jeg nysgerrig efter, hvad det egentlig betyder i forbindelse med Decagon.

Jesse Zhang: Jeg vil sige, at Agent refererer mere til et system, hvor flere LLM (large language model) systemer arbejder sammen. Du har en LLM-invokation, som grundlæggende går ud på at sende en prompt og få et svar. For en agent vil du være i stand til at forbinde flere sådanne påkaldelser, måske endda rekursivt.

For eksempel har du et LLM-kald, der bestemmer, hvordan beskeden skal håndteres, og så kan det udløse andre opkald, der trækker flere data ind, udfører handlinger og gentager, hvad brugeren sagde, måske endda stiller opfølgende spørgsmål. Så for os kan en Agent forstås som et netværk af næsten LLM-kald, API-kald eller anden logik, der arbejder sammen for at give en bedre oplevelse.

Kimberly Tan: Om dette emne kan vi måske tale mere om den Agent-infrastruktur, du faktisk har bygget. Jeg synes, at en meget interessant pointe er, at der er mange demonstrationer af AI-agenter på markedet, men jeg tror, der er meget få eksempler på dem, der rent faktisk kan køre stabilt i et produktionsmiljø. Og det er svært at vide udefra, hvad der er rigtigt, og hvad der ikke er.

Så efter din mening, hvilke aspekter af nutidens AI-agenter klarer sig godt, og hvilke aspekter kræver stadig teknologiske gennembrud for at gøre dem mere robuste og pålidelige?

Jesse Zhang: Min opfattelse er faktisk lidt anderledes. Forskellen mellem at afgøre, om en AI-agent bare er en demo eller "virkelig fungerer", ligger ikke helt i teknologistakken, for jeg tror, at de fleste måske bruger nogenlunde den samme teknologi. Jeg tror, at når du er kommet længere i udviklingen af din virksomhed, for eksempel, vores virksomhed har været etableret i mere end et år, vil du skabe noget helt specifikt, der passer til din use case.

Men i sidste ende kan alle få adgang til den samme model og bruge lignende teknologi. Jeg tror, at den største differentiator af, om en AI-agent kan arbejde effektivt, faktisk ligger i formen af use casen. Det er svært at vide dette i begyndelsen, men når du ser tilbage, vil du opdage, at der er to egenskaber, der er meget vigtige for en AI-agent for at gå ud over demonstration og gå ind i praktisk anvendelse.

Den første er, at den use case, du løser, skal have kvantificerbar ROI (retur on investment). Dette er meget vigtigt, for hvis ROI ikke kan kvantificeres, vil det være svært at overbevise folk om rent faktisk at bruge dit produkt og betale for det. I vores tilfælde er den kvantitative indikator: hvor stor en procentdel af støtteanmodninger løser du? Fordi dette tal er klart, kan folk forstå det – åh, okay, hvis du løser mere, kan jeg sammenligne dette resultat med mine nuværende udgifter og tidsforbrug. Så hvis der er denne indikator, er en anden indikator, der er meget vigtig for os, kundetilfredshed. Fordi ROI let kan kvantificeres, vil folk virkelig tage det til sig.

Den anden faktor er, at brugstilfældene skal være gradvist sværere. Det ville også være meget svært, hvis du havde brug for en agent til at være overmenneskelig fra starten, og løse næsten 100% af use cases. For som vi ved, er LLM'er ikke-deterministiske, du skal have en form for beredskabsplan. Heldigvis er der en fantastisk funktion ved support use cases, og det er, at du altid kan eskalere til et menneske. Selvom du kun kan løse halvdelen af problemerne, er det stadig meget værdifuldt for folk.

Så jeg tror, at support har denne egenskab, der gør den meget velegnet til AI Agent. Jeg tror, der er mange andre områder, hvor folk kan skabe imponerende demoer, hvor du ikke engang behøver at kigge nærmere for at forstå, hvorfor AI Agent ville være nyttig. Men hvis det skal være perfekt fra starten, så er det meget svært. Hvis det er tilfældet, vil næsten ingen prøve eller bruge det, fordi konsekvenserne af dets ufuldkommenhed kan være meget alvorlige – for eksempel med hensyn til sikkerhed.

For eksempel, når folk laver simuleringer, har de altid denne klassiske tanke: "Åh, det ville være fantastisk, hvis LLM kunne læse dette." Men det er svært at forestille sig, at nogen siger: "Okay, AI-agent, gå efter det. Jeg tror, du kan gøre det." For hvis den laver en fejl, kan konsekvenserne blive meget alvorlige.

Jesse Zhang: Dette bestemmes normalt af vores kunder, og faktisk ser vi en meget bred vifte af forskelle. I den ene yderlighed får nogle mennesker virkelig deres agent til at ligne et menneske, så der er en menneskelig avatar, et menneskeligt navn, og svarene er meget naturlige. På den anden side siger agenten blot, at det er AI og gør dette klart for brugeren. Jeg tror, at de forskellige virksomheder, vi arbejder med, har forskellige holdninger til dette.

Normalt, hvis du er i en reguleret branche, skal du gøre dette klart. Det, jeg finder interessant nu, er, at kundernes adfærd ændrer sig. Fordi mange af vores kunder får en masse feedback på sociale medier, som f.eks. "Åh min Gud, dette er den første chatoplevelse, jeg nogensinde har prøvet, som faktisk føles så ægte," eller "Dette er bare magi." Og det er fantastisk for dem, for nu lærer deres kunder, hej, hvis det er en AI-oplevelse, kan det faktisk være bedre end et menneske. Det var ikke tilfældet tidligere, fordi de fleste af os har haft den slags telefonkundeserviceoplevelse tidligere: "Okay, AI, AI, AI..."

Kimberly Tan: Du nævnte begrebet personalisering et par gange. Alle bruger den samme underliggende teknologiarkitektur, men de har forskellige personaliseringsbehov med hensyn til supporttjenester. Kan du tale om dette? Specifikt, hvordan opnår du personalisering, så folk kan sige online: "Min Gud, det er den bedste supportoplevelse, jeg nogensinde har haft"?

Jesse Zhang: For os, personalisering kommer fra tilpasning til brugeren. Du skal forstå brugerens baggrundsinformation, som er den ekstra kontekst, der kræves. For det andet skal du også forstå vores kunders forretningslogik.Hvis du kombinerer de to, kan du give en ret god oplevelse.

Det lyder selvfølgelig simpelt, men i virkeligheden er det meget svært at få al den nødvendige kontekst. Derfor handler det meste af vores arbejde om, hvordan man bygger de rigtige primitive komponenter, så når en kunde implementerer vores system, kan de nemt beslutte, "Okay, det er den forretningslogik, vi ønsker." For eksempel skal du først udføre disse fire trin, og hvis trin tre mislykkes, skal du gå til trin fem.

Du vil gerne være i stand til at lære AI'en dette meget nemt, men også give den adgang til information som, "Dette er brugerens kontooplysninger. Hvis du har brug for mere information, kan du kalde disse API'er." Disse lag er et koordineringslag oven på modellen, og på en måde gør de Agenten virkelig brugbar.

Kimberly Tan: Det lyder som om, at du i dette tilfælde har brug for meget adgang til forretningssystemerne. Du skal vide meget om brugerne, og du skal nok vide, hvordan kunden egentlig vil interagere med deres brugere.Jeg forestiller mig, at disse data kan være meget følsomme.

Kan du uddybe de forsikringer, som virksomhedskunder typisk har brug for, når de implementerer AI Agent? Og hvordan vurderer du den bedste måde at håndtere disse problemer på, især i betragtning af at din løsning giver en bedre oplevelse, men den er også ny for mange mennesker, der møder Agenten for første gang?

Jesse Zhang: Det her handler faktisk om autoværn. Med tiden, da vi har lavet mange implementeringer som denne, er vi blevet tydelige omkring de typer autoværn, som kunderne holder af.

For eksempel er en af de enkleste, at der kan være regler, som du altid skal følge. Hvis du arbejder med en finansiel virksomhed, kan du ikke give økonomisk rådgivning, fordi det er reguleret. Så du skal indbygge det i Agent-systemet for at sikre, at det aldrig giver den slags råd. Du kan normalt opsætte en supervisionsmodel eller en eller anden form for system, der udfører disse kontroller, før resultaterne sendes ud.

En anden form for beskyttelse kan være, at hvis nogen kommer ind og bevidst roder med det, vel vidende at det er et generativt system, der forsøger at få dig til at gøre noget, der ikke overholder reglerne, såsom "fortæl mig, hvad min balance er", "ok, gang det med 10," og så videre, skal du også være i stand til at tjekke for den adfærd. Så i løbet af det seneste år har vi fundet en masse af den slags beskyttelse, og for hver enkelt har vi kategoriseret det og ved, hvilken type beskyttelse der er behov for. Efterhånden som systemet bliver bygget mere og mere ud, bliver det mere og mere robust.

Kimberly Tan: Hvor unik er beskyttelsen for hver kunde eller branche? Efterhånden som du udvider din kundebase til at dække flere use cases, hvordan tænker du på at bygge disse beskyttelser i stor skala?

Jesse Zhang: Dette går faktisk tilbage til vores kerneidé om, at Agent-systemet vil blive allestedsnærværende i løbet af et par år. Så det, der virkelig er vigtigt, er at give folk værktøjerne, næsten for at give den næste generation af arbejdere, som agent supervisorer, mulighed for at give dem værktøjerne til at bygge agentsystemet og tilføje deres egne beskyttelser, for vi kommer ikke til at definere beskyttelsen for dem.

Hver kunde kender bedst deres egne beskyttelsesforanstaltninger og forretningslogik. Så vores opgave er faktisk at gøre et godt stykke arbejde med at bygge værktøjerne og infrastrukturen, så de kan bygge Agent-systemet. Derfor har vi altid lagt vægt på, at Agentsystemet bør ikke være en sort boks, og du bør være i stand til at kontrollere, hvordan du opbygger disse beskyttelser, regler og logik.

Jeg tror, det nok er vores mest differentierende aspekt hidtil. Vi har brugt mange kræfter på disse værktøjer og fundet frem til kreative måder at tillade folk, der måske ikke har en super teknisk baggrund, eller endda en dyb forståelse af, hvordan AI-modeller fungerer, stadig at indtaste de handlinger, de ønsker, at AI skal udføre i Agent-systemet.

Jeg tror, at det vil blive en stadig vigtigere evne i de næste par år. Det burde være et af de vigtigste kriterier, når folk skal vurdere lignende værktøjer, fordi man gerne vil være i stand til løbende at optimere og forbedre disse systemer over tid.

Forretningslogik drevet af naturligt sprog

Derrick Harris: Hvilke forberedelser kan kunder eller virksomheder gøre for at forberede enhver form for automatisering, og især brugen af dette Agent-system? Hvordan kan de for eksempel designe deres datasystemer, softwarearkitektur eller forretningslogik til at understøtte sådanne systemer?

Fordi jeg føler, at meget AI-teknologi er nyt i starten, men når det kommer til eksisterende legacy-systemer, støder det ofte på en masse kaos.

Jesse Zhang: Hvis nogen bygger fra bunden nu, er der en masse bedste praksis, der kan gøre dit arbejde lettere. For eksempel hvordan du strukturerer din videnbase. Vi har skrevet om nogle af disse, og introduceret nogle metoder, der kan gøre det nemmere for AI at indtage information og forbedre dens nøjagtighed. Et specifikt forslag er at opdele videnbasen i modulære dele i stedet for at have én stor artikel med flere svar.

Når du opsætter API'en, kan du gøre dem mere egnede til Agent-systemet, og indstille tilladelser og output på en måde, der gør det nemt for Agent-systemet at indtage information uden at skulle lave en masse beregninger for at finde svaret. Det er nogle taktiske foranstaltninger, der kan tages, men jeg vil ikke sige, at der er noget, der skal gøres for at bruge Agent-systemet.

Derrick Harris: God dokumentation er altid vigtig, i bund og grund handler det om at organisere information effektivt.

Kimberly Tan: Det lyder som om, at hvis du forsøger at lære folk, hvordan man dirigerer Agent-systemet til at fungere på en måde, der passer bedst til deres kunder eller specifikke brugssager, så kan det være nødvendigt med en masse eksperimenter med UI- og UX-designet, eller at du skal slå nye spor i dette helt nye felt, fordi det er meget anderledes end traditionel software.

Jeg er nysgerrig, hvordan tænker du om dette? Hvordan skal UI og UX se ud i en Agent-first-verden? Hvordan tror du, det vil ændre sig i de næste par år?

Jesse Zhang: Jeg vil ikke sige, at vi har løst dette problem. Jeg tror, vi måske har fundet et lokalt optimum, der fungerer for vores nuværende kunder, men det er stadig et igangværende forskningsområde for os og mange andre.

Kerneproblemet går tilbage til det, vi nævnte tidligere, som er, at du har et Agent-system. For det første, hvordan kan du tydeligt se, hvad den gør, og hvordan den træffer beslutninger? Hvordan kan du så bruge disse oplysninger til at beslutte, hvad der skal opdateres, og hvilken feedback der skal gives til AI? Det er her UI-elementerne kommer sammen, især den anden del.

Vi tror, at UI og UX med tiden bliver mere og mere naturligt sprogbaseret, fordi det er sådan, Agent-systemet tænker, eller det er i bund og grund grundlaget for at træne store sprogmodeller (LLM'er).

I yderste konsekvens, hvis du har en superintelligent agent, der grundlæggende tænker som et menneske, kan du vise den ting, forklare ting til den, give den feedback, og den vil opdatere i sit eget "sind". Du kan forestille dig at have en meget dygtig person med i dit team, du lærer ham noget, han begynder at arbejde, og så bliver du ved med at give ham feedback, du kan vise ham nye ting, nye dokumenter, diagrammer osv.

Jeg tror, at det i ekstreme tilfælde vil udvikle sig i denne retning: ting bliver mere samtale, mere naturligt sprogbaseret, og folk holder op med at bygge systemer med komplekse beslutningstræer, som de plejede, med at fange det, man ønsker, men denne tilgang kan let bryde sammen. Vi plejede at skulle gøre dette, fordi der ikke var nogen LLM'er dengang, men nu hvor agentsystemer bliver mere og mere kraftfulde, vil UI og UX blive mere konverserende.

Kimberly Tan: For omkring halvandet år siden, da Decagon først startede, var der en generel opfattelse af, at LLM var meget anvendelig til mange use cases, men faktisk var det bare en slags "GPT wrapper", hvor virksomheder bare kunne kalde en underliggende model gennem en API og øjeblikkeligt løse deres supportproblemer.

Men naturligvis, da virksomheder vælger at bruge løsninger som Decagon i stedet for at gå direkte ned ad den vej, viser det sig, at det ikke er tilfældet. Jeg tænkte på, om du kunne forklare, hvorfor det er tilfældet. Hvad gjorde egentlig udfordringerne ved at bygge internt mere komplekse end forventet? Hvilke misforståelser havde de om konceptet?

Jesse Zhang: Der er ikke noget galt med at være en "GPT-indpakning", man kan sige, at Purcell er en AWS-indpakning eller sådan noget. Normalt, når folk bruger dette udtryk, betyder det noget nedsættende.

Min personlige opfattelse er, at hvis du bygger et agentsystem, vil du per definition helt sikkert bruge LLM som et værktøj. Så du bygger faktisk oven på noget, der allerede eksisterer, ligesom du normalt ville bygge på AWS eller GCP.

Men det virkelige problem, du kan løbe ind i, er, hvis den software, du bygger oven på LLM, ikke er "tung" eller kompleks nok til at gøre en forskel.

Når vi ser tilbage, er det, vi sælger, grundlæggende software. Vi er faktisk som en almindelig softwarevirksomhed, bortset fra at vi bruger LLM som en del af softwaren og som et af værktøjerne. Men når folk køber denne slags produkter, vil de primært have selve softwaren. De vil have værktøjer, der kan overvåge AI'en, som kan grave dybt ned i detaljerne i hver samtale, AI'en har, som kan give feedback, som konstant kan bygge og justere systemet.

Så det er kernen i vores software. Selv med selve Agent-systemet er problemet, folk har, at det er fedt at lave en demo, men hvis du vil gøre den produktionsklar og virkelig kundevendt, skal du løse en masse langvarige problemer, såsom at forhindre "illusion"-fænomenet og håndtere dårlige skuespillere, der forsøger at skabe kaos. Vi skal også sikre os, at latensen er lav nok, tonen er passende, og så videre.

Vi talte med en masse hold, og de lavede nogle eksperimenter, byggede en foreløbig version, og så ville de indse, "Åh, virkelig, vi ønsker ikke at være dem, der bliver ved med at bygge disse detaljer i senere faser." De ønskede heller ikke at være dem, der bliver ved med at tilføje ny logik til kundeserviceteamet. Så på dette tidspunkt virker det mere hensigtsmæssigt at vælge at samarbejde med andre.

Kimberly Tan: Du nævnte nogle langsigtede problemer, såsom behovet for at håndtere dårlige skuespillere osv.Jeg tror, at mange lyttere, der overvejer at bruge AI Agent, er bekymrede for nye sikkerhedsangrebsstier, der kan opstå efter introduktionen af LLM'er, eller de nye sikkerhedsrisici, der kan opstå efter introduktionen af Agent-systemet. Hvad synes du om disse spørgsmål? Og hvad er de bedste praksisser for at sikre førsteklasses virksomhedssikkerhed, når de beskæftiger sig med Agent?

Jesse Zhang: Sikkerhedsmæssigt er der nogle oplagte foranstaltninger, der kan tages, som jeg nævnte tidligere, såsom behovet for beskyttelsesforanstaltninger. Det centrale spørgsmål er, at folks bekymringer om LLM'er er, at de ikke er deterministiske.

Men den gode nyhed er, at du faktisk kan lægge de fleste af de følsomme og komplekse operationer bag en deterministisk mur, og beregningen sker der, når den kalder API. Så du er ikke helt afhængig af LLM til at håndtere det, og det undgår mange af kerneproblemerne.

Men der er stadig situationer, hvor for eksempel en dårlig skuespiller blander sig, eller nogen forsøger at få systemet til at hallucinere. Vi har observeret, at hos mange af de store kunder, vi arbejder med, vil deres sikkerhedsteams gå ind og dybest set udføre en "rødt team"-test på vores produkter, hvor de bruger uger på kontinuerligt at lancere forskellige mulige angreb på systemet for at forsøge at finde sårbarheder. Efterhånden som AI Agent bliver mere og mere populær, kan vi se dette ske oftere og oftere, fordi dette er en af de bedste måder at teste om et system er effektivt. Det er at kaste noget på den gennem en rød holdtest og se, om den kan bryde igennem forsvaret.

Der er også startups, der udvikler red team-værktøjer eller sætter folk i stand til selv at lave den slags tests, hvilket er en trend, vi ser lige nu. Mange af de virksomheder, vi arbejder med, vil på et senere tidspunkt i salgscyklussen have deres sikkerhedsteam, eller arbejde med et eksternt team, til at stressteste systemet. For os er det et must at kunne bestå den slags tests. Så i sidste ende er det det, det kommer ned til.

Derrick Harris: Er det noget, du opfordrer dine kunder til at gøre? For når vi taler om AI-politikker, nævner vi et vigtigt aspekt, som er applikationslaget, og vi lægger vægt på at putte den ansvar på brugerne af LLM og de personer, der kører applikationen, i stedet for blot at give modellen selv skylden. Det vil sige, at kunderne skal udføre røde teamtests, identificere specifikke use cases og angrebsstier og bestemme, hvilke sårbarheder der skal beskyttes, i stedet for blot at stole på den sikkerhedsbeskyttelse, der allerede er sat op af OpenAI eller andre virksomheder.

Jesse Zhang: Jeg er fuldstændig enig. Jeg tror også, at der kan dukke en ny bølge af notifikationskrav op, svarende til SOC 2-certificeringen og HIPAA-certificeringen, som alle gør nu, og som er påkrævet i forskellige brancher. Normalt, når du sælger et generisk SaaS-produkt, vil kunderne kræve penetrationstest, og vi skal også levere vores penetrationstestrapport. For AI Agent kan der være lignende krav i fremtiden, og nogen vil måske navngive det, men dette er dybest set en ny måde at teste, om Agent-systemet er kraftfuldt nok.

Kimberly Tan: En ting, der er interessant, er, at alle tydeligvis er meget begejstrede for de nye modelgennembrud og teknologiske gennembrud, som bliver introduceret af alle de store laboratorier. Som AI-virksomhed laver du naturligvis ikke din egen research, men du udnytter den forskning og bygger en masse software omkring det for at levere til slutkunden.

Men dit arbejde er baseret på hurtigt skiftende teknologi. Jeg er nysgerrig, som en anvendt AI-virksomhed, hvordan kan du følge med i nye teknologiske ændringer og forstå, hvordan de påvirker virksomheden, samtidig med at du er i stand til at forudsige din egen produktkøreplan og opbygge brugerbehov? Mere generelt, hvilke strategier bør anvendte AI-virksomheder anvende i lignende situationer?

Jesse Zhang: Du kan faktisk dele hele stakken op i forskellige dele. Eksempelvis ligger LLM i bunden, hvis man ser på applikationslaget. Du har måske nogle værktøjer i midten, der hjælper dig med at administrere LLM eller lave nogle evalueringer og sådan noget. Så er den øverste del dybest set det, vi byggede, som faktisk er som en standard SaaS.

Så det meste af vores arbejde er faktisk ikke så forskelligt fra almindelig software, bortset fra at vi har en ekstra forskningskomponent – LLM ændrer sig for hurtigt. Vi skal undersøge, hvad de kan, hvad de er gode til, og hvilken model der skal bruges til at udføre en bestemt opgave. Dette er et stort problem, fordi både OpenAI og Anthropic lancerer nye teknologier, og Gemini forbedres også gradvist.

Derfor, du skal have din egen evalueringsmekanisme for at forstå, hvilken model der er egnet til brug i hvilken situation. Nogle gange skal man også finjustere, men spørgsmålet er: hvornår skal man finjustere? Hvornår er det værd at finjustere? Dette er sandsynligvis de vigtigste forskningsspørgsmål relateret til LLM'er, som vi fokuserer på. Men indtil videre føler vi i hvert fald ikke, at SaaS ændrer sig hurtigt, for vi er ikke afhængige af mellemlaget. Så dybest set er det LLM'erne, der ændrer sig. De ændrer sig ikke ret ofte, og når de gør det, er det normalt en opgradering. For eksempel blev Claude 3.5-sonnet opdateret for et par måneder siden, og på det tidspunkt tænkte vi: "Okay, skal vi skifte til den nye model i stedet for at fortsætte med at bruge den gamle?"

Vi skal bare køre en række vurderinger, og når vi først er skiftet til den nye model, tænker vi ikke mere over det, fordi du allerede bruger den nye model. Så kom o1-versionen ud, og situationen var den samme. Tænk over, hvor det kan bruges. I vores tilfælde er o1 lidt langsom til de fleste kundevendte use cases, så vi kan bruge det til noget baggrundsarbejde. I sidste ende skal vi bare have et godt system til modelforskning.

Kimberly Tan: Hvor ofte evaluerer du en ny model og beslutter dig for, om du vil erstatte den?

Jesse Zhang: Vi evaluerer hver gang en ny model udkommer. Du skal sørge for, at selvom den nye model er smartere, så bryder den ikke nogle af de use cases, du allerede har bygget. Dette kan ske. For eksempel kan den nye model generelt være smartere, men i nogle ekstreme tilfælde klarer den sig dårligt på et A/B-valg i et af dine arbejdsgange. Det er det, vi vurderer til.

Jeg tror overordnet set, at den type intelligens, vi holder mest af, er det, jeg vil kalde "instruktionsfølgende evner." Vi ønsker, at modellen bliver bedre og bedre til at følge instruktioner. Hvis det er tilfældet, så er det bestemt gavnligt for os, og det er meget godt.

Det ser ud til, at nyere forskning har fokuseret mere på den type intelligens, der involverer ræsonnement, såsom bedre programmering og bedre matematiske operationer. Dette hjælper os også, men det er ikke så vigtigt som forbedringen af instruktionsfølgeevnen.

Kimberly Tan: Et meget interessant punkt, du nævnte, og jeg tror, det også er meget unikt for Decagon, er, at du har bygget en masse evalueringsinfrastruktur internt for at sikre, at du ved præcis, hvordan hver model klarer sig under det sæt af test, du leverer.

Kan du uddybe dette? Hvor vigtig er denne interne evalueringsinfrastruktur, og hvordan giver den dig og dine kunder tillid til agentens præstation? Fordi nogle af disse evalueringer også er kundevendte.

Jesse Zhang: Jeg tror, det er meget vigtigt, for uden denne evalueringsinfrastruktur ville det være meget svært for os at gentage hurtigt.

Hvis du føler, at enhver ændring har stor sandsynlighed for at bryde noget, så vil du ikke foretage ændringer hurtigt. Men hvis du har en evalueringsmekanisme, så når der er en større ændring, en modelopdatering eller der kommer noget nyt, kan du direkte sammenligne det med alle evalueringstestene. Hvis evalueringsresultaterne er gode, kan du føle: okay, vi har lavet en forbedring, eller du kan frigive det med selvtillid uden at bekymre dig for meget.

Så på vores felt, evaluering kræver input fra kunden, fordi kunden er den, der afgør, om noget er korrekt eller ej. Selvfølgelig kan vi tjekke nogle problemer på højt niveau, men som regel giver kunden specifikke use cases og fortæller os, hvad det rigtige svar er, eller hvad det skal være, hvilken tone den skal holde, hvad den skal sige.

Vurderingen er baseret på dette. Så vi skal sikre os, at vores vurderingssystem er robust nok. I starten byggede vi det selv, og det er ikke så svært at vedligeholde. Vi ved også, at der er nogle vurderingsfirmaer, og vi har undersøgt nogle af dem. Måske vil vi på et tidspunkt overveje, om vi skal adoptere dem, men indtil videre er vurderingssystemet ikke længere et smertepunkt for os.

Kimberly Tan: Et meget populært emne i dag er multimodalitet, hvilket betyder, at AI-agenter skal kunne interagere på tværs af alle de former, som mennesker bruger i dag, hvad enten det er tekst, video, stemme osv. Jeg ved, at Decagon startede som tekstbaseret. Fra dit perspektiv, hvor vigtigt er multimodalitet til AI-agenter? Hvad tror du er tidsrammen for det at blive mainstream eller endda en standard?

Jesse Zhang: Det er vigtigt, og fra et virksomhedsperspektiv er det ikke specielt svært at tilføje en ny modalitet. Det er ikke simpelt, men kernen er: Hvis du løser andre problemer, som dem jeg nævnte – for eksempel at bygge AI'en, overvåge den og have den rigtige logik – så er det ikke det sværeste at tilføje en ny modalitet. Så for os giver det meget mening at have alle modaliteterne, og det udvider vores marked. Vi er grundlæggende modalitets-agnostikere, og vi bygger vores egen agent for hver modalitet.

Generelt er der to begrænsende faktorer: for det første, er kunden klar til at tage den nye modalitet i brug? Jeg synes, det giver rigtig god mening at starte med tekst, for det er den måde, folk adopterer mest aktivt på, og det er mindre risikabelt for dem, lettere at overvåge og lettere at forstå. Den anden store modalitet er stemme. Jeg tror naturligvis, at der stadig er plads på markedet, og brugeraccepten af stemme skal stadig forbedres. I øjeblikket ser vi nogle early adopters, der er begyndt at adoptere stemmeagenter, hvilket er meget spændende. Det andet aspekt er de tekniske udfordringer. De fleste er enige om, at barren er sat højere for stemme. Hvis du taler med nogen i telefonen, har du brug for meget kort stemmeforsinkelse. Hvis du afbryder nogen, skal de reagere naturligt.

Fordi latensen af tale er lavere, skal du være mere klog i den måde, du regner på. Hvis du er i en chat, og responstiden er fem til otte sekunder, bemærker du det næsten ikke, og det føles meget naturligt. Men hvis det tager fem til otte sekunder at svare på telefonen, føles det lidt unaturligt. Så der er flere tekniske udfordringer med tale. Efterhånden som disse tekniske udfordringer er løst, og interessen for at indføre tale stiger på markedet, vil tale som en ny modalitet blive mainstream.

En forretningsmodel, der springer over tillid

Kimberly Tan: Før vi fortsætter, vil jeg gerne tale lidt mere om AI Agent-forretningsmodellen. Når du først bygget AI-agent eller diskuteret med kunder det system, de bruger, de data, de behandler, og deres bekymringer, var der noget, der overraskede dig? Hvad er nogle af de ikke-intuitive eller overraskende ting, som Decagon var nødt til at gøre for bedre at kunne betjene virksomhedskunder?

Jesse Zhang: Jeg tror, at det mest overraskende var, i hvor høj grad folk var villige til at tale med os, da vi først startede. Vi var trods alt kun to. Vi havde begge startet firmaer før, så vi kendte mange mennesker, men alligevel er samtalen for enhver iværksætter, når du vil have gang i en henvisningssamtale, hvis det, du siger, ikke er særlig overbevisende, samtalen som regel ret lunken.

Men da vi begyndte at tale om denne use case, fandt jeg det faktisk ret overraskende, hvor begejstrede folk var for at tale om det. Fordi ideen virker så indlysende. Du tænker måske, at da det er så indlysende en idé, må en anden allerede have gjort det, eller der skal allerede være en løsning, eller en anden må allerede være kommet med en form for løsning. Men jeg synes, vi fangede et godt øjeblik, den use case er virkelig stor, og folk bekymrer sig virkelig om den. Som jeg nævnte før, er den use case virkelig velegnet til at tage AI Agent og skubbe den i produktion, fordi du kan implementere den trinvist og være i stand til at spore ROI.

Det var en glædelig overraskelse for mig, men selvfølgelig er der meget arbejde, der skal gøres efter det, du skal arbejde med kunderne, du skal bygge produktet, du skal finde ud af, hvilken vej du skal gå. I den indledende fase var det virkelig en overraskende opdagelse.

Derrick Harris: Kimberly, jeg føler, at jeg burde nævne det blogindlæg, du skrev, RIP til RPA, som berører en masse den automatiseringsopgaver og opstart.Tror du, at der er et fænomen, hvor disse automatiserede opgaver eller løsninger ikke er så ideelle, så folk altid leder efter en bedre måde?

Kimberly Tan: Ja, det synes jeg. Jeg vil gerne sige et par ting. For det første, hvis en idé er indlysende for alle, men der ikke er en klar virksomhed til at løse den, eller ingen peger på en virksomhed og siger: "Du skal bruge dette", så betyder det, at problemet faktisk ikke er blevet løst.

På en måde er det en helt åben mulighed for en virksomhed at udvikle en løsning. For, som du sagde, har vi fulgt Decagon som investor fra begyndelsen. Vi har set dem navigere i den kreative labyrint, og da de besluttede sig for at gå i denne retning og begyndte at tale med kunderne, blev det klart, at alle kunder var desperate efter en eller anden form for native AI-aktiveret løsning. Dette er et af de problemer, jeg nævnte tidligere, hvor mange mennesker tror, at det blot er en GPT-indpakning. Men den kundeinteresse, Decagon har modtaget fra begyndelsen, har fået os tidligt til at indse, at mange af disse spørgsmål er meget mere komplicerede, end folk forventer.

Jeg tror, at dette fænomen sker på tværs af brancher, uanset om det er kundeservice eller professionel automatisering i visse vertikaler. Jeg tror, at et af de undervurderede punkter er, som Jesse nævnte tidligere, klart at kunne måle investeringsafkastet (ROI) ved at automatisere opgaver. Fordi, hvis du vil få nogen til at acceptere en AI-agent, tager de faktisk en vis grad af "leap of faith", fordi det er et meget ukendt territorium for mange mennesker.

Hvis du kan automatisere en meget specifik proces, der enten er en åbenlys indtægtsskabende proces, eller en proces, der tidligere har udgjort en flaskehals i forretningen, eller et større omkostningscenter, der stiger lineært med kundevækst eller omsætningsvækst, så bliver det nemmere at få accept for AI Agenten. Evnen til at omdanne sådanne problemer til en mere produktiseret proces, der kan skaleres som traditionel software, er meget attraktiv.

Kimberly Tan: Jeg har et sidste spørgsmål, før vi går videre. Jeg kan huske, at Jesse i vores tidligere diskussioner altid sagde, at den største udfordring for virksomheder, der adopterer software eller AI-agenter, ville være hallucinationer. Men du fortalte mig engang, at dette faktisk ikke er hovedproblemet. Kan du uddybe, hvorfor opfattelsen af hallucinationer er noget misvisende, og hvad folk egentlig er mere bekymrede over?

Jesse Zhang: Jeg tror, folk bekymrer sig om hallucinationer, men de er mere bekymrede over den værdi, de kan give. Næsten alle de virksomheder, vi arbejder med, fokuserer på de samme få problemstillinger, næsten præcis det samme: Hvor mange procent af samtalerne kan du løse? Hvor tilfredse er mine kunder? Så kan hallucinationsproblematikken klassificeres som en tredje kategori, nemlig hvor præcis det er. Generelt er de to første faktorer vigtigere ved evaluering.

Lad os sige, at du taler med en ny virksomhed, og du har gjort et rigtig godt stykke arbejde med de to første faktorer, og du har fået en masse støtte fra ledelsen og alle på holdet. De siger: "Åh min Gud, vores kundeoplevelse er anderledes. Hver kunde har nu deres egen personlige assistent, som til enhver tid kan kontakte os. Vi har givet dem gode svar, de er meget tilfredse, og det er flersproget og tilgængeligt 24/7." Det er bare en del af det, og du har også sparet mange penge.

Så når først du når de mål, får du en masse støtte og en masse medvind til at drive arbejdet. Selvfølgelig skal illusionsspørgsmålet i sidste ende løses, men det er ikke det, de er mest bekymrede over. Måden at løse illusionen på er på samme måde, som jeg nævnte før – folk vil teste dig. Der kan være en proof-of-concept-fase, hvor du rent faktisk kører rigtige samtaler, og de har teammedlemmer, der overvåger og tjekker for nøjagtighed. Hvis det går godt, så går det som regel igennem.

Som jeg nævnte før, kan du også opsætte nogle strenge beskyttelsesforanstaltninger for følsomme oplysninger, som du ikke nødvendigvis behøver at gøre følsomt indhold generisk. Så illusionsspørgsmålet er et diskussionspunkt i de fleste transaktioner. Det er ikke et uvæsentligt emne. Du vil gennemgå denne proces, men den er aldrig i fokus for samtalen.

Kimberly Tan: Lad os nu gå videre til forretningsmodellen for AI Agent. I dag er der et stort emne om, hvordan man prissætter disse AI-agenter.

Historisk set er mange SaaS-software prissat efter antallet af pladser, fordi de er workflow-software, der retter sig mod individuelle medarbejdere og bruges til at forbedre medarbejdernes produktivitet. AI Agent er dog ikke knyttet til individuelle medarbejderes produktivitet som traditionel software.

Så mange mennesker tror, at prissætningsmetoden baseret på antallet af pladser måske ikke længere er anvendelig. jeg er nysgerrig på hvordan du tænkte over dette dilemma i de tidlige dage, og hvordan du endelig besluttede at prissætte Decagon. Hvad tror du også vil være den fremtidige trend for softwarepriser, efterhånden som AI Agent bliver mere og mere almindelig?

Jesse Zhang: Vores syn på dette spørgsmål er, at tidligere var software prissat pr. sæde, fordi dets omfang var nogenlunde baseret på antallet af personer, der kunne bruge softwaren. Men for de fleste AI-agenter afhænger den værdi, du giver, ikke af antallet af personer, der vedligeholder den, men snarere af mængden af produceret arbejde. Dette stemmer overens med det punkt, jeg nævnte tidligere: Hvis investeringsafkastet (ROI) er meget målbart, så er niveauet af arbejdsoutput også meget klart.

Vores opfattelse er, at prissætning efter antal pladser absolut ikke gælder. Du kan prissætte baseret på værkets output. Så den prismodel, du tilbyder, bør være, at jo mere arbejde, desto mere betaler du.

For os er der to oplagte måder at prissætte på. Du kan enten prissætte samtaler, eller du kan prissætte de samtaler, som AI'en rent faktisk løser. Jeg tror, at en af de interessante erfaringer, vi lærte, er, at de fleste mennesker valgte samtaleprismodellen. Årsagen er, at den største fordel ved prissætning efter løsning er, at du betaler for hvad den AI gør.

Men spørgsmålet, der følger, er, hvad der betragtes som en "løsning"? Først og fremmest er der ingen, der ønsker at gå i dybden med dette, fordi det bliver: "Hvis nogen kommer vred, og du sender dem væk, hvorfor skal vi så betale for det?"

Dette skaber en akavet situation og gør også incitamenterne for AI-udbydere lidt mærkelige, fordi fakturering efter løsning betyder, "Vi skal bare løse så mange samtaler som muligt og skubbe nogle mennesker væk." Men der er mange tilfælde, hvor det er bedre at eskalere problemet frem for blot at skubbe det væk, og kunderne bryder sig ikke om denne form for håndtering. Derfor vil fakturering ved samtale give mere enkelhed og forudsigelighed.

Kimberly Tan: Hvor længe tror du, den fremtidige prismodel vil vare?Fordi lige nu, når du nævner ROI, er det normalt baseret på tidligere udgifter, der kunne have været brugt til at dække lønomkostninger. Efterhånden som AI-agenter bliver mere almindelige, tror du så, at AI på længere sigt vil blive sammenlignet med lønomkostninger, og at dette er et passende benchmark? Hvis ikke, hvordan ser du langsigtet prissætning ud over lønomkostningerne?

Jesse Zhang: Jeg tror, at på lang sigt kan AI Agent-priserne stadig primært være forbundet med lønomkostninger, fordi det er skønheden ved Agenten – dit tidligere forbrug på tjenester kan nu flyttes til software.

Denne del af udgifterne kan være 10 til 100 gange større end softwareudgifterne, så en stor del af omkostningerne vil flytte til software. Derfor vil lønomkostninger naturligvis blive et benchmark. For vores kunder er ROI meget tydeligt. Hvis du kan spare X millioner i lønomkostninger, så giver det mening at tage denne løsning i brug. Men på længere sigt kan dette være i mellemgrunden.

Fordi selv nogle produkter, der ikke er så gode som vores agent, vil acceptere lavere priser. Dette er ligesom den klassiske SaaS-situation, hvor alle konkurrerer om markedsandele.

Kimberly Tan: Hvad tror du, fremtiden bringer for nuværende SaaS-virksomheder, især dem, hvis produkter måske ikke er bygget til AI, eller som er prissat pr. sæde og derfor ikke kan tilpasse sig en resultatorienteret prismodel?

Jesse Zhang: For nogle traditionelle virksomheder er det faktisk lidt vanskeligt, hvis de forsøger at lancere et AI Agent-produkt, fordi de ikke kan prissætte det ved at bruge en sædemodel. Hvis du ikke længere har brug for så mange Agenter, er det svært at fastholde omsætningen med det eksisterende produkt. Dette er et problem for traditionelle virksomheder, men det er svært at sige. Traditionelle virksomheder har altid fordelen af distributionskanaler. Selvom produktet ikke er så godt som det nye firma, er folk tilbageholdende med at bruge kræfterne på at acceptere en ny leverandør med kun 80% af kvaliteten.

Så for det første, hvis du er en startup som os, skal du sikre dig, at dit produkt er tre gange bedre end det traditionelle produkt. For det andet er dette en typisk konkurrence mellem traditionelle virksomheder og startups. Traditionelle virksomheder har naturligvis en lavere risikotolerance, fordi de har et stort antal kunder. Hvis de laver en fejl i hurtig iteration, vil det forårsage enorme tab. Startups kan dog iterere hurtigere, så selve iterationsprocessen kan føre til et bedre produkt. Dette er den sædvanlige cyklus. For os har vi altid været stolte af vores hurtige levering, produktkvalitet og udførelsen af vores team. Det er derfor, vi har vundet den nuværende aftale.

Kimberly Tan: Kan du komme med nogle forudsigelser om fremtiden for kunstig intelligens på arbejdspladsen? Hvordan vil det for eksempel ændre medarbejdernes behov eller evner, eller hvordan menneskelige medarbejdere og AI-agenter interagerer?Hvilke nye bedste praksisser eller normer tror du vil blive normen på arbejdspladsen, efterhånden som AI-agenter bliver mere udbredt?

Jesse Zhang: Den første og vigtigste ændring er, at vi er overbeviste om, at medarbejderne i fremtiden vil bruge meget mere tid på arbejdspladsen på at bygge og administrere AI-agenter, i lighed med rollen som AI-supervisorer. Selvom din stilling ikke officielt er en "AI-supervisor", vil meget af den tid, du brugte på at udføre dit arbejde, blive flyttet til at administrere disse agenter, fordi agenter kan give dig en masse løftestang.

Vi har set dette i mange implementeringer, hvor folk, der engang var teamledere, nu bruger meget tid på at overvåge AI, for eksempel for at sikre, at det ikke har problemer eller for at foretage justeringer. De overvåger den overordnede præstation for at se, om der er specifikke områder, der kræver opmærksomhed, om der er huller i videnbasen, der kan hjælpe AI'en til at blive bedre, og om AI'en kan udfylde disse huller.

Det arbejde, der følger med at arbejde med en agent, giver indtryk af, at medarbejderne i fremtiden vil bruge en betydelig mængde tid på at interagere med AI-agenter. Dette er et kernekoncept i vores virksomhed, som jeg nævnte tidligere. Derfor er hele vores produkt bygget op omkring at give folk værktøjer, visualisering, fortolkning og kontrol. Jeg tror, inden for et år, vil dette blive en kæmpe trend.

Kimberly Tan: Det giver meget mening. Hvilke kapaciteter tror du, at AI-vejledere får brug for i fremtiden? Hvilke færdigheder er der til denne rolle?

Jesse Zhang: Der er to aspekter. Den ene er observerbarhed og fortolkbarhed, evnen til hurtigt at forstå, hvad AI'en laver, og hvordan den træffer beslutninger. Den anden er beslutningsevnen, eller bygningsdelen, hvordan man giver feedback og hvordan man bygger ny logik. Jeg tror, at disse to er to sider af samme sag.

Kimberly Tan: Hvilke opgaver tror du vil forblive ud over AI-agentens evner på mellemlang eller lang sigt og stadig skal styres og udføres korrekt af mennesker?

Jesse Zhang: Jeg tror, at det primært vil afhænge af kravet om "perfektion", som jeg nævnte tidligere. Der er mange opgaver, der har en meget lav tolerance for fejl. I disse tilfælde er ethvert AI-værktøj mere en hjælp end en fuldgyldig agent.

For eksempel, i nogle mere følsomme brancher, såsom sundhedspleje eller sikkerhed, hvor du skal være næsten perfekt, kan AI-agenter i disse områder blive mindre autonome, men det betyder ikke, at de er ubrugelige. Jeg tror, stilen vil være anderledes, i en platform som vores, implementerer du faktisk disse agenter for at lade dem automatisere hele jobbet.

Derrick Harris: Og det var alt for denne episode. Hvis du fandt dette emne interessant eller inspirerende, så bedøm vores podcast og del det med flere mennesker.Vi forventer at udgive det sidste afsnit inden årets udgang og vil ombygge indholdet til det nye år. Tak fordi du lyttede og hav en god ferie (hvis du lytter i ferien).

Original video: Kan Al-agenter endelig ordne kundesupport?

a16z dialog med 27-årig administrerende direktør: AI Agent har en enorm løftestangseffekt, og langsigtet prissætning vil være forbundet med lønomkostninger

Højdepunkter

AI Agent omformer kundeoplevelsen

Forretningslogik drevet af naturligt sprog

En forretningsmodel, der springer over tillid

Store sprogmodelstyringsartefakter såsom DeepSeek: Cherry Studio, Chatbox, AnythingLLM, hvem er din effektivitetsaccelerator?

DeepSeek har gjort det! OpenAI indrømmer closed source-fejl, og forspringet bliver mindre

OpenAI o3-mini vs. DeepSeek-R1: Hvem er kongen af den nye generation af AI-modeller?

Opgøret mellem de fire bedste modeller! En anmeldelse viser, hvor kraftfuld Deepseek R1 er

Googles lavprismodel, Gemini 2.0-serien, angriber: Kampen om omkostningseffektivitet i store modeller intensiveres

Hvad kan Deepseek opnå? Selv OpenAI kan ikke gøre det?

Skriv et svar Annuller svar

Højdepunkter

AI Agent omformer kundeoplevelsen

Forretningslogik drevet af naturligt sprog

En forretningsmodel, der springer over tillid

Lignende indlæg

Skriv et svar Annuller svar