Höjdpunkter
- Magin med LLM:er är att de är väldigt flexibla, kan anpassa sig till många olika situationer och har grundläggande intelligens.
- Vi tror att med tiden kommer UI och UX att bli mer och mer naturligt språkbaserade, eftersom det är så ett Agent-system tänker, eller så är det i grunden grunden för utbildning för stora språkmodeller (LLM).
- Om du vill att någon ska acceptera en AI-agent tar de faktiskt ett mått av "leap of faith" eftersom för många människor är detta ett mycket obekant område.
AI Agent omformar kundupplevelsen
Jesse Zhang: Hur är egentligen en agent uppbyggd? Vår uppfattning är att det med tiden kommer att bli mer och mer som en naturlig språkbaserad Agent eftersom det är så de stora språkmodellerna (LLM) tränas.
På lång sikt, om du har en superintelligent agent som faktiskt är som en människa, kan du visa den saker, förklara för den, ge den feedback och den kommer att uppdatera informationen i sitt sinne.
Du kan föreställa dig att ha en mycket kompetent mänsklig teammedlem. När de först går med lär du dem något, de börjar arbeta och sedan ger du dem feedback och visar dem ny information.
Så småningom kommer det att utvecklas i denna riktning – det kommer att bli mer konversationsrikt och mer baserat på naturligt språk, och sättet som människor kommunicerar med varandra blir mer naturligt. Och människor kommer inte längre att använda de komplicerade beslutsträden för att fånga upp krav, som kan fungera men som är benägna att kollapsa.
Tidigare var vi tvungna att göra detta eftersom vi inte hade en stor språkmodell. Men nu, med Agentens kontinuerliga framsteg, kommer användarupplevelsen (UX) och användargränssnittet (UI) att bli mer konverserande.
Derrick Harris: Hej alla, välkommen till A16z AI Podcast. Jag heter Derrick Harris, och idag får jag sällskap av Jesse Zhang, medgrundare och VD för Decagon, och Kimberly Tan, en partner på a16z. Kimberly kommer att moderera diskussionen och Jesse kommer att dela med sig av sin erfarenhet av att bygga Decagon och dess produkter.
Om du inte vet mycket om det, är Decagon en startup som tillhandahåller AI-agenter till företag för att hjälpa till med kundsupport. Dessa agenter är varken chatbots eller LLM wrappers för ett enda API-anrop, utan mycket anpassade avancerade agenter som kan hantera komplexa arbetsflöden baserat på ett företags specifika behov.
Förutom att förklara varför de skapade Decagon och hur det är utformat för att hantera olika LLM- och kundmiljöer, berättar Jesse också om fördelarna med en affärsmodell som tar betalt per konversation, och hur AI-agenter kommer att förändra kompetensen som krävs av kundsupportledare.
Det är också värt att nämna att Kimberly nyligen skrev ett blogginlägg med titeln "RIP to RPA, The Rise of Intelligent Automation", som vi kort diskuterar i det här avsnittet.
Det är en bra utgångspunkt för att förstå hur automatisering tar fart i affärsprocesser, och vi kommer att tillhandahålla en länk i showanteckningarna. Och slutligen, som en påminnelse, är innehållet i den här artikeln endast avsett för informationsändamål och bör inte betraktas som juridisk, affärs-, skatte- eller investeringsrådgivning, och bör inte heller användas för att utvärdera någon investering eller säkerhet, och är inte riktad till någon a16z-fondinvesterare eller potentiell investerare.
Jesse Zhang: En kort introduktion till mig själv. Jag är född och uppvuxen i Boulder, och jag deltog i många mattetävlingar och liknande som barn. Jag studerade datavetenskap på Harvard och startade sedan ett företag som också backades upp av a16z. Vi blev så småningom uppköpta av Niantic.
Sedan började vi bygga Decagon. Vår verksamhet bygger AI-agenter för kundservice. I början gjorde vi det här för att vi ville göra något som låg oss väldigt varmt om hjärtat.
Naturligtvis behöver ingen läras om rollen som AI-agenter i kundtjänst, eller hur? Vi har alla varit i telefon med flygbolag, hotell etc. och väntat på is. Så idén kom därifrån.
Vi pratade med många kunder för att ta reda på exakt vilken typ av produkt vi skulle bygga. En sak som stack ut för oss var att när vi lärde oss mer om AI-agenter började vi fundera på hur framtiden skulle se ut när det fanns många av dem. Jag tror att alla tror att det kommer att finnas massor av AI-agenter i framtiden.
Vad vi tänker på är vad kommer de anställda som arbetar kring AI-agenter att göra? Vilken typ av verktyg kommer de att ha? Hur kommer de att kontrollera eller se de agenter de arbetar med eller hanterar?
Så detta är kärnan i hur vi byggde företaget kring denna fråga. Jag tror att det också är det som skiljer oss just nu, eftersom vi förser dessa AI-agenter med olika verktyg för att hjälpa människorna vi arbetar med att bygga och konfigurera dessa agenter så att de inte längre är en "svart låda". Det är så vi bygger vårt varumärke.
Derrick Harris: Vad inspirerade dig, sedan ditt senaste företag var ett konsumentinriktat videoföretag, att gå över till företagsprogramvara?
Jesse Zhang: Bra fråga. Jag tror att grundare ofta är "ämnesagnostiska" när det kommer till att välja ett ämne, för i verkligheten, när du närmar dig ett nytt område, är du vanligtvis ganska naiv. Så det är en fördel att se saker från ett nytt perspektiv. Så när vi tänkte på det fanns det nästan inga ämnesbegränsningar.
Jag tror att det är ett väldigt vanligt mönster för människor med mer kvantitativ bakgrund, inklusive mig själv. Efter att ha provat konsumentprodukter tenderar du att dras mer mot företagsprogramvara eftersom företagsprogramvara har mer konkreta problem.
Du har faktiska kunder med faktiska behov och budgetar och sånt, och du kan optimera och lösa problem för dem. Konsumentmarknaden är också mycket attraktiv, men den är mer baserad på intuition än driven av experiment. För mig personligen passar företagsmjukvara bättre.
Kimberly Tan: Först kan vi börja med denna fråga: Vilka är de vanligaste supportkategorierna som Decagon sysslar med idag? Kan du utveckla hur du använder stora språkmodeller (LLM) för att lösa dessa problem och vad du nu kan göra som du inte kunde göra tidigare?
Jesse Zhang: Om du ser tillbaka på tidigare automatisering kan du ha använt beslutsträd för att göra något enkelt, för att avgöra vilken väg du ska ta. Men vi har alla använt chatbots, och det är en ganska frustrerande upplevelse.
Ofta kan din fråga inte helt besvaras av ett beslutsträd. Så det slutar med att du dirigeras ner på en frågeväg som är relaterad till frågan men som inte exakt matchar den. Nu har vi stora språkmodeller (LLM). Magin med LLM:er är att de är väldigt flexibla, kan anpassa sig till många olika situationer och har grundläggande intelligens.
När du tillämpar detta på kundsupport, eller när en kund ställer en fråga, kan du ge en mer personlig service. Detta är den första punkten, nivån på personalisering har förbättrats avsevärt. Detta låser upp högre mätvärden. Du kan lösa fler problem, kunderna är mer nöjda och kundnöjdheten ökar.
Nästa naturliga steg är: om du har den här intelligensen borde du kunna göra fler av de saker som människor kan göra. De saker som människor kan göra är att de kan dra data i realtid, de kan vidta åtgärder och de kan resonera genom flera steg. Om en kund ställer en relativt komplex fråga, kanske "jag vill göra det och det", och AI:n är bara beredd att hantera den första frågan. LLM är smart nog att inse att det finns två frågor här. Först kommer det att lösa det första problemet och sedan hjälpa dig att lösa det andra problemet.
Innan LLM kom var detta i princip omöjligt. Så vi ser nu en stegvis förändring i vad tekniken kan göra, och det är tack vare LLM.
Kimberly Tan: I detta sammanhang, hur skulle du definiera en AI-agent? Eftersom ordet "agent" används flitigt är jag nyfiken på vad det egentligen betyder i Decagon-sammanhang.
Jesse Zhang: Jag skulle säga att Agent syftar mer på ett system där flera LLM-system (stora språkmodeller) fungerar tillsammans. Du har en LLM-anrop, som i princip innebär att skicka en uppmaning och få ett svar. För en agent vill du kunna koppla flera sådana anrop, kanske till och med rekursivt.
Till exempel har du ett LLM-samtal som bestämmer hur meddelandet ska hanteras, och då kan det utlösa andra samtal som drar in mer data, utför åtgärder och upprepar vad användaren sa, kanske till och med ställer följdfrågor. Så för oss kan en Agent förstås som ett nätverk av nästan LLM-anrop, API-anrop eller annan logik som samverkar för att ge en bättre upplevelse.
Kimberly Tan: Om det här ämnet kanske vi kan prata mer om agentinfrastrukturen du faktiskt har byggt. Jag tycker att en mycket intressant poäng är att det finns många demonstrationer av AI-agenter på marknaden, men jag tror att det finns väldigt få exempel på dem som faktiskt kan köras stabilt i en produktionsmiljö. Och det är svårt att utifrån veta vad som är verkligt och inte.
Så enligt din åsikt, vilka aspekter av dagens AI-agenter fungerar bra, och vilka aspekter kräver fortfarande tekniska genombrott för att göra dem mer robusta och pålitliga?
Jesse Zhang: Min syn är faktiskt lite annorlunda. Skillnaden mellan att avgöra om en AI-agent bara är en demo eller "verkligen fungerar" ligger inte helt i teknikstacken, eftersom jag tror att de flesta kanske använder ungefär samma teknik. Jag tror att när du har kommit längre i utvecklingen av ditt företag, till exempel vårt företag har varit etablerat i mer än ett år, kommer du att skapa något väldigt specifikt som passar ditt användningsfall.
Men i slutändan kan alla komma åt samma modell och använda liknande teknik. Jag tror att den största skillnaden mellan huruvida en AI-agent kan fungera effektivt faktiskt ligger i formen av användningsfallet. Det är svårt att veta detta i början, men när du ser tillbaka kommer du att upptäcka att det finns två attribut som är mycket viktiga för en AI-agent att gå längre än demonstration och komma in i praktisk tillämpning.
Det första är att användningsfallet du löser måste ha kvantifierbar ROI (return on investment). Detta är mycket viktigt, för om ROI inte kan kvantifieras kommer det att vara svårt att övertyga folk att faktiskt använda din produkt och betala för den. I vårt fall är den kvantitativa indikatorn: hur stor andel av stödförfrågningarna löser du? Eftersom den här siffran är tydlig kan folk förstå den – okej, om du löser mer kan jag jämföra det här resultatet med mina nuvarande utgifter och tid. Så, om det finns denna indikator, är en annan indikator som är mycket viktig för oss kundnöjdhet. Eftersom avkastningen på investeringen lätt kan kvantifieras kommer folk verkligen att anta den.
Den andra faktorn är att användningsfallen måste vara stegvis svårare. Det skulle också vara väldigt svårt om du behövde en agent som var övermänsklig från början, och löste nästan 100% av användningsfallen. Eftersom som vi vet är LLM:er icke-deterministiska, du måste ha någon form av beredskapsplan. Lyckligtvis finns det en fantastisk funktion i supportanvändningsfall, och det är att du alltid kan eskalera till en människa. Även om man bara kan lösa hälften av problemen är det fortfarande väldigt värdefullt för människor.
Så jag tror att supporten har den här egenskapen som gör den väldigt lämplig för AI Agent. Jag tror att det finns många andra områden där människor kan skapa imponerande demos där du inte ens behöver titta noga för att förstå varför AI Agent skulle vara användbar. Men om det ska vara perfekt från början så är det väldigt svårt. Om så är fallet kommer nästan ingen att vilja prova eller använda det eftersom konsekvenserna av dess ofullkomlighet kan vara mycket allvarliga – till exempel när det gäller säkerhet.
Till exempel, när människor gör simuleringar, har de alltid den här klassiska tanken: "Åh, det skulle vara bra om LLM kunde läsa det här." Men det är svårt att föreställa sig att någon säger: "Okej, AI-agent, kör på det. Jag tror att du kan göra det." För om det gör ett misstag kan konsekvenserna bli mycket allvarliga.
Jesse Zhang: Detta bestäms vanligtvis av våra kunder, och faktiskt ser vi ett väldigt brett spektrum av skillnader. I ena ytterligheten får vissa människor verkligen sin agent att se ut som en människa, så det finns en mänsklig avatar, ett mänskligt namn, och svaren är väldigt naturliga. Å andra sidan säger agenten helt enkelt att det är AI och gör detta tydligt för användaren. Jag tror att de olika företagen vi jobbar med har olika ställningstaganden kring detta.
Vanligtvis, om du är i en reglerad bransch, måste du göra detta tydligt. Det jag tycker är intressant nu är att kundernas beteende förändras. Eftersom många av våra kunder får mycket feedback på sociala medier, som "Herregud, det här är den första chattupplevelsen jag någonsin har provat som faktiskt känns så verklig" eller "Det här är bara magi." Och det är bra för dem, för nu lär deras kunder sig, hej, om det är en AI-upplevelse kan det faktiskt vara bättre än en människa. Så var inte fallet tidigare, eftersom de flesta av oss har haft den typen av telefonkundtjänstupplevelse tidigare: "Okej, AI, AI, AI..."
Kimberly Tan: Du nämnde begreppet personalisering några gånger. Alla använder samma underliggande teknikarkitektur, men de har olika personaliseringsbehov när det gäller supporttjänster. Kan du prata om detta? Närmare bestämt, hur uppnår man anpassning så att folk kan säga online: "Herregud, det här är den bästa supportupplevelsen jag någonsin har haft"?
Jesse Zhang: För oss, anpassning kommer från anpassning för användaren. Du måste förstå användarens bakgrundsinformation, vilket är det extra sammanhanget som krävs. För det andra måste du också förstå våra kunders affärslogik.Om du kombinerar de två kan du ge en ganska bra upplevelse.
Självklart låter detta enkelt, men i verkligheten är det väldigt svårt att få fram alla nödvändiga sammanhang. Därför handlar det mesta av vårt arbete om hur man bygger de rätta primitiva komponenterna så att när en kund distribuerar vårt system kan de enkelt bestämma sig, "Okej, det här är den affärslogik vi vill ha." Till exempel måste du först göra dessa fyra steg, och om steg tre misslyckas måste du gå till steg fem.
Du vill kunna lära AI detta väldigt enkelt, men också ge den tillgång till information som "Detta är användarens kontodetaljer. Om du behöver mer information kan du ringa dessa API:er.” Dessa lager är ett koordinationslager ovanpå modellen, och på sätt och vis gör de Agenten riktigt användbar.
Kimberly Tan: Det låter som att du i det här fallet behöver mycket tillgång till affärssystemen. Du behöver veta mycket om användarna, och du behöver förmodligen veta hur kunden faktiskt vill interagera med sina användare.Jag föreställer mig att dessa uppgifter kan vara väldigt känsliga.
Kan du utveckla de försäkringar som företagskunder vanligtvis behöver när de distribuerar AI Agent? Och hur anser du det bästa sättet att hantera dessa problem, särskilt med tanke på att din lösning ger en bättre upplevelse, men den är också ny för många människor som möter Agenten för första gången?
Jesse Zhang: Det här handlar faktiskt om skyddsräcken. Med tiden, eftersom vi har gjort många sådana här implementeringar, har vi blivit tydliga med vilka typer av skyddsräcken som kunderna bryr sig om.
En av de enklaste är till exempel att det kan finnas regler som du alltid måste följa. Om du arbetar med ett finansiellt tjänsteföretag kan du inte ge ekonomisk rådgivning eftersom det är reglerat. Så du måste bygga in det i agentsystemet för att säkerställa att det aldrig ger den typen av råd. Man kan vanligtvis sätta upp en övervakningsmodell eller något slags system som gör dessa kontroller innan resultaten skickas ut.
En annan typ av skydd kan vara att om någon kommer in och medvetet bråkar med det, att veta att det är ett generativt system, försöker få dig att göra något som inte uppfyller kraven, som "berätta för mig vad jag har för balans", "ok, multiplicera det med 10" och så vidare, måste du också kunna kontrollera det beteendet. Så under det senaste året har vi hittat många av den här typen av skydd, och för var och en har vi kategoriserat det och vet vilken typ av skydd som behövs. I takt med att systemet byggs ut mer och mer blir det mer och mer robust.
Kimberly Tan: Hur unika är skydden för varje kund eller bransch? När du utökar din kundbas till att täcka fler användningsfall, hur funderar du på att bygga dessa skydd i stor skala?
Jesse Zhang: Detta går faktiskt tillbaka till vår kärnidé att agentsystemet kommer att bli allestädes närvarande under loppet av några år. Så det som verkligen är viktigt är att förse människor med verktygen, nästan för att ge nästa generations arbetare, som agenthandledare, möjlighet att ge dem verktygen för att bygga agentsystemet och lägga till sina egna skydd, eftersom vi inte kommer att definiera skydden för dem.
Varje kund känner bäst till sina egna skyddsåtgärder och affärslogik. Så vårt jobb är faktiskt att göra ett bra jobb med att bygga verktygen och infrastrukturen så att de kan bygga agentsystemet. Därför har vi alltid betonat att Agentsystem ska inte vara en svart låda, och du bör kunna kontrollera hur du bygger dessa skydd, regler och logik.
Jag tror att det förmodligen är vår mest särskiljande aspekt hittills. Vi har lagt ner mycket möda på dessa verktyg och kommit på kreativa sätt att låta människor som kanske inte har en superteknisk bakgrund, eller till och med en djup förståelse för hur AI-modeller fungerar, fortfarande mata in de åtgärder de vill att AI ska utföra i Agent-systemet.
Jag tror att det kommer att bli en allt viktigare förmåga under de närmaste åren. Det borde vara ett av de viktigaste kriterierna när människor utvärderar liknande verktyg, eftersom man vill kunna kontinuerligt optimera och förbättra dessa system över tid.
Affärslogik driven av naturligt språk
Derrick Harris: Vilka förberedelser kan kunder eller företag göra för att förbereda sig för någon typ av automatisering, och i synnerhet användningen av detta agentsystem? Till exempel, hur kan de designa sina datasystem, mjukvaruarkitektur eller affärslogik för att stödja sådana system?
För jag känner att mycket AI-teknik är ny till en början, men när det kommer till befintliga äldre system möter det ofta mycket kaos.
Jesse Zhang: Om någon bygger från grunden nu finns det många bästa praxis som kan göra ditt jobb enklare. Till exempel hur du strukturerar din kunskapsbas. Vi har skrivit om några av dessa, och introducerat några metoder som kan göra det lättare för AI att få in information och förbättra dess noggrannhet. Ett specifikt förslag är att dela upp kunskapsbasen i modulära delar, snarare än att ha en stor artikel med flera svar.
När du ställer in API:et kan du göra dem mer lämpade för Agent-systemet, och ställa in behörigheter och utdata på ett sätt som gör det enkelt för Agent-systemet att ta in information utan att behöva göra en massa beräkningar för att hitta svaret. Det här är några taktiska åtgärder som kan vidtas, men jag skulle inte säga att det är något som måste göras för att kunna använda Agent-systemet.
Derrick Harris: Bra dokumentation är alltid viktigt, i huvudsak handlar det om att organisera information effektivt.
Kimberly Tan: Det låter som att om du försöker lära folk hur man styr agentsystemet att fungera på ett sätt som bäst passar deras kunder eller specifika användningsfall, så kan det krävas mycket experimenterande med UI- och UX-designen, eller så måste du bana nya spår i detta helt nya område, eftersom det skiljer sig mycket från traditionell programvara.
Jag är nyfiken, hur tänker du kring detta? Hur ska UI och UX se ut i en Agent-first-värld? Hur tror du att det kommer att förändras de närmaste åren?
Jesse Zhang: Jag skulle inte säga att vi har löst det här problemet. Jag tror att vi kanske har hittat ett lokalt optimum som fungerar för våra nuvarande kunder, men det är fortfarande ett pågående forskningsområde, för oss och många andra.
Kärnfrågan går tillbaka till det vi nämnde tidigare, vilket är att du har ett agentsystem. För det första, hur kan du tydligt se vad den gör och hur den fattar beslut? Hur kan du sedan använda denna information för att bestämma vad som behöver uppdateras och vilken feedback som ska ges till AI? Det är här UI-elementen möts, särskilt den andra delen.
Vi tror att med tiden kommer UI och UX att bli mer och mer naturligt språkbaserade, eftersom det är så Agent-systemet tänker, eller det är i princip grunden för att träna stora språkmodeller (LLM).
I det yttersta, om du har en superintelligent agent som i grunden tänker som en människa, kan du visa den saker, förklara saker för den, ge den feedback och den kommer att uppdatera i sitt eget "sinne". Du kan tänka dig att ha en mycket kapabel person med i ditt team, du lär honom något, han börjar arbeta och sedan fortsätter du att ge honom feedback, du kan visa honom nya saker, nya dokument, diagram, etc.
Jag tror att det i extrema fall kommer att utvecklas i den här riktningen: saker och ting blir mer konversationsbaserade, mer naturligt språkbaserade, och folk slutar bygga system med komplexa beslutsträd som de brukade göra, och fångar det man vill, men det här tillvägagångssättet kan lätt gå sönder. Tidigare behövde vi göra detta eftersom det inte fanns några LLM:er då, men nu när agentsystemen blir mer och mer kraftfulla kommer UI och UX att bli mer konverserande.
Kimberly Tan: För ungefär ett och ett halvt år sedan, när Decagon först startade, fanns det en allmän uppfattning att LLM var mycket tillämpbart på många användningsfall, men i själva verket var det bara någon form av "GPT-omslag", där företag bara kunde anropa en underliggande modell genom ett API och omedelbart lösa sina supportproblem.
Men uppenbarligen, eftersom företag väljer att använda lösningar som Decagon istället för att gå den vägen direkt, visar det sig att så inte är fallet. Jag undrar om du kan förklara varför det är så. Vad exakt gjorde utmaningarna med att bygga internt mer komplexa än förväntat? Vilka missuppfattningar hade de om konceptet?
Jesse Zhang: Det är inget fel med att vara en "GPT wrapper", man kan säga att Purcell är en AWS wrapper eller något liknande. Vanligtvis, när människor använder denna term, betyder det något nedsättande.
Min personliga uppfattning är att om du bygger ett agentsystem, kommer du definitivt att använda LLM som ett verktyg. Så du bygger faktiskt ovanpå något som redan finns, precis som du normalt skulle bygga på AWS eller GCP.
Men det verkliga problemet du kan stöta på är om programvaran du bygger ovanpå LLM inte är "tung" eller tillräckligt komplex för att göra skillnad.
När vi ser tillbaka, för oss, är det vi säljer i grunden mjukvara. Vi är faktiskt som ett vanligt mjukvaruföretag, förutom att vi använder LLM som en del av mjukvaran och som ett av verktygen. Men när folk köper den här typen av produkter vill de främst ha själva mjukvaran. De vill ha verktyg som kan övervaka AI, som kan gräva djupt i detaljerna i varje konversation som AI har, som kan ge feedback, som ständigt kan bygga och justera systemet.
Så det är kärnan i vår programvara. Även med själva Agent-systemet är problemet folk har att det är häftigt att göra en demo, men om du vill göra den produktionsklar och verkligen kundinriktad måste du lösa många långvariga problem, som att förhindra fenomenet ”illusion” och hantera dåliga skådespelare som försöker orsaka förödelse. Vi måste också se till att latensen är tillräckligt låg, tonen är lämplig och så vidare.
Vi pratade med många team, och de gjorde några experiment, byggde en preliminär version, och sedan skulle de inse, "Åh, verkligen, vi vill inte vara de som fortsätter att bygga dessa detaljer i senare skeden." De ville inte heller vara de som hela tiden tillför ny logik till kundtjänstteamet. Så vid det här laget verkar det mer lämpligt att välja att samarbeta med andra.
Kimberly Tan: Du nämnde några långsiktiga problem, såsom behovet av att hantera dåliga skådespelare, etc.Jag tror att många lyssnare som överväger att använda AI Agent är oroliga för nya säkerhetsattackvägar som kan uppstå efter introduktionen av LLM, eller de nya säkerhetsrisker som kan uppstå efter introduktionen av Agent-systemet. Vad tycker du om dessa frågor? Och vilka är de bästa metoderna för att säkerställa förstklassig företagssäkerhet när det handlar om Ombud?
Jesse Zhang: Säkerhetsmässigt finns det några självklara åtgärder som kan vidtas, som jag nämnde tidigare, såsom behovet av skyddsåtgärder. Kärnfrågan är att människors oro för LLM är att de inte är deterministiska.
Men den goda nyheten är att du faktiskt kan placera de flesta av de känsliga och komplexa operationerna bakom en deterministisk vägg, och beräkningen sker där när den anropar API. Så du litar inte helt på LLM för att hantera det, och det undviker många av kärnproblemen.
Men det finns fortfarande situationer där till exempel en dålig skådespelare stör eller någon försöker få systemet att hallucinera. Vi har observerat att hos många av de stora kunderna vi arbetar med kommer deras säkerhetsteam att gå in och i princip utföra ett "rött team"-test på våra produkter, och spendera veckor på att kontinuerligt lansera olika möjliga attacker mot systemet för att försöka hitta sårbarheter. När AI Agent blir mer och mer populär kan vi se detta hända allt oftare, eftersom detta är ett av de bästa sätten att testa om ett system är effektivt. Det är att kasta något på det genom ett rött lagtest och se om det kan bryta igenom försvaret.
Det finns också startups som utvecklar röda teamverktyg eller gör det möjligt för människor att göra den här typen av tester själva, vilket är en trend vi ser just nu. Många av de företag vi arbetar med kommer i ett senare skede i säljcykeln att få sitt säkerhetsteam, eller arbeta med ett externt team, att stresstesta systemet. För oss är det ett måste att klara den typen av prov. Så i slutändan är det vad det handlar om.
Derrick Harris: Är detta något du uppmuntrar dina kunder att göra? För när vi pratar om AI-policyer nämner vi en viktig aspekt, som är applikationsskiktet, och vi betonar putting den ansvar på användarna av LLM och de personer som kör applikationen, snarare än att bara skylla på själva modellen. Det vill säga, kunder bör utföra röda team-tester, identifiera specifika användningsfall och attackvägar, och bestämma vilka sårbarheter som behöver skyddas, snarare än att bara förlita sig på säkerhetsskyddet som redan ställts in av OpenAI eller andra företag.
Jesse Zhang: Jag håller helt med. Jag tror också att det kan dyka upp en ny våg av anmälningskrav, liknande SOC 2-certifieringen och HIPAA-certifieringen som alla gör nu, som krävs i olika branscher. Vanligtvis, när du säljer en generisk SaaS-produkt, kräver kunderna penetrationstestning, och vi måste också tillhandahålla vår penetrationstestrapport. För AI Agent kan det finnas liknande krav i framtiden, och någon kanske namnger det, men detta är i grunden ett nytt sätt att testa om Agent-systemet är tillräckligt kraftfullt.
Kimberly Tan: En sak som är intressant är att alla uppenbarligen är väldigt exalterade över de nya modellgenombrotten och tekniska genombrotten som introduceras av alla stora laboratorier. Som ett AI-företag gör du uppenbarligen inte din egen research, men du utnyttjar den forskningen och bygger mycket mjukvara runt den för att leverera till slutkunden.
Men ditt arbete bygger på snabbt föränderlig teknik. Jag är nyfiken, som ett tillämpat AI-företag, hur håller du på med nya tekniska förändringar och förstår hur de påverkar företaget samtidigt som du kan förutsäga din egen produktfärdplan och bygga användarbehov? Mer allmänt, vilka strategier bör tillämpade AI-företag anta i liknande situationer?
Jesse Zhang: Du kan faktiskt dela upp hela stapeln i olika delar. Till exempel ligger LLM i botten om man tittar på applikationslagret. Du kanske har några verktyg i mitten som hjälper dig att hantera LLM eller göra någon utvärdering och sånt. Sedan är den övre delen i princip vad vi byggde, som faktiskt är som en standard SaaS.
Så det mesta av vårt arbete skiljer sig faktiskt inte så mycket från vanlig mjukvara, förutom att vi har en extra forskningskomponent – LLM förändras för snabbt. Vi måste undersöka vad de kan, vad de är bra på och vilken modell som ska användas för att utföra en viss uppgift. Detta är ett stort problem eftersom både OpenAI och Anthropic lanserar ny teknik, och Gemini förbättras också gradvis.
Därför, du måste ha en egen utvärderingsmekanism för att förstå vilken modell som är lämplig att använda i vilken situation. Ibland behöver man också finjustera, men frågan är: när ska man finjustera? När lönar det sig att finjustera? Det är förmodligen de viktigaste forskningsfrågorna relaterade till LLM som vi fokuserar på. Men åtminstone än så länge känner vi inte att SaaS förändras snabbt, eftersom vi inte är beroende av mellanskiktet. Så i grund och botten är det LLM:erna som förändras. De ändras inte särskilt ofta, och när de gör det är det vanligtvis en uppgradering. Till exempel uppdaterades Claude 3.5-sonetten för några månader sedan, och då tänkte vi, "Okej, ska vi byta till den nya modellen istället för att fortsätta använda den gamla?"
Vi behöver bara köra en serie bedömningar och när vi väl har bytt till den nya modellen tänker vi inte på det längre eftersom du redan använder den nya modellen. Sedan kom o1-versionen ut och situationen var liknande. Fundera på var den kan användas. I vårt fall är o1 lite långsam för de flesta kundvända användningsfall, så vi kan använda den för lite bakgrundsarbete. I slutändan behöver vi bara ha ett bra system för modellforskning.
Kimberly Tan: Hur ofta utvärderar du en ny modell och bestämmer dig för om du ska byta ut den?
Jesse Zhang: Vi utvärderar varje gång en ny modell kommer ut. Du måste se till att även om den nya modellen är smartare, så bryter den inte sönder några av de användningsfall du redan har byggt. Detta kan hända. Till exempel kan den nya modellen vara smartare överlag, men i vissa extrema fall presterar den dåligt på ett A/B-val i ett av dina arbetsflöden. Det är det vi utvärderar för.
Jag tror på det hela taget att den typ av intelligens vi bryr oss mest om är vad jag skulle kalla "instruktionsföljande förmåga." Vi vill att modellen ska bli bättre och bättre på att följa instruktioner. Om så är fallet, så är det definitivt fördelaktigt för oss, och det är mycket bra.
Det verkar som att den senaste tidens forskning har fokuserat mer på den typ av intelligens som involverar resonemang, såsom bättre programmering och bättre matematiska operationer. Detta hjälper oss också, men det är inte lika viktigt som att förbättra instruktionsförmågan.
Kimberly Tan: En mycket intressant punkt du nämnde, och jag tror att den också är väldigt unik för Decagon, är att du har byggt en hel del utvärderingsinfrastruktur internt för att se till att du vet exakt hur varje modell presterar under de tester du tillhandahåller.
Kan du utveckla detta? Hur viktig är denna interna utvärderingsinfrastruktur, och specifikt hur ger den dig och dina kunder förtroende för Agentens prestation? Eftersom vissa av dessa utvärderingar också är kundinriktade.
Jesse Zhang: Jag tror att det är väldigt viktigt, för utan denna utvärderingsinfrastruktur skulle det vara väldigt svårt för oss att upprepa snabbt.
Om du känner att varje förändring har en hög sannolikhet att gå sönder något, kommer du inte att göra ändringar snabbt. Men om du har en utvärderingsmekanism, när det sker en större förändring, en modelluppdatering eller något nytt kommer, kan du direkt jämföra det med alla utvärderingstester. Om utvärderingsresultaten är bra kan du känna: okej, vi gjorde en förbättring, eller så kan du släppa den med tillförsikt utan att oroa dig för mycket.
Så inom vårt område, utvärdering kräver input från kunden, eftersom kunden är den som avgör om något är korrekt eller inte. Naturligtvis kan vi kontrollera några frågor på hög nivå, men vanligtvis tillhandahåller kunden specifika användningsfall och berättar vad det korrekta svaret är, eller vad det måste vara, vilken ton den måste hålla, vad den måste säga.
Bedömningen bygger på detta. Så vi måste se till att vårt bedömningssystem är tillräckligt robust. I början byggde vi det själva, och det är inte så svårt att underhålla. Vi vet också att det finns några bedömningsföretag, och vi har utforskat några av dem. Kanske kommer vi någon gång att överväga om vi ska anta dem, men för närvarande är bedömningssystemet inte längre en smärtpunkt för oss.
Kimberly Tan: Ett mycket populärt ämne idag är multimodalitet, vilket betyder att AI-agenter ska kunna interagera i alla de former som människor använder idag, oavsett om det är text, video, röst, etc. Jag vet att Decagon började som textbaserat. Ur ditt perspektiv, hur viktigt är multimodalitet till AI-agenter? Vad tror du är tidsramen för att det ska bli mainstream eller till och med en standard?
Jesse Zhang: Det är viktigt, och ur ett företagsperspektiv är det inte särskilt svårt att lägga till en ny modalitet. Det är inte enkelt, men kärnan är: om du löser andra problem, som de jag nämnde – till exempel att bygga AI:n, övervaka den och ha rätt logik – så är det inte det svåraste att lägga till en ny modalitet. Så för oss är det mycket vettigt att ha alla modaliteter, och det utökar vår marknad. Vi är i grunden modalitets-agnostiker, och vi bygger vår egen agent för varje modalitet.
Generellt sett finns det två begränsande faktorer: För det första, är kunden redo att anta den nya metoden? Jag tycker att det är väldigt vettigt att börja med text, eftersom det är det sätt som folk adopterar mest aktivt, och det är mindre riskabelt för dem, lättare att övervaka och lättare att förstå. Den andra stora modaliteten är röst. Självklart tror jag att det fortfarande finns utrymme på marknaden, och användarnas acceptans för rösten måste fortfarande förbättras. För tillfället ser vi några tidiga användare som har börjat adoptera röstagenter, vilket är väldigt spännande. Den andra aspekten är de tekniska utmaningarna. De flesta håller med om att ribban är högre för röst. Om du pratar med någon i telefon behöver du mycket kort röstlatens. Om du avbryter någon måste de svara naturligt.
Eftersom latensen av tal är lägre måste du vara smartare i ditt sätt att beräkna. Om du är i en chatt och svarstiden är fem till åtta sekunder märker du det knappt och det känns väldigt naturligt. Men om det tar fem till åtta sekunder att svara i telefonen känns det lite onaturligt. Så det finns fler tekniska utmaningar med tal. När dessa tekniska utmaningar löses och intresset för att ta till sig tal ökar på marknaden, kommer tal som en ny modalitet att bli mainstream.
En affärsmodell som hoppar över förtroende
Kimberly Tan: Innan vi fortsätter skulle jag vilja prata lite mer om AI Agents affärsmodell. När du först inbyggd AI-agent eller diskuterade med kunder systemet de använder, data de bearbetar och deras bekymmer, var det något som förvånade dig? Vad är några av de icke-intuitiva eller överraskande sakerna som Decagon var tvungen att göra för att bättre kunna betjäna företagskunder?
Jesse Zhang: Jag tror att det mest överraskande var i vilken utsträckning folk var villiga att prata med oss när vi började. Vi var trots allt bara två. Vi hade båda startat företag tidigare, så vi kände många människor, men trots det, för varje företagare, när du vill få igång ett remisssamtal, om det du säger inte är särskilt övertygande, är samtalet vanligtvis ganska ljummet.
Men när vi började prata om det här användningsfallet tyckte jag faktiskt att det var ganska förvånande hur glada folk var att prata om det. För tanken verkar så självklar. Du kanske tror att eftersom det är en så uppenbar idé måste någon annan redan ha gjort det, eller så måste det redan finnas en lösning, eller så måste någon annan redan ha kommit på någon form av lösning. Men jag tror att vi fångade ett bra ögonblick, det där användningsfallet är riktigt stort och folk bryr sig verkligen om det. Som jag nämnde tidigare är det användningsfallet verkligen väl lämpat för att ta AI Agent och driva den i produktion, eftersom du kan implementera den stegvis och kunna spåra ROI.
Det var en trevlig överraskning för mig, men uppenbarligen finns det mycket arbete att göra efter det, du måste arbeta med kunder, du måste bygga produkten, du måste ta reda på vilken väg du ska gå. I den inledande fasen var det verkligen en överraskande upptäckt.
Derrick Harris: Kimberly, jag känner att jag borde nämna det där blogginlägget du skrev, RIP till RPA, som berör många den automationsuppgifter och startups.Tror du att det finns ett fenomen där dessa automatiserade uppgifter, eller lösningar, inte är så idealiska, så att människor alltid letar efter ett bättre sätt?
Kimberly Tan: Ja, det tycker jag. Jag skulle vilja säga några saker. För det första, om en idé är uppenbar för alla, men det inte finns något tydligt företag att lösa den, eller om ingen pekar på ett företag och säger "Du borde använda det här", så betyder det att problemet faktiskt inte har lösts.
På sätt och vis är det en helt öppen möjlighet för ett företag att utveckla en lösning. För, som du sa, vi har följt Decagon som investerare från början. Vi har sett dem navigera i den kreativa labyrinten, och när de bestämde sig för att gå i den här riktningen och började prata med kunder stod det klart att alla kunder var desperata efter någon form av inbyggd AI-aktiverad lösning. Detta är ett av problemen jag nämnde tidigare, där många tror att det bara är en GPT-omslag. Men kundintresset Decagon har fått från början har fått oss att tidigt inse att många av dessa frågor är mycket mer komplicerade än vad folk förväntar sig.
Jag tror att det här fenomenet händer över branscher, oavsett om det är kundservice eller professionell automation i vissa vertikaler. Jag tror att en av de underskattade punkterna är, som Jesse nämnde tidigare, att tydligt kunna mäta avkastningen på investeringen (ROI) av att automatisera uppgifter. För om du ska få någon att acceptera en AI-agent, så tar de faktiskt ett mått av "leap of faith" eftersom det är ett mycket okänt territorium för många människor.
Om du kan automatisera en mycket specifik process som antingen är en uppenbar intäktsgenererande process, eller en process som tidigare utgjorde en flaskhals i verksamheten, eller ett stort kostnadsställe som ökar linjärt med kundtillväxt eller intäktstillväxt, då blir det lättare att få acceptans för AI Agenten. Möjligheten att förvandla sådana problem till en mer produktiserad process som kan skalas som traditionell programvara är mycket attraktiv.
Kimberly Tan: Jag har en sista fråga innan vi går vidare. Jag minns att Jesse i våra tidigare diskussioner alltid sa att den största utmaningen för företag som använder programvara eller AI-agenter skulle vara hallucinationer. Men du sa en gång till mig att detta faktiskt inte är huvudproblemet. Kan du utveckla varför uppfattningen om hallucinationer är något missvisande och vad folk egentligen är mer oroade över?
Jesse Zhang: Jag tror att folk bryr sig om hallucinationer, men de är mer bekymrade över värdet de kan ge. Nästan alla företag vi arbetar med fokuserar på samma få frågor, nästan exakt samma: hur stor andel av samtalen kan du lösa? Hur nöjda är mina kunder? Då kan hallucinationsfrågan klassas som en tredje kategori, nämligen hur korrekt den är. Generellt sett är de två första faktorerna viktigare vid utvärdering.
Låt oss säga att du pratar med ett nytt företag och att du har gjort ett riktigt bra jobb med de två första faktorerna, och du har fått mycket stöd från ledningen och alla i teamet. De säger: "Herregud, vår kundupplevelse är annorlunda. Varje kund har nu sin egen personliga assistent som kan kontakta oss när som helst. Vi har gett dem bra svar, de är mycket nöjda och det är flerspråkigt och tillgängligt 24/7.” Det är bara en del av det, och du har också sparat mycket pengar.
Så när du väl uppnår de målen får du mycket stöd och mycket medvind för att driva arbetet. Naturligtvis måste illusionsfrågan i slutändan lösas, men det är inte det som de är mest oroade över. Sättet att lösa illusionen är på samma sätt som jag nämnde tidigare – folk kommer att testa dig. Det kan finnas en proof-of-concept-fas där du faktiskt kör riktiga konversationer och de har teammedlemmar som övervakar och kontrollerar noggrannheten. Går det bra går det oftast igenom.
Dessutom, som jag nämnde tidigare, kan du ställa in några strikta skyddsåtgärder för känslig information, som att du inte nödvändigtvis behöver göra känsligt innehåll generiskt. Så illusionsfrågan är en diskussionspunkt i de flesta transaktioner. Det är inget oviktigt ämne. Du kommer att gå igenom denna process, men den är aldrig i fokus för samtalet.
Kimberly Tan: Låt oss nu gå vidare till affärsmodellen för AI Agent. Idag finns det ett stort ämne om hur man prissätter dessa AI-agenter.
Historiskt sett har många SaaS-programvara prissatts efter antalet platser eftersom de är arbetsflödesprogram som riktar sig till enskilda anställda och används för att förbättra de anställdas produktivitet. AI Agent är dock inte kopplad till produktiviteten hos enskilda anställda som traditionell programvara.
Så många tror att prissättningsmetoden baserad på antalet platser kanske inte längre är tillämplig. Jag är nyfiken på hur du tänkte på detta dilemma i början och hur du till slut bestämde dig för att prissätta Decagon. Dessutom, vad tror du kommer att bli den framtida trenden för prissättning av programvara när AI Agent blir allt vanligare?
Jesse Zhang: Vår syn på den här frågan är att tidigare, prissattes programvara per plats eftersom dess skala var ungefär baserad på antalet personer som kunde använda programvaran. Men för de flesta AI-agenter beror värdet du tillhandahåller inte på antalet personer som underhåller det, utan snarare på mängden arbete som produceras. Detta överensstämmer med punkten jag nämnde tidigare: om avkastningen på investeringen (ROI) är mycket mätbar, så är nivån på arbetsresultatet också mycket tydlig.
Vår uppfattning är att prissättning efter antal platser definitivt inte gäller. Du kan prissätta baserat på resultatet av arbetet. Så prismodellen du erbjuder bör vara att ju mer arbete som utförs, desto mer betalar du.
För oss finns det två självklara sätt att prissätta. Du kan antingen prissätta konversationer, eller så kan du prissätta de konversationer som AI:n faktiskt löser. Jag tror att en av de intressanta lärdomarna vi lärde oss är att de flesta valde samtalsprismodellen. Anledningen är att den största fördelen med prissättning per lösning är att du betalar för vad den AI gör det.
Men frågan som följer är vad som anses vara en "lösning"? Först och främst vill ingen gå in på det här på djupet, eftersom det blir: "Om någon kommer in arg och du skickar iväg dem, varför ska vi betala för det?"
Detta skapar en besvärlig situation och gör också incitamenten för AI-leverantörer lite konstiga, eftersom fakturering per lösning betyder, "Vi behöver bara lösa så många konversationer som möjligt och trycka bort några människor." Men det finns många fall där det är bättre att eskalera problemet istället för att bara skjuta bort det, och kunderna gillar inte den här typen av hantering. Därför kommer fakturering per konversation att ge mer enkelhet och förutsägbarhet.
Kimberly Tan: Hur länge tror du att den framtida prismodellen kommer att hålla?För just nu när du nämner ROI är det vanligtvis baserat på tidigare utgifter som kan ha använts för att täcka arbetskostnader. När AI-agenter blir vanligare, tror du att AI på lång sikt kommer att jämföras med arbetskostnader och att detta är ett lämpligt riktmärke? Om inte, hur ser du på en långsiktig prissättning utöver arbetskostnaderna?
Jesse Zhang: Jag tror att på lång sikt kan prissättningen av AI Agent fortfarande i första hand vara kopplad till arbetskostnader, eftersom det är skönheten med Agenten – dina tidigare utgifter för tjänster kan nu flyttas över till mjukvara.
Denna del av utgifterna kan vara 10 till 100 gånger så stor som programutgifterna, så mycket av kostnaden kommer att gå över till mjukvara. Därför kommer arbetskostnaderna naturligtvis att bli ett riktmärke. För våra kunder är ROI mycket tydlig. Om du kan spara X miljoner i arbetskostnader är det vettigt att använda den här lösningen. Men i det långa loppet kan detta vara i mitten.
För även vissa produkter som inte är lika bra som vår agent kommer att acceptera lägre priser. Det här är som den klassiska SaaS-situationen, där alla tävlar om marknadsandelar.
Kimberly Tan: Vad tror du att framtiden ser ut för nuvarande SaaS-företag, särskilt de vars produkter kanske inte har byggts för AI eller som är prissatta per plats och därför inte kan anpassa sig till en resultatorienterad prismodell?
Jesse Zhang: För vissa traditionella företag är det verkligen lite knepigt om de försöker lansera en AI Agent-produkt eftersom de inte kan prissätta den med en stolsmodell. Om du inte längre behöver lika många Agenter är det svårt att behålla intäkterna med den befintliga produkten. Detta är ett problem för traditionella företag, men det är svårt att säga. Traditionella företag har alltid fördelen av distributionskanaler. Även om produkten inte är lika bra som det nya företaget, är folk ovilliga att lägga ner mödan på att acceptera en ny leverantör med bara 80% av kvaliteten.
Så, för det första, om du är en startup som vi, måste du se till att din produkt är tre gånger bättre än den traditionella produkten. För det andra är detta en typisk konkurrens mellan traditionella företag och startups. Traditionella företag har naturligtvis lägre risktolerans eftersom de har ett stort antal kunder. Om de gör ett misstag i snabb iteration kommer det att orsaka enorma förluster. Men startups kan iterera snabbare, så själva iterationsprocessen kan leda till en bättre produkt. Detta är den vanliga cykeln. För oss har vi alltid varit stolta över vår snabba leverans, produktkvalitet och utförandet av vårt team. Det är därför vi har vunnit den nuvarande affären.
Kimberly Tan: Kan du göra några förutsägelser om framtiden för AI på arbetsplatsen? Till exempel, hur kommer det att förändra de anställdas behov eller kapacitet, eller hur mänskliga anställda och AI-agenter interagerar?Vilka nya bästa praxis eller normer tror du kommer att bli normen på arbetsplatsen när AI-agenter blir mer utbredda?
Jesse Zhang: Den första och viktigaste förändringen är att vi är övertygade om att anställda i framtiden kommer att spendera mycket mer tid på arbetsplatsen med att bygga och hantera AI-agenter, liknande rollen som AI-handledare. Även om din position inte officiellt är en "AI-handledare" kommer mycket av den tid du använde för att göra ditt jobb att flyttas till att hantera dessa agenter, eftersom agenter kan ge dig mycket hävstång.
Vi har sett detta i många installationer där personer som en gång var teamledare nu spenderar mycket tid på att övervaka AI, till exempel för att se till att det inte har problem eller för att göra justeringar. De övervakar övergripande prestanda för att se om det finns specifika områden som behöver uppmärksammas, om det finns luckor i kunskapsbasen som kan hjälpa AI:n att bli bättre, och om AI:n kan fylla dessa luckor.
Arbetet som följer med att arbeta med en agent ger intrycket att anställda i framtiden kommer att spendera en betydande tid på att interagera med AI-agenter. Detta är ett kärnkoncept i vårt företag, som jag nämnde tidigare. Därför är hela vår produkt uppbyggd kring att ge människor verktyg, visualisering, tolkningsbarhet och kontroll. Jag tror att det här kommer att bli en enorm trend inom ett år.
Kimberly Tan: Det är väldigt vettigt. Vilka förmågor tror du att AI-handledare kommer att behöva i framtiden? Vad är kompetensen för denna roll?
Jesse Zhang: Det finns två aspekter. En är observerbarhet och tolkningsbarhet, förmågan att snabbt förstå vad AI gör och hur den fattar beslut. Den andra är beslutsförmågan, eller byggnadsdelen, hur man ger feedback och hur man bygger ny logik. Jag tror att dessa två är två sidor av samma mynt.
Kimberly Tan: Vilka uppgifter tror du kommer att förbli bortom AI-agentens kapacitet på medellång eller lång sikt och fortfarande kommer att behöva hanteras och utföras korrekt av människor?
Jesse Zhang: Jag tror att det främst kommer att bero på kravet på "perfektion" som jag nämnde tidigare. Det finns många uppgifter som har en mycket låg tolerans för fel. I dessa fall är vilket AI-verktyg som helst mer ett hjälpmedel än en fullfjädrad agent.
Till exempel, i vissa mer känsliga branscher, som sjukvård eller säkerhet, där du måste vara nästan perfekt, kan AI-agenter bli mindre autonoma inom dessa områden, men det betyder inte att de är värdelösa. Jag tror att stilen kommer att vara annorlunda, på en plattform som vår distribuerar du faktiskt dessa agenter för att låta dem automatisera hela jobbet.
Derrick Harris: Och det var allt för det här avsnittet. Om du tyckte att det här ämnet var intressant eller inspirerande, betygsätt vår podcast och dela den med fler människor.Vi räknar med att släppa det sista avsnittet före årets slut och kommer att göra om innehållet för det nya året. Tack för att du lyssnade och ha en bra semester (om du lyssnar under semestern).
Originalvideo: Kan Al-agenter äntligen fixa kundsupport?