a16z dialoog met 27-jarige HUB: KI Agent het 'n groot hefboomeffek, en langtermynpryse sal gekoppel word aan arbeidskoste

Inhoudsopgawe

Hoogtepunte

Die magie van LLM's is dat hulle baie buigsaam is, by baie verskillende situasies kan aanpas en basiese intelligensie het.
Ons glo dat die UI en UX mettertyd meer en meer natuurlike taalgebaseer sal word, want dit is hoe 'n Agent-stelsel dink, of dit is basies die basis van opleiding vir groot taalmodelle (LLM'e).
As jy wil hê iemand moet 'n KI-agent aanvaar, neem hulle eintlik 'n mate van "leap of faith" want vir baie mense is dit 'n baie onbekende veld.

AI Agent hervorm die kliëntervaring

Jesse Zhang: Hoe word 'n Agent eintlik saamgestel? Ons siening is dat dit mettertyd meer en meer soos 'n natuurlike taalgebaseerde Agent sal word, want dit is hoe die groot taalmodelle (LLM'e) opgelei word.

Op die lang termyn, as jy 'n super intelligente agent het wat eintlik soos 'n mens is, kan jy dit dinge wys, aan hom verduidelik, terugvoer gee, en dit sal die inligting in sy gedagtes opdateer.

Jy kan jou voorstel om 'n baie bekwame menslike spanlid te hê. Wanneer hulle die eerste keer aansluit, leer jy hulle iets, hulle begin werk, en dan gee jy vir hulle terugvoer en wys hulle nuwe inligting.

Uiteindelik sal dit in hierdie rigting ontwikkel – dit sal meer gesels en meer op natuurlike taal gebaseer word, en die manier waarop mense met mekaar kommunikeer sal natuurliker word. En mense sal nie meer daardie ingewikkelde besluitnemingsbome gebruik om vereistes vas te lê nie, wat kan werk, maar geneig is om ineen te stort.

In die verlede moes ons dit doen omdat ons nie 'n groot taalmodel gehad het nie. Maar nou, met die voortdurende vordering van Agent, sal die gebruikerservaring (UX) en gebruikerskoppelvlak (UI) meer geselsend raak.

Derrick Harris: Hallo almal, welkom by die A16z AI Podcast. Ek is Derrick Harris, en vandag sal Jesse Zhang, medestigter en uitvoerende hoof van Decagon, en Kimberly Tan, 'n vennoot by a16z, by my aansluit. Kimberly sal die bespreking modereer, en Jesse sal sy ervaring met die bou van Decagon en sy produkte deel.

As jy nie veel daarvan weet nie, is Decagon 'n begin wat KI-agente aan besighede verskaf om te help met kliëntediens. Hierdie agente is nie kletsbotte of LLM-omhulsels vir 'n enkele API-oproep nie, maar hoogs pasgemaakte gevorderde agente wat komplekse werkvloei kan hanteer gebaseer op 'n maatskappy se spesifieke behoeftes.

Benewens om te verduidelik hoekom hulle Decagon geskep het en hoe dit ontwerp is om verskillende LLM- en klantomgewings te hanteer, praat Jesse ook oor die voordele van 'n sakemodel wat per gesprek hef, en hoe KI-agente die vaardighede wat van kliëntediensleiers vereis word, sal verander.

Dit is ook die moeite werd om te noem dat Kimberly onlangs 'n blogpos geskryf het met die titel "RIP to RPA, The Rise of Intelligent Automation," wat ons kortliks in hierdie episode bespreek.

Dit is 'n goeie beginpunt om te verstaan hoe outomatisering in besigheidsprosesse opstyg, en ons sal 'n skakel in die vertoningsnotas verskaf. En ten slotte, as 'n herinnering, die inhoud van hierdie artikel is slegs vir inligtingsdoeleindes en moet nie as regs-, besigheids-, belasting- of beleggingsadvies beskou word nie, en moet ook nie gebruik word om enige belegging of sekuriteit te evalueer nie, en is nie gerig op enige a16z-fondsbelegger of potensiële belegger nie.

Jesse Zhang: 'n Kort inleiding tot myself. Ek is gebore en getoë in Boulder, en ek het as kind aan baie wiskundekompetisies en dies meer deelgeneem. Ek het rekenaarwetenskap aan Harvard gestudeer, en toe 'n maatskappy begin wat ook deur a16z gerugsteun is. Ons is uiteindelik deur Niantic verkry.

Toe begin ons Decagon bou. Ons besigheid bou KI-agente vir kliëntediens. Aan die begin het ons dit gedoen omdat ons iets wou doen wat ons baie na aan die hart lê.

Natuurlik hoef niemand geleer te word oor die rol van KI-agente in kliëntediens nie, reg? Ons was almal op die telefoon met lugrederye, hotelle, ens., en het gewag. Die idee het dus vandaar gekom.

Ons het met baie kliënte gepraat om uit te vind presies watter soort produk ons moet bou. Een ding wat vir ons uitgestaan het, was dat namate ons meer oor KI-agente geleer het, ons begin dink het oor hoe die toekoms sou wees as daar baie van hulle was. Ek dink almal glo dat daar in die toekoms baie KI-agente sal wees.

Waaroor ons dink, is wat sal die werknemers doen wat rondom KI-agente werk? Watter soort gereedskap sal hulle hê? Hoe sal hulle die agente met wie hulle werk of bestuur, beheer of sien?

Dit is dus die kern van hoe ons die maatskappy rondom hierdie vraag gebou het. Ek dink dit is ook wat ons op die oomblik onderskei, want ons voorsien hierdie KI-agente van verskeie hulpmiddels om die mense met wie ons werk te help om hierdie agente te bou en op te stel sodat hulle nie meer 'n "swart boks" is nie. Dit is hoe ons ons handelsmerk bou.

Derrick Harris: Wat het jou geïnspireer, aangesien jou laaste maatskappy 'n verbruikersgerigte videomaatskappy was, om na ondernemingsagteware oor te gaan?

Jesse Zhang: Goeie vraag. Ek dink stigters is dikwels “onderwerp agnosties” wanneer dit kom by die keuse van 'n onderwerp, want in werklikheid, wanneer jy 'n nuwe veld benader, is jy gewoonlik redelik naïef. Daar is dus 'n voordeel om na dinge vanuit 'n vars perspektief te kyk. So toe ons daaraan gedink het, was daar amper geen onderwerpbeperkings nie.

Ek dink dit is 'n baie algemene patroon vir mense met meer kwantitatiewe agtergronde, ek ingesluit. Nadat u verbruikersprodukte probeer het, is u geneig om meer na ondernemingsagteware te trek omdat ondernemingsagteware meer konkrete probleme het.

Jy het werklike kliënte met werklike behoeftes en begrotings en sulke dinge, en jy kan probleme daarvoor optimaliseer en oplos. Die verbruikersmark is ook baie aantreklik, maar dit is meer gebaseer op intuïsie as gedryf deur eksperimentering. Vir my persoonlik pas ondernemingsagteware beter.

Kimberly Tan: Eerstens kan ons begin met hierdie vraag: Wat is die mees algemene ondersteuningskategorieë waarmee Decagon vandag handel? Kan jy uitbrei oor hoe jy groot taalmodelle (LLM'e) gebruik om hierdie probleme op te los en wat jy nou kan doen wat jy voorheen nie kon doen nie?

Jesse Zhang: As jy terugkyk na vorige outomatisering, het jy dalk besluitbome gebruik om iets eenvoudig te doen, om te bepaal watter pad om te neem. Maar ons het almal chatbots gebruik, en dit is 'n redelik frustrerende ervaring.

Dikwels kan jou vraag nie volledig deur 'n besluitboom beantwoord word nie. So jy word uiteindelik op 'n vraagpad gerig wat met die vraag verband hou, maar nie presies daarmee ooreenstem nie. Nou het ons groot taalmodelle (LLM'e). Die magie van LLM's is dat hulle baie buigsaam is, by baie verskillende situasies kan aanpas en basiese intelligensie het.

Wanneer jy dit toepas op kliëntediens, of wanneer 'n kliënt 'n vraag vra, kan jy 'n meer persoonlike diens lewer. Dit is die eerste punt, die vlak van verpersoonliking het aansienlik verbeter. Dit ontsluit hoër maatstawwe. Jy kan meer probleme oplos, kliënte is meer tevrede en kliëntetevredenheid neem toe.

Die volgende natuurlike stap is: as jy hierdie intelligensie het, behoort jy meer van die dinge te kan doen wat mense kan doen. Die dinge wat mense kan doen, is dat hulle data in reële tyd kan trek, hulle kan aksie neem en hulle kan redeneer deur verskeie stappe. As 'n kliënt 'n relatief komplekse vraag vra, miskien "Ek wil dit en dat doen," en die KI is slegs bereid om die eerste vraag te hanteer. LLM is slim genoeg om te erken dat daar twee vrae hier is. Eerstens sal dit die eerste probleem oplos, en jou dan help om die tweede probleem op te los.

Voordat LLM gekom het, was dit basies onmoontlik. Ons sien dus nou 'n stapverandering in wat tegnologie in staat is om te doen, en dit is te danke aan LLM.

Kimberly Tan: Hoe sou jy in hierdie konteks 'n KI-agent definieer? Aangesien die woord "Agent" wyd gebruik word, is ek nuuskierig oor wat dit eintlik beteken in die konteks van Decagon.

Jesse Zhang: Ek sou sê dat Agent meer verwys na 'n stelsel waar verskeie LLM-stelsels (groot taalmodel) saamwerk. Jy het 'n LLM-aanroeping, wat basies behels die stuur van 'n boodskap en om 'n antwoord te kry. Vir 'n Agent wil jy in staat wees om verskeie sulke oproepe te koppel, miskien selfs rekursief.

Byvoorbeeld, jy het 'n LLM-oproep wat bepaal hoe om die boodskap te hanteer, en dan kan dit ander oproepe veroorsaak wat meer data intrek, aksies uitvoer en herhaal op wat die gebruiker gesê het, miskien selfs opvolgvrae vra. So vir ons kan 'n Agent verstaan word as 'n netwerk van byna LLM-oproepe, API-oproepe of ander logika wat saamwerk om 'n beter ervaring te bied.

Kimberly Tan: Oor hierdie onderwerp kan ons dalk meer praat oor die Agent-infrastruktuur wat jy eintlik gebou het. Ek dink een baie interessante punt is dat daar baie demonstrasies van KI-agente op die mark is, maar ek dink daar is baie min voorbeelde van hulle wat in werklikheid stabiel in 'n produksie-omgewing kan werk. En dit is moeilik om van buite af te weet wat werklik is en wat nie.

So na jou mening, watter aspekte van vandag se KI-agente vaar goed, en watter aspekte vereis steeds tegnologiese deurbrake om hulle meer robuust en betroubaar te maak?

Jesse Zhang: My siening is eintlik 'n bietjie anders. Die verskil tussen om te bepaal of 'n AI Agent net 'n demonstrasie is of "werklik werk" lê nie heeltemal in die tegnologiestapel nie, want ek dink die meeste mense gebruik dalk omtrent dieselfde tegnologie. Ek dink sodra jy verder gegaan het in die ontwikkeling van jou maatskappy, byvoorbeeld, ons maatskappy is al meer as 'n jaar gestig, jy sal iets baie spesifiek skep wat by jou gebruiksgeval pas.

Maar uiteindelik kan almal toegang tot dieselfde model kry en soortgelyke tegnologie gebruik. Ek dink die grootste onderskeid of 'n KI-agent effektief kan werk, lê eintlik in die vorm van die gebruiksgeval. Dit is moeilik om dit aan die begin te weet, maar as jy terugkyk, sal jy vind dat daar twee eienskappe is wat baie belangrik is vir 'n KI-agent om verder as demonstrasie te gaan en praktiese toepassing te betree.

Die eerste is dat die gebruiksgeval wat u oplos, kwantifiseerbare ROI (opbrengs op belegging) moet hê. Dit is baie belangrik, want as die ROI nie gekwantifiseer kan word nie, sal dit moeilik wees om mense te oortuig om werklik jou produk te gebruik en daarvoor te betaal. In ons geval is die kwantitatiewe aanwyser: watter persentasie ondersteuningsversoeke los u op? Omdat hierdie nommer duidelik is, kan mense dit verstaan - o, oukei, as jy meer oplos, kan ek hierdie resultaat vergelyk met my huidige uitgawes en tyd wat spandeer word. Dus, as daar hierdie aanwyser is, is 'n ander aanwyser wat vir ons baie belangrik is, klantetevredenheid. Omdat die ROI maklik gekwantifiseer kan word, sal mense dit regtig aanneem.

Die tweede faktor is dat die gebruiksgevalle inkrementeel moeiliker moet wees. Dit sal ook baie moeilik wees as jy 'n Agent nodig het om van die begin af bomenslik te wees, wat byna 100% van die gebruiksgevalle oplos. Omdat soos ons weet, LLM's nie-deterministies is, moet jy 'n soort gebeurlikheidsplan hê. Gelukkig is daar 'n wonderlike kenmerk van gevalle van ondersteuningsgebruik, en dit is dat u altyd na 'n mens kan eskaleer. Al kan jy net die helfte van die probleme oplos, is dit steeds baie waardevol vir mense.

So ek dink dat ondersteuning hierdie eienskap het wat dit baie geskik maak vir AI Agent. Ek dink daar is baie ander gebiede waar mense indrukwekkende demo's kan skep waar jy nie eers noukeurig hoef te kyk om te verstaan hoekom AI Agent nuttig sou wees nie. Maar as dit van die begin af perfek moet wees, dan is dit baie moeilik. As dit die geval is, sal byna niemand dit wil probeer of gebruik nie, want die gevolge van die onvolmaaktheid daarvan kan baie ernstig wees – byvoorbeeld in terme van sekuriteit.

Byvoorbeeld, wanneer mense simulasies doen, het hulle altyd hierdie klassieke gedagte: "O, dit sal wonderlik wees as LLM dit kan lees." Maar dit is moeilik om jou voor te stel dat iemand sê: “Goed, KI-agent, gaan daarvoor. Ek glo jy kan dit doen.” Want as dit 'n fout maak, kan die gevolge baie ernstig wees.

Jesse Zhang: Dit word gewoonlik deur ons kliënte besluit, en in werklikheid sien ons 'n baie wye verskeidenheid verskille. Op die een uiterste laat sommige mense hul Agent regtig soos 'n mens lyk, so daar is 'n menslike avatar, 'n menslike naam, en die reaksies is baie natuurlik. Aan die ander kant sê die Agent eenvoudig dat dit KI is en maak dit duidelik aan die gebruiker. Ek dink die verskillende maatskappye waarmee ons werk, het verskillende posisies hieroor.

Gewoonlik, as jy in 'n gereguleerde bedryf is, moet jy dit duidelik maak. Wat ek nou interessant vind, is dat kliëntegedrag verander. Omdat baie van ons kliënte baie terugvoer op sosiale media kry, soos: "O my God, dit is die eerste kletservaring wat ek nog ooit probeer het wat eintlik so eg voel," of "Dit is net magic." En dit is wonderlik vir hulle, want nou leer hul kliënte, hoor, as dit 'n KI-ervaring is, kan dit eintlik beter wees as 'n mens. Dit was nie die geval in die verlede nie, want die meeste van ons het daardie soort telefoonkliëntedienservaring in die verlede gehad: "Oukei, KI, KI, KI ..."

Kimberly Tan: Jy het die konsep van verpersoonliking 'n paar keer genoem. Almal gebruik dieselfde onderliggende tegnologie-argitektuur, maar hulle het verskillende verpersoonlikingsbehoeftes in terme van ondersteuningsdienste. Kan jy hieroor praat? Spesifiek, hoe bereik jy verpersoonliking sodat mense aanlyn kan sê: "My God, dit is die beste ondersteuningservaring wat ek nog gehad het"?

Jesse Zhang: Vir ons, verpersoonliking kom van aanpassing vir die gebruiker. Jy moet die gebruiker se agtergrondinligting verstaan, wat die bykomende konteks is wat vereis word. Tweedens moet jy ook die besigheidslogika van ons kliënte verstaan.As jy die twee kombineer, kan jy 'n redelik goeie ervaring bied.

Dit klink natuurlik eenvoudig, maar in werklikheid is dit baie moeilik om al die nodige konteks te verkry. Daarom is die meeste van ons werk oor hoe om die regte primitiewe komponente te bou sodat wanneer 'n kliënt ons stelsel ontplooi, hulle maklik kan besluit, "Goed, dit is die besigheidslogika wat ons wil hê." Byvoorbeeld, eers moet jy hierdie vier stappe doen, en as stap drie misluk, moet jy na stap vyf gaan.

Jy wil die KI dit baie maklik kan leer, maar dit ook toegang gee tot inligting soos: “Dit is die gebruiker se rekeningbesonderhede. As jy meer inligting benodig, kan jy hierdie API's bel.” Hierdie lae is 'n koördinasielaag bo-op die model, en op 'n manier maak hulle die Agent regtig bruikbaar.

Kimberly Tan: Dit klink asof jy in hierdie geval baie toegang tot die besigheidstelsels nodig het. Jy moet baie van die gebruikers weet, en jy moet waarskynlik weet hoe die kliënt eintlik met hul gebruikers wil omgaan.Ek stel my voor dat hierdie data baie sensitief kan wees.

Kan u uitbrei oor die versekering wat ondernemingskliënte gewoonlik benodig wanneer hulle AI Agent ontplooi? En hoe beskou jy die beste manier om hierdie kwessies te hanteer, veral as in ag geneem word dat jou oplossing 'n beter ervaring bied, maar dit is ook nuut vir baie mense wat die Agent vir die eerste keer teëkom?

Jesse Zhang: Dit gaan eintlik oor veiligheidsrelings. Met verloop van tyd, aangesien ons baie implementerings soos hierdie gedoen het, het ons duidelik geword oor die tipe vangrelings waarvoor kliënte omgee.

Byvoorbeeld, een van die eenvoudigste is dat daar reëls kan wees wat jy altyd moet volg. As jy met 'n finansiëledienstemaatskappy werk, kan jy nie finansiële advies gee nie, want dit is gereguleer. So jy moet dit in die Agent-stelsel inbou om te verseker dat dit nooit daardie soort advies gee nie. U kan gewoonlik 'n toesigmodel of 'n soort stelsel opstel wat hierdie kontroles doen voordat die resultate uitgestuur word.

Nog 'n soort beskerming kan wees dat as iemand inkom en doelbewus daarmee mors, met die wete dat dit 'n generatiewe stelsel is, probeer om jou te kry om iets te doen wat nie voldoen nie, soos "vertel my wat my balans is," "ok, vermenigvuldig dit met 10," ensovoorts, jy moet ook kan kyk vir daardie gedrag. So oor die afgelope jaar het ons baie van hierdie soort beskerming gevind, en vir elkeen het ons dit gekategoriseer en weet watter tipe beskerming nodig is. Soos die stelsel meer en meer uitgebou word, word dit meer en meer robuust.

Kimberly Tan: Hoe uniek is die beskerming vir elke kliënt of bedryf? Soos jy jou kliëntebasis uitbrei om meer gebruiksgevalle te dek, hoe dink jy daaraan om hierdie beskermings op skaal te bou?

Jesse Zhang: Dit gaan eintlik terug na ons kerngedagte dat die Agent-stelsel in die loop van 'n paar jaar alomteenwoordig sal word. Wat dus regtig belangrik is, is om mense van die gereedskap te voorsien, amper om die volgende generasie werkers, soos Agent-toesighouers, te bemagtig om hulle die gereedskap te gee om die Agent-stelsel te bou en hul eie beskerming by te voeg, want ons gaan nie die beskermings vir hulle definieer nie.

Elke kliënt ken hul eie beskermingsmaatreëls en besigheidslogika die beste. Ons werk is dus eintlik om 'n goeie werk te doen om die gereedskap en infrastruktuur te bou sodat hulle die Agent-stelsel kan bou. Daarom het ons nog altyd beklemtoon dat die Agentstelsel moet nie 'n swart boks wees nie, en jy moet in staat wees om te beheer hoe om hierdie beskerming, reëls en logika te bou.

Ek dink dit is waarskynlik ons mees onderskeidende aspek tot dusver. Ons het baie moeite gedoen met hierdie gereedskap en met kreatiewe maniere vorendag gekom om mense wat dalk nie 'n supertegniese agtergrond het nie, of selfs 'n diep begrip van hoe KI-modelle werk, toe te laat om steeds die aksies in te voer wat hulle wil hê KI moet uitvoer in die Agent-stelsel.

Ek dink dit gaan in die volgende paar jaar 'n al hoe belangriker vermoë word. Dit behoort een van die belangrikste kriteria te wees wanneer mense soortgelyke instrumente evalueer, want jy wil voortdurend hierdie stelsels met verloop van tyd kan optimaliseer en verbeter.

Besigheidslogika gedryf deur natuurlike taal

Derrick Harris: Watter voorbereidings kan kliënte of besighede tref om voor te berei vir enige tipe outomatisering, en veral die gebruik van hierdie Agent-stelsel? Hoe kan hulle byvoorbeeld hul datastelsels, sagteware-argitektuur of besigheidslogika ontwerp om sulke stelsels te ondersteun?

Omdat ek voel dat baie KI-tegnologie aanvanklik nuut is, maar wanneer dit by bestaande nalatenskapstelsels kom, ondervind dit dikwels baie chaos.

Jesse Zhang: As iemand nou van nuuts af bou, is daar baie beste praktyke wat jou werk makliker kan maak. Byvoorbeeld, hoe om jou kennisbasis te struktureer. Ons het oor sommige hiervan geskryf en 'n paar metodes bekendgestel wat dit vir KI makliker kan maak om inligting in te neem en die akkuraatheid daarvan te verbeter. Een spesifieke voorstel is om die kennisbasis in modulêre dele te verdeel, eerder as om een groot artikel met veelvuldige antwoorde te hê.

Wanneer jy die API opstel, kan jy hulle meer geskik maak vir die Agent-stelsel, en stel toestemmings en uitvoer op 'n manier wat dit maklik maak vir die Agent-stelsel om inligting in te neem sonder om baie berekeninge te doen om die antwoord te vind. Dit is 'n paar taktiese maatreëls wat geneem kan word, maar ek sal nie sê daar is iets wat gedoen moet word om die Agent-stelsel te gebruik nie.

Derrick Harris: Goeie dokumentasie is altyd belangrik, in wese gaan dit daaroor om inligting effektief te organiseer.

Kimberly Tan: Dit klink asof jy probeer om mense te leer hoe om die Agent-stelsel te rig om te funksioneer op 'n manier wat die beste by hul kliënte of spesifieke gebruiksgevalle pas, dan kan baie eksperimentering met die UI en UX-ontwerp vereis word, of jy moet nuwe roetes in hierdie heeltemal nuwe veld baan, want dit is baie anders as tradisionele sagteware.

Ek is nuuskierig, hoe dink jy hieroor? Hoe moet die UI en UX lyk in 'n Agent-eerste wêreld? Hoe dink jy gaan dit in die volgende paar jaar verander?

Jesse Zhang: Ek sou nie sê ons het hierdie probleem opgelos nie. Ek dink ons het dalk 'n plaaslike optimum gevind wat vir ons huidige kliënte werk, maar dit is steeds 'n voortdurende navorsingsgebied, vir ons en baie ander.

Die kernkwessie gaan terug na wat ons vroeër genoem het, naamlik dat u 'n Agent-stelsel het. Eerstens, hoe kan jy duidelik sien wat dit doen en hoe dit besluite neem? Hoe kan jy dan hierdie inligting gebruik om te besluit wat opgedateer moet word en watter terugvoer aan die KI gegee moet word? Dit is waar die UI-elemente bymekaar kom, veral die tweede deel.

Ons dink dat die UI en UX mettertyd meer en meer natuurlike taalgebaseer sal word, want dit is hoe die Agent-stelsel dink, of dit is basies die basis vir die opleiding van groot taalmodelle (LLM's).

In die uiterste, as jy 'n super-intelligente agent het wat basies soos 'n mens dink, kan jy dit dinge wys, dinge aan hom verduidelik, dit terugvoer gee, en dit sal in sy eie "gedagtes" opdateer. Jy kan jou voorstel dat 'n baie bekwame persoon by jou span aansluit, jy leer hom iets, hy begin werk, en dan hou jy aan om vir hom terugvoer te gee, jy kan vir hom nuwe dinge, nuwe dokumente, diagramme, ens.

Ek dink in die uiterste geval sal dit in hierdie rigting ontwikkel: dinge word meer gespreksgebonde, meer natuurlike taalgebaseer, en mense hou op om stelsels met komplekse besluitnemingsbome te bou soos hulle voorheen was en vasvang wat jy wil hê, maar hierdie benadering kan maklik afbreek. Ons moes dit vroeër doen omdat daar destyds geen LLM's was nie, maar noudat Agent-stelsels al hoe kragtiger word, sal UI en UX meer geselsend raak.

Kimberly Tan: Ongeveer 'n jaar en 'n half gelede, toe Decagon die eerste keer begin het, was daar 'n algemene persepsie dat LLM baie van toepassing was op baie gebruiksgevalle, maar in werklikheid was dit net 'n soort "GPT-omhulsel", waar maatskappye net 'n onderliggende model deur 'n API kon noem en hul ondersteuningsprobleme onmiddellik kon oplos.

Maar natuurlik, aangesien maatskappye kies om oplossings soos Decagon te gebruik in plaas daarvan om direk op daardie roete te gaan, blyk dit dat dit nie die geval is nie. Ek het gewonder of jy kan verduidelik hoekom dit die geval is. Wat presies het die uitdagings om intern te bou meer kompleks gemaak as wat verwag is? Watter wanopvattings het hulle oor die konsep gehad?

Jesse Zhang: Daar is niks verkeerd daarmee om 'n "GPT-omhulsel" te wees nie, jy kan sê dat Purcell 'n AWS-omhulsel is of iets dergeliks. Gewoonlik, wanneer mense hierdie term gebruik, beteken dit iets neerhalends.

My persoonlike siening is dat as jy 'n agentstelsel bou, jy beslis LLM as 'n instrument gaan gebruik. So jy bou eintlik bo-op iets wat reeds bestaan, net soos jy normaalweg op AWS of GCP sou bou.

Maar die werklike probleem waarmee jy kan loop, is as die sagteware wat jy bo-op LLM bou nie "swaar" of kompleks genoeg is om 'n verskil te maak nie.

As ons terugkyk, is dit wat ons verkoop basies sagteware vir ons. Ons is eintlik soos 'n gewone sagteware maatskappy, behalwe dat ons LLM gebruik as deel van die sagteware en as een van die hulpmiddels. Maar wanneer mense hierdie soort produk koop, wil hulle hoofsaaklik die sagteware self hê. Hulle wil gereedskap hê wat die KI kan monitor, wat diep kan delf in die besonderhede van elke gesprek wat die KI het, wat terugvoer kan gee, wat die stelsel voortdurend kan bou en aanpas.

Dit is dus die kern van ons sagteware. Selfs met die Agent-stelsel self is die probleem wat mense het dat dit gaaf is om 'n demo te doen, maar as jy dit produksiegereed en regtig klantgerig wil maak, moet jy baie jarelange probleme oplos, soos om die "illusie"-verskynsel te voorkom en om slegte akteurs te hanteer wat verwoesting probeer veroorsaak. Ons moet ook seker maak dat die latensie laag genoeg is, die toon gepas is, ensovoorts.

Ons het met baie spanne gepraat, en hulle het 'n paar eksperimente gedoen, 'n voorlopige weergawe gebou, en dan sou hulle besef: "O, regtig, ons wil nie diegene wees wat aanhou om hierdie besonderhede in latere stadiums te bou nie." Hulle wou ook nie diegene wees wat aanhou om nuwe logika by die kliëntediensspan te voeg nie. Op hierdie stadium lyk dit dus meer gepas om te kies om met ander saam te werk.

Kimberly Tan: Jy het 'n paar langtermynkwessies genoem, soos die behoefte om slegte akteurs te hanteer, ens.Ek glo baie luisteraars wat dit oorweeg om AI Agent te gebruik, is bekommerd oor nuwe sekuriteitsaanvalpaaie wat kan ontstaan na die bekendstelling van LLM's, of die nuwe sekuriteitsrisiko's wat kan ontstaan na die bekendstelling van die Agent-stelsel. Wat dink jy oor hierdie kwessies? En wat is die beste praktyke vir die versekering van top-notch ondernemingsekuriteit wanneer dit hanteer word Agent?

Jesse Zhang: Wat sekuriteit betref, is daar 'n paar ooglopende maatreëls wat getref kan word, wat ek vroeër genoem het, soos die behoefte aan beskermende maatreëls. Die kernkwessie is dat mense se bekommernisse oor LLM's is dat hulle nie deterministies is nie.

Maar die goeie nuus is dat jy eintlik die meeste van die sensitiewe en komplekse bewerkings agter 'n deterministiese muur kan plaas, en die berekening vind daar plaas wanneer dit die API roep. Jy maak dus nie heeltemal staat op LLM om dit te hanteer nie, en dit vermy baie van die kernprobleme.

Maar daar is steeds situasies waar, byvoorbeeld, 'n slegte akteur inmeng of iemand probeer om die stelsel te laat hallusineer. Ons het opgemerk dat in baie van die groot kliënte met wie ons werk, hul sekuriteitspanne sal ingaan en basies 'n "rooi span"-toets op ons produkte sal uitvoer, en weke spandeer om voortdurend verskeie moontlike aanvalle op die stelsel te loods om kwesbaarhede te probeer vind. Namate AI Agent al hoe meer gewild word, kan ons dit meer en meer gereeld sien gebeur, want dit is een van die beste maniere om te toets of 'n stelsel doeltreffend is. Dit is om iets deur 'n rooispantoets te gooi en te kyk of dit deur die verdediging kan breek.

Daar is ook nuwe ondernemings wat rooi spanhulpmiddels ontwikkel of mense in staat stel om self hierdie soort toetse te doen, wat 'n neiging is wat ons tans sien. Baie van die maatskappye met wie ons werk, sal op 'n later stadium in die verkoopsiklus hul sekuriteitspan, of saam met 'n eksterne span, die stelsel laat strestoets. Vir ons is dit 'n moet om daardie soort toetse te slaag. So, uiteindelik, is dit waarop dit neerkom.

Derrick Harris: Is dit iets wat jy jou kliënte aanmoedig om te doen? Want wanneer ons oor KI-beleide praat, noem ons 'n belangrike aspek, wat die toepassingslaag is, en ons beklemtoon plaas die verantwoordelikheid op die gebruikers van LLM en die mense wat die toepassing bestuur, eerder as om bloot die model self te blameer. Dit wil sê, kliënte moet rooi spantoetse uitvoer, spesifieke gebruiksgevalle en aanvalspaaie identifiseer, en bepaal watter kwesbaarhede beskerm moet word, eerder as om bloot te vertrou op die sekuriteitsbeskerming wat reeds deur OpenAI of ander maatskappye opgestel is.

Jesse Zhang: Ek stem heeltemal saam. Ek dink ook dat daar 'n nuwe golf van kennisgewingvereistes kan ontstaan, soortgelyk aan die SOC 2-sertifisering en HIPAA-sertifisering wat almal nou doen, wat in verskillende industrieë vereis word. Gewoonlik, wanneer jy 'n generiese SaaS-produk verkoop, sal kliënte penetrasietoetsing vereis, en ons moet ook ons penetrasietoetsverslag verskaf. Vir AI Agent kan daar soortgelyke vereistes in die toekoms wees, en iemand kan dit dalk noem, maar dit is basies 'n nuwe manier om te toets of die Agent-stelsel kragtig genoeg is.

Kimberly Tan: Een ding wat interessant is, is dat almal natuurlik baie opgewonde is oor die nuwe modeldeurbrake en tegnologiese deurbrake wat deur al die groot laboratoriums bekendgestel word. As 'n KI-maatskappy doen jy natuurlik nie jou eie navorsing nie, maar jy gebruik daardie navorsing en bou baie sagteware daaromheen om aan die eindkliënt te lewer.

Maar jou werk is gebaseer op vinnig veranderende tegnologie. Ek is nuuskierig, as 'n toegepaste KI-maatskappy, hoe hou jy tred met nuwe tegnologiese veranderinge en verstaan hoe dit die maatskappy beïnvloed terwyl jy jou eie produkpadkaart kan voorspel en gebruikersbehoeftes kan bou? Meer in die breë, watter strategieë moet toegepaste KI-maatskappye in soortgelyke situasies aanneem?

Jesse Zhang: Jy kan eintlik die hele stapel in verskillende dele verdeel. Byvoorbeeld, LLM is onderaan as jy na die toepassingslaag kyk. Jy het dalk 'n paar gereedskap in die middel wat jou help om LLM te bestuur of 'n paar evaluering en sulke dinge te doen. Dan is die boonste deel basies wat ons gebou het, wat eintlik soos 'n standaard SaaS is.

So, die meeste van ons werk verskil eintlik nie so van gewone sagteware nie, behalwe dat ons 'n ekstra navorsingskomponent het – LLM verander te vinnig. Ons moet navors wat hulle kan doen, waarmee hulle goed is en watter model gebruik moet word om 'n sekere taak uit te voer. Dit is 'n groot probleem omdat beide OpenAI en Anthropic nuwe tegnologie bekendstel, en Gemini verbeter ook geleidelik.

Daarom, jy moet jou eie evalueringsmeganisme hê om te verstaan watter model geskik is vir gebruik in watter situasie. Soms moet jy ook fyn instel, maar die vraag is: wanneer om te verfyn? Wanneer is fyn-instelling die moeite werd? Dit is waarskynlik die hoofnavorsingskwessies wat verband hou met LLM's waarop ons fokus. Maar ten minste tot dusver voel ons nie dat SaaS vinnig verander nie, want ons is nie van die middellaag afhanklik nie. So basies is dit die LLM's wat verander. Hulle verander nie baie gereeld nie, en wanneer hulle dit doen, is dit gewoonlik 'n opgradering. Byvoorbeeld, Claude 3.5 sonnet is 'n paar maande gelede opgedateer, en op daardie tydstip het ons gedink: "Goed, moet ons oorskakel na die nuwe model in plaas daarvan om voort te gaan om die ou een te gebruik?"

Ons moet net 'n reeks assesserings uitvoer, en sodra ons na die nuwe model oorgeskakel het, dink ons nie meer daaraan nie, want jy gebruik reeds die nuwe model. Toe kom die o1-weergawe uit, en die situasie was soortgelyk. Dink na oor waar dit gebruik kan word. In ons geval is o1 'n bietjie stadig vir die meeste klantgerigte gebruiksgevalle, so ons kan dit vir 'n bietjie agtergrondwerk gebruik. Uiteindelik moet ons net 'n goeie stelsel vir modelnavorsing hê.

Kimberly Tan: Hoe gereeld evalueer jy 'n nuwe model en besluit of jy dit moet vervang?

Jesse Zhang: Ons evalueer elke keer as 'n nuwe model uitkom. Jy moet seker maak dat al is die nuwe model slimmer, dit nie sommige van die gebruiksake wat jy reeds gebou het, breek nie. Dit kan gebeur. Byvoorbeeld, die nuwe model kan oor die algemeen slimmer wees, maar in sommige uiterste gevalle presteer dit swak op 'n A/B-keuse in een van jou werkstrome. Dit is waarvoor ons evalueer.

Ek dink in die algemeen, die tipe intelligensie waarvoor ons die meeste omgee, is wat ek sou noem "instruksievolgvermoë." Ons wil hê die model moet beter en beter word om instruksies te volg. As dit die geval is, dan is dit beslis voordelig vir ons, en dit is baie goed.

Dit blyk dat onlangse navorsing meer gefokus het op die tipe intelligensie wat redenering behels, soos beter programmering en beter wiskundige bewerkings. Dit help ons ook, maar dit is nie so belangrik soos die verbetering van instruksievolgvermoë nie.

Kimberly Tan: Een baie interessante punt wat jy genoem het, en ek dink dit is ook baie uniek aan Decagon, is dat jy baie evaluasie-infrastruktuur in die huis gebou het om seker te maak jy weet presies hoe elke model presteer onder die stel toetse wat jy verskaf.

Kan jy hieroor uitbrei? Hoe belangrik is hierdie interne evalueringsinfrastruktuur, en spesifiek hoe gee dit jou en jou kliënte vertroue in Agent se prestasie? Omdat sommige van hierdie evaluasies ook klantgerig is.

Jesse Zhang: Ek dink dit is baie belangrik, want sonder hierdie evaluasie-infrastruktuur sou dit vir ons baie moeilik wees om vinnig te herhaal.

As jy voel dat elke verandering 'n hoë waarskynlikheid het om iets te breek, sal jy nie vinnig veranderinge aanbring nie. Maar as jy 'n evalueringsmeganisme het, dan kan jy dit direk vergelyk met al die evalueringstoetse, wanneer daar 'n groot verandering is, 'n modelopdatering of iets nuuts kom. As die evalueringsresultate goed is, kan jy voel: goed, ons het 'n verbetering gemaak, of jy kan dit met selfvertroue vrystel sonder om te veel bekommerd te wees.

So, in ons veld, evaluering vereis insette van die kliënt, want die kliënt is die een wat besluit of iets korrek is of nie. Natuurlik kan ons 'n paar hoëvlakkwessies nagaan, maar gewoonlik verskaf die kliënt spesifieke gebruiksgevalle en vertel ons wat die korrekte antwoord is, of wat dit moet wees, watter toon dit moet handhaaf, wat dit moet sê.

Die beoordeling is hierop gebaseer. Ons moet dus seker maak dat ons assesseringstelsel robuust genoeg is. Aan die begin het ons dit self gebou, en dit is nie so moeilik om in stand te hou nie. Ons weet ook dat daar 'n paar assesseringsmaatskappye is, en ons het sommige van hulle ondersoek. Miskien sal ons een of ander tyd oorweeg of ons hulle moet aanneem, maar vir nou is die assesseringstelsel nie meer 'n pynpunt vir ons nie.

Kimberly Tan: 'n Baie gewilde onderwerp vandag is multimodaliteit, wat beteken dat KI-agente in staat moet wees om interaksie te hê oor al die vorms wat mense vandag gebruik, of dit nou teks, video, stem, ens is. Ek weet dat Decagon as teksgebaseer begin het. Vanuit jou perspektief, hoe belangrik is multimodaliteit aan KI-agente? Wat dink jy is die tydraamwerk vir dit om hoofstroom of selfs 'n standaard te word?

Jesse Zhang: Dit is belangrik, en vanuit 'n maatskappyperspektief is dit nie besonder moeilik om 'n nuwe modaliteit by te voeg nie. Dit is nie eenvoudig nie, maar die kern is: as jy ander probleme oplos, soos dié wat ek genoem het – byvoorbeeld om die KI te bou, dit te monitor en die regte logika te hê – dan is die byvoeging van 'n nuwe modaliteit nie die moeilikste ding om te doen nie. Vir ons maak dit dus baie sin om al die modaliteite te hê, en dit brei ons mark uit. Ons is basies modaliteit agnosties, en ons bou ons eie Agent vir elke modaliteit.

Oor die algemeen is daar twee beperkende faktore: eerstens, is die kliënt gereed om die nuwe modaliteit aan te neem? Ek dink dit maak baie sin om met teks te begin, want dit is die manier waarop mense die aktiefste aanneem, en dit is vir hulle minder riskant, makliker om te monitor en makliker om te verstaan. Die ander groot modaliteit is stem. Uiteraard dink ek daar is nog ruimte in die mark, en gebruikersaanvaarding van stem moet nog verbeter. Op die oomblik sien ons 'n paar vroeë aannemers wat stemagente begin aanneem het, wat baie opwindend is. Die ander aspek is die tegniese uitdagings. Die meeste mense sal saamstem dat die maat hoër gestel is vir stem. As jy met iemand oor die telefoon praat, het jy baie kort stemvertraging nodig. As jy iemand in die rede val, moet hulle natuurlik reageer.

Omdat die latensie van spraak laer is, moet jy slimmer wees in die manier waarop jy bereken. As jy in ’n geselsie is en die reaksietyd is vyf tot agt sekondes, merk jy dit skaars op en dit voel baie natuurlik. Maar as dit vyf tot agt sekondes neem om op die telefoon te reageer, voel dit 'n bietjie onnatuurlik. Daar is dus meer tegniese uitdagings met spraak. Soos hierdie tegniese uitdagings opgelos word en die belangstelling in die aanvaarding van spraak in die mark toeneem, sal spraak as 'n nuwe modaliteit hoofstroom word.

'n Besigheidsmodel wat oor vertroue spring

Kimberly Tan: Voordat ons voortgaan, wil ek 'n bietjie meer oor die AI Agent-besigheidsmodel praat. Wanneer jy eers gebou KI Agent of die stelsel wat hulle gebruik, die data wat hulle verwerk en hul bekommernisse met kliënte bespreek, was daar iets wat jou verras het? Wat is van die nie-intuïtiewe of verrassende dinge wat Decagon moes doen om ondernemingskliënte beter te bedien?

Jesse Zhang: Ek dink die mees verrassende ding was die mate waarin mense bereid was om met ons te praat toe ons die eerste keer begin het. Daar was immers net twee van ons. Ons het albei voorheen maatskappye begin, so ons het baie mense geken, maar tog, vir elke entrepreneur, wanneer jy 'n verwysingsgesprek aan die gang wil kry, as wat jy sê nie besonder dwingend is nie, is die gesprek gewoonlik redelik lou.

Maar toe ons oor hierdie gebruiksgeval begin praat, het ek dit eintlik nogal verbasend gevind hoe opgewonde mense was om daaroor te praat. Omdat die idee so voor die hand liggend lyk. Jy mag dalk dink dat aangesien dit so 'n voor die hand liggende idee is, moet iemand anders dit reeds gedoen het, of daar moet reeds 'n oplossing wees, of iemand anders moet reeds met 'n soort oplossing vorendag gekom het. Maar ek dink ons het 'n goeie oomblik gevang, daardie gebruiksgeval is regtig groot en mense gee regtig om daaroor. Soos ek voorheen genoem het, is daardie gebruiksgeval regtig geskik om AI Agent te neem en dit in produksie te stoot, want jy kan dit inkrementeel implementeer en die ROI kan opspoor.

Dit was vir my 'n aangename verrassing, maar daar is natuurlik baie werk om daarna te doen, jy moet met kliënte werk, jy moet die produk bou, jy moet uitvind watter kant toe. In die beginfase was dit werklik 'n verrassende ontdekking.

Derrick Harris: Kimberly, ek voel ek moet daardie blogpos noem wat jy geskryf het, RIP na RPA, wat baie aanraak die outomatiseringstake en opstart.Dink jy daar is 'n verskynsel waarin hierdie outomatiese take, of oplossings, nie so ideaal is nie, sodat mense altyd op soek is na 'n beter manier?

Kimberly Tan: Ja, ek dink so. Ek wil graag 'n paar dinge sê. Eerstens, as 'n idee vir almal voor die hand liggend is, maar daar is geen duidelike maatskappy om dit op te los nie, of niemand wys na 'n maatskappy en sê: "Jy moet dit gebruik nie," dan beteken dit dat die probleem nie eintlik opgelos is nie.

In 'n sekere sin is dit 'n heeltemal oop geleentheid vir 'n maatskappy om 'n oplossing te ontwikkel. Want, soos jy gesê het, ons volg Decagon van die begin af as 'n belegger. Ons het gesien hoe hulle deur die kreatiewe doolhof navigeer, en toe hulle besluit om in hierdie rigting te gaan en met kliënte begin praat, het dit duidelik geword dat alle kliënte desperaat was vir een of ander inheemse KI-geaktiveerde oplossing. Dit is een van die probleme wat ek vroeër genoem het, waar baie mense dink dit is net 'n GPT-omhulsel. Maar die kliëntebelangstelling wat Decagon van die begin af ontvang het, het ons vroeg laat besef dat baie van hierdie kwessies baie meer ingewikkeld is as wat mense verwag.

Ek dink hierdie verskynsel vind plaas in nywerhede, of dit nou kliëntediens of professionele outomatisering in sekere vertikale is. Ek dink een van die onderskatte punte is, soos Jesse vroeër genoem het, om die opbrengs op belegging (ROI) van outomatiseringstake duidelik te meet. Want as jy iemand gaan kry om 'n KI-agent te aanvaar, neem hulle eintlik 'n mate van "leap of faith" want dit is 'n baie onbekende gebied vir baie mense.

As jy 'n baie spesifieke proses kan outomatiseer wat óf 'n ooglopende inkomste-genererende proses is, óf 'n proses wat voorheen 'n bottelnek in die besigheid uitgemaak het, of 'n groot kostesentrum wat lineêr toeneem met kliëntegroei of inkomstegroei, dan sal dit makliker wees om aanvaarding vir die KI Agent te kry. Die vermoë om sulke probleme in 'n meer geproduseerde proses te omskep wat soos tradisionele sagteware afgeskaal kan word, is baie aantreklik.

Kimberly Tan: Ek het 'n laaste vraag voor ons aanbeweeg. Ek onthou dat Jesse in ons vorige besprekings altyd gesê het dat die grootste uitdaging vir maatskappye wat sagteware of KI-agente aanneem hallusinasies sou wees. Maar jy het eenkeer vir my gesê dat dit eintlik nie die hoofprobleem is nie. Kan jy uitbrei oor hoekom die persepsie van hallusinasies ietwat misleidend is en waaroor mense eintlik meer bekommerd is?

Jesse Zhang: Ek dink mense gee om vir hallusinasies, maar hulle is meer bekommerd oor die waarde wat hulle kan bied. Byna al die maatskappye met wie ons werk fokus op dieselfde paar kwessies, amper presies dieselfde: watter persentasie gesprekke kan jy oplos? Hoe tevrede is my kliënte? Dan kan die hallusinasiekwessie as 'n derde kategorie geklassifiseer word, naamlik hoe akkuraat dit is. Oor die algemeen is die eerste twee faktore belangriker tydens evaluering.

Kom ons sê jy praat met 'n nuwe besigheid en jy het baie goeie werk gedoen met die eerste twee faktore, en jy het baie ondersteuning van die leierskap en almal in die span gekry. Hulle is soos, "O my God, ons kliënt ervaring is anders. Elke kliënt het nou hul eie persoonlike assistent wat ons enige tyd kan kontak. Ons het vir hulle goeie antwoorde gegee, hulle is baie tevrede, en dit is veeltalig en 24/7 beskikbaar.” Dit is maar deel daarvan, en jy het ook baie geld gespaar.

Sodra jy daardie doelwitte bereik het, kry jy baie ondersteuning en baie winde om die werk te dryf. Natuurlik moet die illusie-kwessie uiteindelik opgelos word, maar dit is nie die ding waaroor hulle die meeste bekommerd is nie. Die manier om die illusie op te los, is dieselfde manier wat ek voorheen genoem het – mense sal jou toets. Daar kan 'n bewys-van-konsep-fase wees waar jy werklik gesprekke voer en hulle het spanlede wat monitor en nagaan vir akkuraatheid. As dit goed gaan, dan gaan dit gewoonlik deur.

Soos ek voorheen genoem het, kan jy ook 'n paar streng beskermingsmaatreëls vir sensitiewe inligting opstel, soos jy nie noodwendig sensitiewe inhoud generies hoef te maak nie. Die illusiekwessie is dus 'n besprekingspunt in die meeste transaksies. Dit is nie 'n onbelangrike onderwerp nie. Jy sal deur hierdie proses gaan, maar dit is nooit die fokus van die gesprek nie.

Kimberly Tan: Kom ons gaan nou oor na die sakemodel van AI Agent. Vandag is daar 'n groot onderwerp oor hoe om hierdie KI-agente te prys.

Histories word baie SaaS-sagteware volgens die aantal sitplekke geprys omdat dit werkvloeisagteware is wat individuele werknemers teiken en gebruik word om werknemerproduktiwiteit te verbeter. AI Agent is egter nie gekoppel aan die produktiwiteit van individuele werknemers soos tradisionele sagteware nie.

So baie mense dink dat die prysmetode gebaseer op die aantal sitplekke dalk nie meer van toepassing is nie. Ek is nuuskierig oor hoe jy het in die vroeë dae aan hierdie dilemma gedink en hoe jy uiteindelik besluit het om Decagon te prys. Ook, wat dink jy sal die toekomstige tendens van sagtewarepryse wees namate AI Agent meer en meer algemeen word?

Jesse Zhang: Ons siening oor hierdie kwessie is dat sagteware in die verlede per sitplek geprys is omdat die skaal rofweg gebaseer was op die aantal mense wat die sagteware kon gebruik. Maar vir die meeste KI-agente hang die waarde wat u verskaf nie af van die aantal mense wat dit in stand hou nie, maar eerder van die hoeveelheid werk wat geproduseer word. Dit stem ooreen met die punt wat ek vroeër genoem het: as die opbrengs op belegging (ROI) baie meetbaar is, dan is die vlak van werkuitset ook baie duidelik.

Ons siening is dat pryse volgens die aantal sitplekke beslis nie van toepassing is nie. Jy kan prys op grond van die uitset van die werk. Dus, die prysmodel wat u aanbied, moet wees dat hoe meer werk gedoen word, hoe meer betaal u.

Vir ons is daar twee ooglopende maniere om te prys. Jy kan óf gesprekke prys, óf jy kan die gesprekke prys wat die KI eintlik oplos. Ek dink een van die interessante lesse wat ons geleer het, is dat die meeste mense die gespreksprysmodel gekies het. Die rede is dat die grootste voordeel van pryse per oplossing is dat jy waarvoor betaal die AI doen.

Maar die vraag wat volg is, wat word as 'n "oplossing" beskou? Eerstens wil niemand in diepte hierop ingaan nie, want dit word: "As iemand kwaad inkom en jy stuur hulle weg, hoekom moet ons daarvoor betaal?"

Dit skep 'n ongemaklike situasie en maak ook die aansporings vir KI-verskaffers 'n bietjie vreemd, want fakturering deur oplossing beteken: "Ons moet net soveel as moontlik gesprekke oplos en sommige mense wegstoot." Maar daar is baie gevalle waar dit beter is om die kwessie te eskaleer eerder as om dit net weg te stoot, en kliënte hou nie van hierdie soort hantering nie. Daarom sal fakturering deur gesprek meer eenvoud en voorspelbaarheid bring.

Kimberly Tan: Hoe lank dink jy sal die toekomstige prysmodel hou?Want nou, wanneer jy ROI noem, is dit gewoonlik gebaseer op vorige besteding wat dalk gebruik is om arbeidskoste te dek. Namate KI-agente meer algemeen word, dink jy dat KI op lang termyn met arbeidskoste vergelyk sal word en dat dit 'n gepaste maatstaf is? Indien nie, hoe sien jy langtermynpryse bo arbeidskoste?

Jesse Zhang: Ek dink dat AI Agent-pryse op lang termyn steeds hoofsaaklik aan arbeidskoste gekoppel kan word, want dit is die skoonheid van die Agent – jou vorige besteding aan dienste kan nou na sagteware verskuif word.

Hierdie deel van die uitgawes kan 10 tot 100 keer dié van sagteware-uitgawes wees, so baie van die koste sal na sagteware verskuif. Daarom sal arbeidskoste natuurlik 'n maatstaf word. Vir ons kliënte is die ROI baie duidelik. As jy X miljoen aan arbeidskoste kan bespaar, maak dit sin om hierdie oplossing aan te neem. Maar op die lange duur is dit dalk in die middelgrond.

Want selfs sommige produkte wat nie so goed soos ons Agent is nie, sal laer pryse aanvaar. Dit is soos die klassieke SaaS-situasie, waar almal om markaandeel meeding.

Kimberly Tan: Wat dink jy hou die toekoms in vir huidige SaaS-maatskappye, veral dié wie se produkte dalk nie inheems vir KI gebou is nie of wat per sitplek geprys is en dus nie by 'n uitkomsgerigte prysmodel kan aanpas nie?

Jesse Zhang: Vir sommige tradisionele maatskappye is dit inderdaad 'n bietjie moeilik as hulle probeer om 'n AI Agent-produk bekend te stel omdat hulle dit nie met 'n sitplekmodel kan prys nie. As jy nie meer soveel Agente nodig het nie, is dit moeilik om inkomste met die bestaande produk te handhaaf. Dit is 'n probleem vir tradisionele maatskappye, maar dit is moeilik om te sê. Tradisionele maatskappye het altyd die voordeel van verspreidingskanale. Selfs al is die produk nie so goed soos die nuwe maatskappy nie, is mense huiwerig om die moeite te spandeer om 'n nuwe verskaffer met slegs 80% van die kwaliteit te aanvaar.

Dus, eerstens, as jy 'n beginner soos ons is, moet jy verseker dat jou produk drie keer beter is as die tradisionele produk. Tweedens, dit is 'n tipiese kompetisie tussen tradisionele maatskappye en beginners. Tradisionele maatskappye het natuurlik 'n laer risikotoleransie omdat hulle 'n groot aantal kliënte het. As hulle 'n fout maak in vinnige iterasie, sal dit groot verliese veroorsaak. Opstartondernemings kan egter vinniger herhaal, so die iterasieproses self kan tot 'n beter produk lei. Dit is die gewone siklus. Vir ons was ons nog altyd trots op ons spoed van aflewering, kwaliteit van die produk en die uitvoering van ons span. Dit is hoekom ons die huidige ooreenkoms gewen het.

Kimberly Tan: Kan jy 'n paar voorspellings maak oor die toekoms van KI in die werkplek? Byvoorbeeld, hoe sal dit werknemers se behoeftes of vermoëns verander, of hoe menslike werknemers en KI-agente interaksie het?Watter nuwe beste praktyke of norme dink jy sal die norm in die werkplek word namate KI-agente meer wydverspreid word?

Jesse Zhang: Die eerste en belangrikste verandering is dat ons oortuig is dat werknemers in die toekoms baie meer tyd in die werkplek sal spandeer om KI-agente te bou en te bestuur, soortgelyk aan die rol van KI-toesighouers. Selfs as jou posisie nie amptelik 'n "KI-toesighouer" is nie, sal baie van die tyd wat jy gebruik het om jou werk te spandeer, verskuif word na die bestuur van hierdie Agente, want Agente kan jou baie hefboomwerking gee.

Ons het dit in baie ontplooiings gesien waar mense wat eens spanleiers was, nou baie tyd spandeer om KI te monitor, byvoorbeeld om seker te maak dit het nie probleme nie of om aanpassings te maak. Hulle monitor algehele prestasie om te sien of daar spesifieke areas is wat aandag nodig het, of daar leemtes in die kennisbasis is wat die KI kan help om beter te word, en of die KI daardie leemtes kan vul.

Die werk wat gepaard gaan met die werk met 'n agent, wek die indruk dat werknemers in die toekoms 'n aansienlike hoeveelheid tyd sal spandeer om met KI-agente te kommunikeer. Dit is 'n kernkonsep van ons maatskappy, soos ek vroeër genoem het. Daarom is ons hele produk gebou om mense van gereedskap, visualisering, interpreteerbaarheid en beheer te voorsien. Ek dink binne 'n jaar sal dit 'n groot tendens word.

Kimberly Tan: Dit maak baie sin. Watter vermoëns dink jy sal KI-toesighouers in die toekoms nodig hê? Wat is die vaardighede vir hierdie rol?

Jesse Zhang: Daar is twee aspekte. Een daarvan is waarneembaarheid en interpreteerbaarheid, die vermoë om vinnig te verstaan wat die KI doen en hoe dit besluite neem. Die ander is die besluitnemingsvermoë, of die boudeel, hoe om terugvoer te gee en hoe om nuwe logika te bou. Ek dink hierdie twee is twee kante van dieselfde munt.

Kimberly Tan: Watter take dink jy sal op medium- of langtermyn buite die KI-agent se vermoëns bly en sal steeds deur mense bestuur en uitgevoer moet word?

Jesse Zhang: Ek dink dit sal hoofsaaklik afhang van die vereiste vir "perfeksie" wat ek vroeër genoem het. Daar is baie take wat 'n baie lae toleransie vir foute het. In hierdie gevalle is enige KI-instrument meer 'n hulpmiddel as 'n volwaardige agent.

Byvoorbeeld, in sommige meer sensitiewe bedrywe, soos gesondheidsorg of sekuriteit, waar jy amper perfek moet wees, kan KI-agente in hierdie gebiede minder outonoom word, maar dit beteken nie dat hulle nutteloos is nie. Ek dink die styl sal anders wees, in 'n platform soos ons s'n, ontplooi jy eintlik hierdie agente om hulle die hele taak te laat outomatiseer.

Derrick Harris: En dit is al vir hierdie episode. As jy hierdie onderwerp interessant of inspirerend gevind het, gradeer asseblief ons podcast en deel dit met meer mense.Ons verwag om die laaste episode voor die einde van die jaar vry te stel en sal die inhoud vir die nuwe jaar herwerk. Dankie vir die luister en geniet 'n wonderlike vakansieseisoen (as jy gedurende die vakansie luister).

Oorspronklike video: Kan Al Agente uiteindelik kliëntediens regmaak?

a16z dialoog met 27-jarige HUB: AI Agent het 'n groot hefboomeffek, en langtermynpryse sal gekoppel word aan arbeidskoste

Hoogtepunte

AI Agent hervorm die kliëntervaring

Besigheidslogika gedryf deur natuurlike taal

'n Besigheidsmodel wat oor vertroue spring

Die wêreld se hoofstroom KI-produkte fokus op ontleding en omvattende riglyne vir gebruikerservaring (insluitend DeepSeek en GPT)

Gemini 2.0 oorheers die kaarte, terwyl DeepSeek V3 huil in sy prys, en 'n nuwe koste-effektiewe kampioen word gebore!

'n Omvattende vergelyking van OpenAI se nuut vrygestelde o3-mini en DeepSeek R1

Altman: Ons was verkeerd oor open source KI! DeepSeek het OpenAI minder voordelig gemaak, en die volgende een is GPT-5

Die konfrontasie van die top vier modelle! 'n Oorsig wys hoe kragtig Deepseek R1 is

DeepSeek-R1-0528 Opdatering: Dieper denke, sterker redenasie

Maak 'n opvolg-bydrae Kanselleer die opvolg-bydrae

Hoogtepunte

AI Agent hervorm die kliëntervaring

Besigheidslogika gedryf deur natuurlike taal

'n Besigheidsmodel wat oor vertroue spring

Soortgelyke plasings

Maak 'n opvolg-bydrae Kanselleer die opvolg-bydrae