亮點

  • LLM的神奇之處在於它們非常靈活,可以適應許多不同的情況,並且具有基本的智慧。
  • 我們相信隨著時間的推移,UI 和 UX 將越來越基於自然語言,因為這是 Agent 系統的思維方式,或者這基本上是大型語言模型 (LLM) 訓練的基礎。
  • 如果你想讓某人接受人工智慧代理,他們實際上需要一定程度的“信仰的飛躍”,因為對於許多人來說,這是一個非常陌生的領域。

AI 代理重塑客戶體驗

張傑: 代理實際上是如何建構的?我們認為,隨著時間的推移,它將變得越來越像一個基於自然語言的代理,因為這就是大型語言模型 (LLM) 的訓練方式。

從長遠來看,如果你擁有一個真正像人類一樣的超級智慧代理,你可以向它展示事物、向它解釋、給它回饋,它就會更新其頭腦中的信息。

你可以想像擁有一位非常有能力的人類團隊成員。當他們第一次加入時,你教他們一些東西,他們開始工作,然後你給他們回饋並向他們展示新的資訊。

最終,它會朝著這個方向發展——它將變得更加對話化、更加基於自然語言,人們彼此交流的方式也將變得更加自然。人們將不再使用那些複雜的決策樹來捕捉需求,雖然這能起作用但容易崩潰。

過去,我們必須這樣做,因為我們沒有大型的語言模型。但現在,隨著Agent的不斷進步,使用者體驗(UX)和使用者介面(UI)將變得更加具有對話性。

德里克哈里斯:大家好,歡迎收聽 A16z AI 播客。我是 Derrick Harris,今天我將與 Decagon 聯合創始人兼首席執行官 Jesse Zhang 以及 a16z 合夥人 Kimberly Tan 一起參加節目。 Kimberly 將主持討論,Jesse 將分享他打造 Decagon 及其產品的經驗。

如果您對它不太了解,Decagon 是一家為企業提供 AI 代理以協助客戶支援的新創公司。這些代理既不是聊天機器人,也不是單一 API 呼叫的 LLM 包裝器,而是高度客製化的高階代理,可以根據公司的特定需求處理複雜的工作流程。

除了解釋他們創建 Decagon 的原因以及它如何構建來處理不同的 LLM 和客戶環境之外,Jesse 還談到了按對話收費的商業模式的好處,以及 AI 代理將如何改變客戶支持領導者所需的技能。

另外值得一提的是,Kimberly 最近寫了一篇部落格文章,題為“RIP 到 RPA,智能自動化的興起”,我們在本期節目中對此進行了簡要討論。

這是了解自動化如何在業務流程中起飛的一個很好的起點,我們將在節目說明中提供一個連結。最後,提醒一下,本文內容僅供參考,不應視為法律、商業、稅務或投資建議,也不應用於評估任何投資或證券,也不針對任何 a16z 基金投資者或潛在投資者。

張傑: 簡單介紹一下我自己。我出生在博爾德並在那裡長大,小時候參加過很多數學競賽之類的活動。我在哈佛大學學習電腦科學,然後創辦了一家公司,該公司也得到了 a16z 的支持。我們最終被 Niantic 收購。

然後我們開始建造Decagon。我們的業務是建立用於客戶服務的人工智慧代理。一開始,我們這樣做是因為我們想做一些我們內心非常貼近的事情。

當然,沒有人需要被教導人工智慧代理在客戶服務中的作用,對吧?我們都曾與航空公司、飯店等通電話並等待接聽。所以這個想法就是從那時開始的。

我們與許多客戶進行了交流,以明確我們應該生產什麼樣的產品。讓我們印象深刻的一件事是,隨著我們對人工智慧代理商了解得越來越多,我們開始思考當人工智慧代理數量眾多時未來會是什麼樣子。我想每個人都相信未來會出現大量的人工智慧代理。

我們思考的是,圍繞人工智慧代理工作的員工會做什麼?他們會有什麼樣的工具?他們將如何控製或查看與他們合作或管理的代理商?

這就是我們圍繞這個問題建立公司的核心。我想這也是我們現在與眾不同的地方,因為我們為這些人工智慧代理提供了各種工具,幫助與我們合作的人建立和配置這些代理,使它們不再是一個「黑盒子」。這就是我們打造品牌的方式。

德里克哈里斯:您上一家公司是一家面向消費者的視訊公司,是什麼促使您進軍企業軟體領域?

張傑: 好問題。我認為創辦人在選擇主題時往往是“主題不可知論者”,因為實際上,當你接觸到一個新領域時,你通常會非常天真。因此,從新的角度看待事物是有優勢的。所以我們在思考的時候,幾乎沒有任何話題的限制。

我認為對於具有更多定量背景的人來說,這是一種非常常見的模式,包括我自己。在嘗試過消費性產品之後,你會更傾向於企業軟體,因為企業軟體有更多具體的問題。

您有實際的客戶,他們有實際的需求和預算等等,您可以針對這些問題進行最佳化和解決。消費市場也非常有吸引力,但它更多的是基於直覺,而不是由實驗驅動。就我個人而言,企業軟體更適合。

Kimberly Tan:首先,我們可以從這個問題開始:Decagon 目前處理的最常見的支援類別有哪些?您能詳細說明如何使用大型語言模型 (LLM) 解決這些問題嗎,以及您現在可以做哪些以前無法做到的事情?

張傑: 如果回顧先前的自動化,您可能已經使用決策樹來做一些簡單的事,以確定採取哪條路徑。但我們都使用過聊天機器人,這是一種非常令人沮喪的體驗。

決策樹通常無法完全回答您的問題。因此,您最終會被引導到與問題相關但不完全匹配的問題路徑。現在,我們有大型語言模型(LLM)。 LLM的神奇之處在於它們非常靈活,可以適應許多不同的情況,並且具有基本的智慧。

當您將其應用於客戶支援或當客戶提出問題時,您可以提供更個人化的服務。這是第一點,個性化的程度有很大的提升。這將解鎖更高的指標。您可以解決更多問題,客戶更滿意,客戶滿意度也隨之提升。

下一步自然是:如果你擁有這種智慧,你就應該能夠做更多人類可以做的事情。人類可以做的事情是,他們可以即時提取數據,可以採取行動,並且可以透過多個步驟進行推理。如果客戶問了一個相對複雜的問題,例如“我想做這個和那個”,那麼人工智慧只準備處理第一個問題。 LLM 夠聰明,能夠體認到這裡有兩個問題。首先它會解決第一個問題,然後幫你解決第二個問題。

在LLM出現之前,這基本上是不可能的。因此,我們現在看到了科技所能做的事情的重大變化,這要歸功於法學碩士。

Kimberly Tan:在這種情況下,您如何定義 AI 代理?由於「代理」一詞被廣泛使用,我很好奇它在 Decagon 的脈絡中到底意味著什麼。

張傑: 我想說 Agent 更多是指多個 LLM(大型語言模型)系統協同工作的系統。您有一個 LLM 調用,它基本上涉及發送提示並獲取回應。對於代理,您希望能夠連接多個這樣的調用,甚至可能是遞歸調用。

例如,您有一個 LLM 調用來確定如何處理訊息,然後它可能會觸發其他調用,提取更多資料、執行操作並迭代使用者所說的內容,甚至可能詢問後續問題。因此對我們來說,代理可以被理解為幾乎由 LLM 呼叫、API 呼叫或其他邏輯組成的網絡,它們協同工作以提供更好的體驗。

Kimberly Tan:關於這個話題,或許我們可以多談談您實際建造的 Agent 基礎設施。我覺得一個很有趣的點是,目前市面上有許多AI Agent的演示,但我認為真正能在生產環境中穩定運作的例子非常少。而且從外部很難知道什麼是真實的,什麼不是真實的。

那麼在您看來,現今的AI Agent在哪些方面做得很好,又在哪些方面仍需要技術突破才能使其更加穩健可靠?

張傑: 我的觀點其實有些不同。確定 AI Agent 只是一個演示還是「真正起作用」之間的區別並不完全在於技術堆棧,因為我認為大多數人可能使用大致相同的技術。我認為一旦你的公司發展更進一步,例如我們公司成立已經一年多了,你就會創造出非常具體的東西來適合你的用例。

但歸根結底,每個人都可以存取相同的模型並使用類似的技術。 我認為AI代理是否能有效運作,最大的差異實際上在於用例的形式。 一開始很難知道這一點,但回頭看看,你會發現有兩個屬性對於AI代理超越演示並進入實際應用非常重要。

首先,你解決的用例必須有可量化的ROI(投資報酬率)。 這非常重要,因為如果投資報酬率無法量化,就很難說服人們真正使用你的產品並為其付費。在我們的案例中,定量指標是:您解決了多少百分比的支援請求?因為這個數字很清晰,人們能夠看懂——哦,好吧,如果你進一步解析,我可以將這個結果與我目前的支出和花費的時間進行比較。所以,如果有這個指標,另一個對我們來說很重要的指標就是顧客滿意度。由於投資報酬率 (ROI) 可以輕鬆量化,所以人們會真正採用它。

第二個因素是用例必須逐漸增加難度。 如果您從一開始就需要一個超人般的代理,解決幾乎 100% 的用例,這也會非常困難。因為我們知道,LLM 是非確定性的,所以你必須有某種應急計劃。幸運的是,支援用例有一個很棒的功能,那就是您可以隨時升級為手動服務。即使只能解決一半的問題,對人們來說仍然是非常有價值的。

所以我認為支援具有這種特性,使其非常適合 AI Agent。我認為人們可以在許多其他領域創建令人印象深刻的演示,你甚至不必仔細觀察才能理解為什麼 AI Agent 會很有用。但如果從一開始就要求完美,那就非常困難了。如果是這樣的話,幾乎沒有人會願意嘗試或使用它,因為它的不完美所帶來的後果可能非常嚴重——例如在安全方面。

例如,當人們做模擬的時候,他們總會有這種經典的想法:“哦,如果LLM可以讀這個就太好了。”但很難想像有人會說,「好的,人工智慧代理,去吧。我相信你能做到。因為一旦犯錯,後果可能非常嚴重。

張傑: 這通常由我們的客戶決定,事實上我們看到了很大的差異。在一個極端,有些人真的讓他們的代理看起來像人類,因此有一個人類的頭像,一個人類的名字,並且反應非常自然。另一方面,代理只是聲明它是人工智慧,並向用戶說明這一點。我認為我們合作的不同公司對此有不同的立場。

通常,如果你處於受監管的行業,你必須明確這一點。我現在發現有趣的是客戶行為正在改變。因為我們的許多客戶在社群媒體上收到了很多回饋,例如「天哪,這是我第一次嘗試如此真實的聊天體驗」或「這簡直是魔術」。這對他們來說很棒,因為現在他們的客戶正在學習,嘿,如果這是一種人工智慧體驗,它實際上可以比人類更好。過去的情況並非如此,因為我們大多數人過去都有過這樣的電話客服經歷:“好的,AI,AI,AI…”

Kimberly Tan:您多次提到個人化的概念。大家都在使用相同的底層技術架構,但是在支援服務方面卻有不同的個人需求。你能談談這個嗎?具體來說,如何實現個人化,以便人們可以在網路上說「天哪,這是我經歷過的最好的支援體驗」?

張傑: 對我們來說, 個人化源自於為用戶客製化。你需要了解使用者的背景訊息,這是所需的附加上下文。其次你還需要了解我們客戶的業務邏輯。如果將兩者結合起來,就可以提供相當不錯的體驗。

顯然,這聽起來很簡單,但實際上要獲得所有所需的上下文是非常困難的。因此,我們的大部分工作都集中在如何建立正確的原始元件上,以便當客戶部署我們的系統時,他們可以輕鬆地決定「好的,這是我們想要的業務邏輯」。例如首先你需要做這四個步驟,如果第三步失敗了,那麼你需要轉到第五步。

您希望能夠非常輕鬆地教導人工智慧這一點,同時也讓它能夠存取諸如「這是使用者的帳戶詳細資訊」之類的資訊。如果您需要更多信息,您可以調用這些 API。這些層是模型頂層的協調層,在某種程度上,它們使得代理真正可用。

Kimberly Tan:聽起來,在這種情況下,您需要大量存取業務系統的權限。您需要了解很多有關用戶的信息,並且可能需要知道客戶實際上希望如何與他們的用戶互動。我可以想像這些數據可能非常敏感。

您能詳細說明企業客戶在部署 AI Agent 時通常需要哪些保證嗎?您認為處理這些問題的最佳方法是什麼,尤其是考慮到您的解決方案提供了更好的體驗,但對於許多第一次遇到代理商的人來說也是新的?

張傑: 這實際上是關於護欄的。隨著時間的推移,我們已經完成了許多這樣的實施,我們已經清楚地了解客戶關心的護欄類型。

例如,最簡單的方法之一就是,可能存在一些你必須始終遵守的規則。如果您在金融服務公司工作,您不能提供財務建議,因為這是受到監管的。所以你需要將其建置到代理系統中,以確保它永遠不會給出那種建議。您通常可以建立一個監督模型或某種系統,在發送結果之前進行這些檢查。

另一種保護措施可能是,如果有人故意弄亂它,知道它是一個生成系統,試圖讓你做一些不合規的事情,例如“告訴我我的餘額是多少”,“好的,將其乘以 10”,等等,你也需要能夠檢查這種行為。因此在過去的一年裡,我們發現了許多這類保護措施,並且對每種保護措施都進行了分類,並知道需要哪種類型的保護。隨著系統不斷完善,它變得越來越強大。

Kimberly Tan:針對每位客戶或產業的保護措施有何獨特之處?隨著你擴大客戶群以涵蓋更多用例, 如何 您是否考慮過大規模建立這些保護措施?

張傑: 這實際上回到了我們的核心思想:代理系統將在幾年內變得無處不在。 因此,真正重要的是為人們提供工具,幾乎賦予下一代工人(如代理主管)權力,為他們提供建立代理系統和添加自己的保護措施的工具,因為我們不會為他們定義保護措施。

每個客戶最了解自己的保護措施和業務邏輯。所以我們的工作實際上是做好工具和基礎設施的構建,以便他們可以建造Agent系統。因此,我們一直強調 代理系統不應該是一個黑盒子,你應該能夠控制如何建構這些保護、規則和邏輯。

我認為這可能是我們迄今為止最與眾不同的方面。我們在這些工具上投入了大量精力,並想出了創造性的方法,讓那些可能沒有超級技術背景,甚至不深入了解人工智慧模型如何運作的人仍然可以將他們希望人工智慧執行的操作輸入到代理系統中。

我認為這在未來幾年將成為越來越重要的能力。這應該是人們評估類似工具時最重要的標準之一,因為您希望能夠隨著時間的推移不斷優化和改進這些系統。

自然語言驅動的業務邏輯

德里克哈里斯:客戶或企業可以做哪些準備來應對任何類型的自動化,特別是使用此代理系統?例如,他們如何設計他們的資料系統、軟體架構或業務邏輯來支援這樣的系統?

因為我覺得很多AI技術一開始是新穎的,但是當涉及現有的遺留系統時,往往會遇到很多混亂。

張傑: 如果現在有人從頭開始構建,那麼有很多最佳實踐可以讓您的工作更輕鬆。例如,如何建立您的知識庫。我們已經寫了一些內容,並介紹了一些可以讓人工智慧更容易獲取資訊並提高其準確性的方法。一個具體的建議是將知識庫分成模組化部分,而不是有一篇包含多個答案的大文章。

在設定 API 時,您可以使它們更適合 Agent 系統,並以一種讓 Agent 系統輕鬆獲取資訊而無需進行大量計算來找到答案的方式設定權限和輸出。這些是一些可以採取的戰術措施,但我不會說為了使用代理系統必須做任何事情。

德里克哈里斯:良好的文檔記錄始終很重要,本質上它就是有效地組織資訊。

Kimberly Tan:聽起來,如果你試圖教導人們如何指導 Agent 系統以最適合其客戶或特定用例的方式運行,那麼可能需要對 UI 和 UX 設計進行大量實驗,或者你必須在這個全新的領域開闢新道路,因為它與傳統軟體非常不同。

我很好奇,您對此有什麼看法?在代理優先的世界中,UI 和 UX 應該是什麼樣的?您認為未來幾年它將如何改變?

張傑: 我不會說我們已經解決了這個問題。我認為我們可能已經找到了適合當前客戶的局部最優方案,但對於我們和許多其他人來說,這仍然是一個正在進行的研究領域。

核心問題又回到我們前面提到的,那就是你有一個代理系統。首先,你如何才能清楚地看到它在做什麼以及它是如何做出決策的?那麼,如何使用這些資訊來決定需要更新什麼以及應該向人工智慧提供什麼回饋?這些是 UI 元素匯集的地方,尤其是第二部分。

我們認為隨著時間的推移,UI 和 UX 將越來越基於自然語言,因為這是 Agent 系統的思維方式,或者說這是訓練大型語言模型 (LLM) 的基礎。

在極端情況下,如果你有一個超級智慧代理,它基本上像人類一樣思考,你可以向它展示事物,向它解釋事物,給它回饋,它會在自己的「頭腦」中更新。你可以想像有一個非常有能力的人加入你的團隊,你教他一些東西,他開始工作,然後你不斷給他回饋,你可以向他展示新的東西、新的文檔、圖表等。

我認為在極端情況下,它會朝這個方向發展:事情變得更加對話化,更加基於自然語言,人們不再像以前那樣用複雜的決策樹構建系統,捕捉自己想要的東西,但這種方法很容易崩潰。我們過去必須這樣做,因為當時沒有 LLM,但現在代理系統越來越強大,UI 和 UX 將變得更具對話性。

Kimberly Tan:大約一年半前,當 Decagon 剛起步時,人們普遍認為 LLM 非常適用於許多用例,但實際上它只是某種“GPT 包裝器”,公司只需透過 API 呼叫底層模型即可立即解決他們的支援問題。

但顯然,由於公司選擇使用 Decagon 這樣的解決方案而不是直接採用那種方式,因此事實並非如此。我想知道您是否可以解釋為什麼會發生這種情況。究竟是什麼讓內部建設的挑戰比預想的更複雜?他們對這個概念有什麼誤解?

張傑: 作為「GPT 包裝器」沒有什麼錯,你可以說 Purcell 是 AWS 包裝器或類似的東西。通常,當人們使用這個詞時,它含有貶義。

我個人的觀點是,如果您正在建立代理系統,那麼根據定義您肯定會使用 LLM 作為工具。因此,您實際上是在已經存在的基礎上進行構建,就像您通常在 AWS 或 GCP 上構建一樣。

但您可能遇到的真正問題是,您在 LLM 之上建立的軟體是否不夠「重」或不夠複雜,無法產生影響。

回想起來,對我們來說,我們銷售的基本上就是軟體。我們實際上就像一家普通的軟體公司,只不過我們將 LLM 用作軟體的一部分和工具之一。但人們購買這類產品的時候,主要想要的是軟體本身。他們想要能夠監控人工智慧的工具,能夠深入挖掘人工智慧每一次對話的細節,能夠提供回饋,並且能夠不斷建構和調整系統。

這就是我們軟體的核心。即使對於代理系統本身,人們遇到的問題是,做一個演示很酷,但如果你想讓它投入生產並真正面向客戶,你就必須解決許多長期存在的問題,例如防止“幻覺”現象和處理試圖造成破壞的不良行為者。我們還必須確保延遲足夠低、音調合適等等。

我們與很多團隊進行了交談,他們做了一些實驗,構建了一個初步版本,然後他們意識到,“哦,真的,我們不想成為在後期繼續構建這些細節的人。”他們也不想成為不斷為客戶服務團隊添加新邏輯的人。所以現在看來,選擇與他人合作似乎更為合適。

Kimberly Tan:您提到了一些長期問題,例如需要處理不良行為者等等。相信許多考慮使用AI Agent的聽眾,都擔心引入LLM之後可能出現新的安全攻擊路徑,或者引入Agent系統之後可能出現新的安全風險。您如何看待這些問題?在處理以下問題時,確保一流企業安全的最佳實踐是什麼? 代理人?

張傑: 在安全性方面,可以採取一些明顯的措施,正如我之前提到的,例如需要採取保護措施。核心問題在於人們擔心法學碩士 (LLM) 的不確定性。

但好消息是,您實際上可以將大多數敏感和複雜的操作放在確定性牆後面,並且當呼叫 API 時計算就會在那裡發生。因此,您不必完全依賴 LLM 來處理它,從而避免了許多核心問題。

但仍存在一些情況,例如,有惡意行為者乾擾或有人試圖讓系統產生幻覺。我們觀察到,在我們合作的許多主要客戶中,他們的安全團隊都會進入我們的產品並基本上進行「紅隊」測試,花費數週時間不斷對系統發起各種可能的攻擊,試圖找到漏洞。隨著AI Agent越來越受歡迎,我們可能會看到這種情況越來越頻繁地發生,因為這是測試系統是否有效的最佳方法之一。就是透過紅隊測試向它扔一些東西,看看它是否能突破防禦。

還有一些新創公司正在開發紅隊工具或讓人們自己進行此類測試,這是我們現在看到的趨勢。我們合作的許多公司在銷售週期的後期都會讓他們的安全團隊或與外部團隊合作對系統進行壓力測試。對我們來說,通過這些測試是必須的。所以,最終這就是問題的關鍵。

德里克哈里斯:這是您鼓勵顧客做的事情嗎?因為當我們談論人工智慧政策時,我們提到一個重要的方面,就是應用層,我們強調要把 責任在於 LLM 的使用者和運行應用程式的人員,而不是簡單地責怪模型本身。也就是說,客戶應該進行紅隊測試,識別特定的用例和攻擊路徑,並確定需要保護哪些漏洞,而不是簡單地依賴OpenAI或其他公司已經設定的安全保護。

張傑: 我完全同意。我也認為可能會出現新一波的通知要求,類似現在大家都在做的SOC 2認證、HIPAA認證,這些都是不同產業所需要的。通常,當你銷售通用的SaaS產品時,客戶會要求進行滲透測試,我們也必須提供我們的滲透測試報告。對於AI Agent來說,未來可能會有類似的要求,也會有人為其命名,但這基本上是一種測試Agent系統是否足夠強大的新方法。

Kimberly Tan:有趣的是,顯然每個人都對所有大型實驗室正在推出的新模型突破和技術突破感到非常興奮。作為一家人工智慧公司,你顯然不會進行自己的研究,但你會利用這項研究並圍繞它建立大量軟體來交付給最終客戶。

但您的工作是基於快速變化的技術。我很好奇,作為一家應用人工智慧公司,你們如何跟上新的技術變化並了解它們如何影響公司,同時能夠預測自己的產品路線圖並建立用戶需求?更廣泛地說,在類似情況下應用人工智慧公司應該採取什麼策略?

張傑: 您實際上可以將整個堆疊分成不同的部分。例如,如果從應用層來看,LLM 位於最底層。您可能有一些中間工具可以幫助您管理 LLM 或進行一些評估之類的事情。然後,最上面的部分基本上就是我們建造的,它實際上就像一個標準的 SaaS。

所以,我們大部分的工作其實與常規軟體並沒有太大區別,只是我們有一個額外的研究部分——LLM 變化太快了。我們需要研究它們能做什麼、擅長什麼、應該使用哪種模型來完成某項任務。這是一個大問題,因為 OpenAI 和 Anthropic 都在推出新技術,而 Gemini 也正在逐步改進。

所以, 你必須有自己的評估機制來了解哪種模型適合在哪種情況下使用。有時候也需要微調,但問題是:何時微調?什麼時候值得微調? 這些可能是我們關注的與 LLM 相關的主要研究問題。但至少到目前為止,我們還沒有感覺到SaaS的變化很快,因為我們不依賴中間層。因此從根本上來說,法學碩士 (LLM) 正在改變。它們不會經常改變,一旦改變,通常都是升級。例如,幾個月前Claude 3.5 sonnet 進行了更新,當時我們就想,“好吧,我們是否應該切換到新模型,而不是繼續使用舊模型?”

我們只需要進行一系列評估,一旦我們切換到新模型,我們就不會再考慮它了,因為您已經在使用新模型了。隨後,o1版問世,情況也類似。想想它可以用在什麼地方。在我們的案例中,o1 對於大多數面向客戶的用例來說有點慢,因此我們可以將它用於一些後台工作。最終,我們只是需要有一個好的模型研究系統。

Kimberly Tan:您多久評估一次新模型並決定是否要替換它?

張傑: 每當有新模型問世時,我們都會進行評估。你必須確保儘管新模型更加智能,但它不會破壞你已經建立的一些用例。這是有可能發生的。例如,新模型可能整體上更智能,但在某些極端情況下,它在您的某個工作流程中的 A/B 選擇中表現不佳。這就是我們評估的原因。

我認為總的來說,我們最關心的智力類型是我所說的「遵循指示的能力」。我們希望模型能夠越來越好地遵循指令。如果是這樣,那對我們來說肯定是有利的,而且非常好。

似乎最近的研究更集中在涉及推理的智慧類型上,例如更好的程式設計和更好的數學運算。這對我們也有幫助,但是不如提高遵循指示的能力那麼重要。

Kimberly Tan:您提到的一個非常有趣的觀點,我認為這也是 Decagon 的獨特之處,那就是你們在內部構建了大量評估基礎設施,以確保您確切地知道每個模型在您提供的測試集下的表現。

能詳細說明一下嗎?這種內部評估基礎架構有多重要?因為這些評價有些也是面向客戶的。

張傑: 我認為這非常重要,因為如果沒有這個評估基礎設施,我們就很難快速迭代。

如果您覺得每次更改都有可能破壞某些東西,那麼您就不會快速做出更改。但是如果你有一個評估機制,那麼當有重大變化,模型更新,或者出現新的東西時,你可以直接將其與所有評估測試進行比較。如果評估結果良好,你會覺得:好吧,我們做了改進,或者你可以放心地發布它,而不用太擔心。

因此,在我們的領域, 評估需要客戶的輸入,因為客戶是決定某事是否正確的人。 當然,我們可以檢查一些高級問題,但通常客戶會提供具體的用例,並告訴我們正確答案是什麼,或者必須是什麼,必須保持什麼語氣,必須說什麼。

評估正是基於此。所以我們必須確保我們的評估系統夠健全。一開始是我們自己建造的,維護起來也沒那麼困難。我們也知道有一些評估公司,我們也對其中的一些進行了探索。也許在某個時候,我們會考慮是否採用它們,但就目前而言,評估系統不再是我們的痛點。

Kimberly Tan:當今非常流行的一個主題是多模態性,這意味著人工智慧代理應該能夠與人類當今使用的所有形式進行交互,無論是文字、視訊、語音等。從你的角度來看, 是多模態的 對於 AI 代理來說?您認為它什麼時候才能成為主流甚至標準?

張傑: 這很重要,而且從公司的角度來看,增加新模式並不是特別困難。這並不簡單,但核心是:如果你解決了其他問題,例如我提到的那些問題——例如,建立人工智慧、監控它並擁有正確的邏輯——那麼添加一種新的模態並不是最困難的事情。因此對我們來說,擁有所有這些模式非常有意義,而且它擴大了我們的市場。我們基本上對模態不可知論者,並且為每種模態構建自己的代理。

一般來說,有兩個限制因素: 首先,客戶是否已準備好採用新模式?我認為從文字開始非常有意義,因為這是人們最積極採用的方式,對他們來說風險較小、更容易監控、也更容易理解。另一種重要方式是語音。顯然我認為市場還有空間,使用者對語音的接受度還需要提升。 目前,我們看到一些早期採用者已經開始採用語音代理,這是非常令人興奮的。另一方面是技術挑戰。大多數人都會同意,聲音的標準更高。如果您正在透過電話與某人交談,則需要非常短的語音延遲。如果你打斷某人,他們需要自然地回應。

由於語音的延遲較低,因此您必須以更聰明的方式進行計算。如果您正在聊天,並且回應時間為五到八秒,您幾乎不會注意到它,而且感覺非常自然。但如果在電話上回應需要五到八秒,那就覺得有點不自然了。因此,語音面臨的技術挑戰更多。隨著這些技術難題的解決方案以及市場對語音採用的興趣增加,語音作為一種新模式將成為主流。

超越信任的商業模式

Kimberly Tan:在我們繼續之前,我想再談談 AI Agent 商業模式。當你第一次 建造 AI 代理商或與客戶討論他們使用的系統、他們處理的數據以及他們的顧慮,有什麼讓您感到驚訝的嗎?為了更好地服務企業客戶,Decagon 必須做哪些非直覺或令人驚訝的事情?

張傑: 我認為最令人驚訝的是當我們剛開始的時候人們願意與我們交談的程度。畢竟,我們只有兩個人。我們之前都創辦過公司,因此認識很多人,但即便如此,對於每一位企業家來說,當你想進行推薦對話時,如果你所說的內容不是特別有說服力,那麼對話通常會很冷淡。

但是當我們開始談論這個用例時,我實際上發現人們談論它時非常興奮,這令人非常驚訝。因為這個想法看起來太明顯了。您可能會認為,既然這是一個如此顯而易見的想法,那麼其他人一定已經做過了,或者一定已經有了解決方案,或者其他人一定已經想出了某種解決方案。但我認為我們抓住了一個好時機,這個用例確實很大而且人們真的很關心它。正如我之前提到的,該用例非常適合採用 AI 代理並將其投入生產,因為您可以逐步實施它並能夠追蹤投資回報率。

這對我來說是一個驚喜,但顯然之後還有很多工作要做,你必須與客戶合作,你必須打造一個產品,你必須想清楚該走哪條路。在最初階段,這確實是一個令人驚奇的發現。

Derrick Harris:Kimberly,我覺得我應該提一下你寫的那篇博文,RIP to RPA,它涉及了很多 自動化任務和啟動。您是否覺得存在這樣一種現象,這些自動化的任務,或者說解決方案並不是那麼理想,所以人們總是在尋找更好的方法?

Kimberly Tan: 是的,我確實這麼認為。我想講幾點。首先,如果一個想法對每個人來說都是顯而易見的,但卻沒有明確的公司來解決它,或者沒有人指著一家公司說“你應該用這個”,那麼這意味著這個問題實際上並沒有得到解決。

從某種意義上說,這對公司來說是一個完全開放的解決方案開發機會。因為正如您所說,我們從一開始就一直作為投資者關注 Decagon。我們見證了他們在創意迷宮中前行,當他們決定朝這個方向前進並開始與客戶交談時,很明顯所有客戶都迫切需要某種原生的人工智慧解決方案。這是我之前提到的問題之一,很多人認為它只是一個 GPT 包裝器。但 Decagon 從一開始就得到的客戶關注使我們很早就意識到其中許多問題比人們想像的要複雜得多。

我認為這種現象正在各個行業發生,無論是客戶服務還是某些垂直行業的專業自動化。我認為被低估的一點是,正如 Jesse 之前提到的,能夠清楚地衡量自動化任務的投資報酬率 (ROI)。 因為,如果你想讓某人接受人工智慧代理,他們實際上需要一定程度的“信心飛躍”,因為這對很多人來說是一個非常陌生的領域。

如果你可以自動化一個非常具體的過程,這個過程要么是明顯的創收過程,要么是以前構成業務瓶頸的過程,要么是隨著客戶增長或收入增長而線性增加的主要成本中心,那麼AI代理將更容易獲得認可。 將此類問題轉化為可以像傳統軟體一樣擴展的產品化流程的能力非常有吸引力。

Kimberly Tan:在我們繼續之前我還有最後一個問題。我記得傑西在我們之前的討論中總是說,公司採用軟體或人工智慧代理面臨的最大挑戰是幻覺。但您曾經告訴我,這其實不是主要問題。您能否詳細說明為什麼對幻覺的感知有些誤導以及人們實際上更關心什麼?

張傑: 我認為人們確實關心幻覺,但他們更關心它所能提供的價值。幾乎與我們合作的所有公司都關注同樣的幾個問題,幾乎完全相同:您能解決多少百分比的對話?我的客戶有多滿意?那麼幻覺問題或許可以歸為第三類,也就是它的準確性如何。一般來說,評價時,前兩個因素比較重要。

假設您正在與一家新企業洽談,並且您在前兩個因素上做得非常好,並且得到了領導層和團隊中每個人的大力支持。他們會說,「天哪,我們的客戶體驗與眾不同。現在每位顧客都有自己的私人助理,可以隨時與我們聯絡。我們給了他們很好的答案,他們非常滿意,而且它是多語言的,全天候可用。這只是其中一部分,而且你還節省了很多錢。

因此,一旦你實現了這些目標,你就會得到很多支持和很多推動工作的順風。當然,幻覺問題最終還是需要解決的,但這並不是他們最關心的事情。解決這個幻象的方法和我之前提到的一樣——人們會考驗你。可能有一個概念驗證階段,您實際上會進行真實的對話,並且讓團隊成員監控並檢查準確性。如果進展順利的話,通常就會成功。

另外,正如我之前提到的,你可以對敏感資訊設定一些嚴格的保護措施,例如你不一定需要將敏感內容通用化。因此幻覺問題是大多數交易中討論的一個點。這不是一個不重要的話題。你會經歷這個過程,但它永遠不會成為談話的焦點。

Kimberly Tan:現在我們來談談AI Agent的商業模式。今天,有一個大話題是關於如何為這些AI Agent定價。

從歷史上看,許多SaaS軟體都是按照席位數來定價的,因為它們是針對個別員工的工作流程軟體,用於提高員工的工作效率。然而,AI Agent並不像傳統軟體那樣與單一員工的生產力掛鉤。

因此許多人認為以座位數定價的方式或許不再適用。我很好奇 如何 您早期考慮過這個困境以及最終如何為 Decagon 定價。另外,隨著人工智慧代理變得越來越普遍,您認為軟體定價的未來趨勢會是什麼?

張傑: 我們對這個問題的看法是,過去軟體是按席位定價的,因為其規模大致取決於可以使用該軟體的人數。 但對於大多數人工智慧代理商來說,您提供的價值並不取決於維護它的人數,而是取決於產生的工作量。這和我之前提到的觀點一致:如果投資報酬率(ROI)非常可衡量,那麼工作產出的水準也很明確。

我們認為以座位數定價絕對不適用。您可以根據工作的產出來定價。因此,您提供的定價模式應該是完成的工作越多,支付的費用就越多。

對我們來說,有兩種明顯的定價方式。您可以為對話定價,也可以為 AI 實際解決的對話定價。我認為我們學到的一個有趣的教訓是大多數人選擇了對話定價模式。原因是按解決方案定價的主要優勢在於你只需支付你所需的費用 人工智慧確實如此。

但隨之而來的問題是,什麼才算是「解決方案」?首先,沒有人願意深入探討這個問題,因為它會變成“如果有人生氣地進來,你把他們打發走,我們為什麼要為此付錢?”

這就造成了一個尷尬的局面,也讓人工智慧提供者的激勵機制變得有點奇怪,因為按解決方案計費意味著“我們只需要解決盡可能多的對話,並推開一些人。”但在很多情況下,升級問題比將其推開更好,而且客戶不喜歡這種處理方式。因此,按對話計費將帶來更多的簡單性和可預測性。

Kimberly Tan:您認為未來的定價模式會持續多久?因為現在當您提到投資回報率時,它通常是基於過去可能用於支付勞動成本的支出。隨著人工智慧代理變得越來越普遍,您是否認為從長遠來看,人工智慧將與勞動力成本進行比較,並且這是一個合適的基準?如果不是,那麼除了勞動成本之外,您如何看待長期定價?

Jesse Zhang:我認為從長遠來看,AI代理商的定價可能仍然主要與勞動成本掛鉤,因為這就是代理商的魅力所在——你之前在服務上的支出現在可以轉移到軟體上。

這部分支出可能是軟體支出的10倍到100倍,所以很多成本會轉移到軟體上。因此,勞動成本自然會成為一個基準。對於我們的客戶來說,投資報酬率非常明確。如果您可以節省X百萬的勞動成本,那麼採用這種解決方案就是有意義的。但從長遠來看,這可能是個中間立場。

因為即使一些不如我們代理商的產品也會接受較低的定價。這就像經典的 SaaS 情況,每個人都在競爭市場份額。

Kimberly Tan:您認為目前的 SaaS 公司的未來會怎樣,尤其是那些產品可能不是為 AI 而生或按座位定價因而無法適應以結果為導向的定價模式的公司?

張傑: 對於一些傳統公司來說,推出AI Agent產品確實有些棘手,因為無法用席位模型來定價。如果您不再需要那麼多代理,則很難透過現有產品維持收入。這對傳統企業來說是一個問題,但很難說。傳統企業始終擁有通路的優勢。即使產品不如新公司好,人們也不願意花精力接受一個品質只有80%的新供應商。

所以,第一,如果你像我們一樣是個新創公司,你必須確保你的產品比傳統產品好三倍。第二,這是典型的傳統公司與新創公司的競爭。傳統公司由於擁有大量客戶,風險承受能力自然較低。如果他們在快速迭代中犯了一個錯誤,就會造成巨大的損失。然而,新創公司可以更快地進行迭代,因此迭代過程本身可以帶來更好的產品。這是正常的循環。對我們來說,我們一直為我們的交付速度、產品品質和團隊的執行力感到自豪。這就是我們贏得當前交易的原因。

Kimberly Tan:您能對人工智慧在職場的未來做出一些預測嗎?例如,它將如何改變員工的需求或能力,或人類員工和人工智慧代理如何互動?隨著人工智慧代理的普及,您認為哪些新的最佳實踐或規範將成為工作場所的常態?

張勇:第一個也是最重要的一個變化是,我們確信未來員工會在工作場所花更多的時間建構和管理AI代理,類似於AI主管的角色。 即使你的職位不是正式的“AI主管”,你過去用於工作的時間也會轉移到管理這些Agent上,因為Agent可以給你很大的影響力。

我們在許多部署中都看到了這種情況,曾經擔任團隊領導的人現在花費大量時間監控人工智慧,例如,確保它沒有問題或做出調整。他們監控整體效能,以查看是否存在需要關注的特定領域,知識庫中是否存在可以幫助人工智慧變得更好的空白,以及人工智慧是否可以填補這些空白。

與代理商一起工作的工作給人的印像是,未來員工將花費大量時間與人工智慧代理商進行互動。這是我們公司的一個核心理念,正如我之前提到的。 因此,我們的整個產品都是圍繞著為人們提供工具、視覺化、可解釋性和控製而建構的。 我認為一年之內這將成為一個巨大的趨勢。

Kimberly Tan:這很有道理。您認為未來AI監管者需要具備哪些能力?這個角色需要哪些技能?

張傑: 有兩個方面。 一是可觀察性和可解釋性,即能夠快速理解人工智慧在做什麼以及如何做出決策的能力。另外就是決策能力,或是建構的部分,怎麼去回饋,怎麼去建構新的邏輯。 我認為這是同一枚硬幣的兩面。

Kimberly Tan:您認為從中長期來看,哪些任務仍然超出了AI代理的能力範圍,而仍需要由人類正確管理和執行?

張傑: 我想主要還是取決於我剛才說的「完美度」的要求。許多任務對於錯誤的容忍度非常低。在這些情況下,任何人工智慧工具都只是一種輔助手段,而不是一個成熟的代理。

例如,在一些更敏感的行業,如醫療保健或安全,你必須做到近乎完美,那麼在這些領域,人工智慧代理可能會變得不那麼自主,但這並不意味著它們毫無用處。我認為風格會有所不同,在像我們這樣的平台上,您實際上正在部署這些代理程式以讓它們自動完成整個工作。

德里克哈里斯:本期內容就到這裡。如果您發現這個主題有趣或鼓舞人心,請對我們的播客進行評分並與更多人分享。我們預計在年底之前發布最後一集,並將重新調整新年的內容。感謝您的收聽,祝您節日愉快(如果您在假期期間收聽的話)。

原始影片: 人工智慧特工最終能否修復客戶支援問題?

類似文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *