Sorotan
- Keajaiban LLM ialah mereka sangat fleksibel, boleh menyesuaikan diri dengan pelbagai situasi yang berbeza, dan mempunyai kecerdasan asas.
- Kami percaya bahawa dari masa ke masa, UI dan UX akan menjadi lebih dan lebih berasaskan bahasa semula jadi, kerana ini adalah cara sistem Ejen berfikir, atau ini pada asasnya adalah asas latihan untuk model bahasa besar (LLM).
- Jika anda mahu seseorang menerima Ejen AI, mereka sebenarnya mengambil tahap "lompat kepercayaan" kerana bagi ramai orang, ini adalah bidang yang sangat asing.
AI Agent membentuk semula pengalaman pelanggan
Jesse Zhang: Bagaimana sebenarnya Ejen dibina? Pandangan kami ialah dari masa ke masa, ia akan menjadi lebih dan lebih seperti Ejen berasaskan bahasa semula jadi kerana itulah cara model bahasa besar (LLM) dilatih.
Dalam jangka panjang, jika anda mempunyai ejen super pintar yang sebenarnya seperti manusia, anda boleh menunjukkan perkara, menerangkan kepadanya, memberi maklum balas, dan ia akan mengemas kini maklumat dalam fikirannya.
Anda boleh bayangkan mempunyai ahli pasukan manusia yang sangat berkebolehan. Apabila mereka mula-mula menyertai, anda mengajar mereka sesuatu, mereka mula bekerja, dan kemudian anda memberi mereka maklum balas dan menunjukkan kepada mereka maklumat baharu.
Akhirnya, ia akan berkembang ke arah ini - ia akan menjadi lebih perbualan dan lebih berdasarkan bahasa semula jadi, dan cara orang berkomunikasi antara satu sama lain akan menjadi lebih semula jadi. Dan orang ramai tidak lagi akan menggunakan pokok keputusan yang rumit itu untuk menangkap keperluan, yang boleh berfungsi tetapi terdedah kepada runtuh.
Pada masa lalu, kami terpaksa melakukan ini kerana kami tidak mempunyai model bahasa yang besar. Tetapi kini, dengan kemajuan berterusan Agen, pengalaman pengguna (UX) dan antara muka pengguna (UI) akan menjadi lebih perbualan.
Derrick Harris: Hello semua, selamat datang ke A16z AI Podcast. Saya Derrick Harris, dan hari ini saya akan disertai oleh Jesse Zhang, pengasas bersama dan Ketua Pegawai Eksekutif Decagon, dan Kimberly Tan, rakan kongsi di a16z. Kimberly akan menyederhanakan perbincangan, dan Jesse akan berkongsi pengalamannya membina Decagon dan produknya.
Jika anda tidak tahu banyak tentangnya, Decagon ialah syarikat permulaan yang menyediakan ejen AI kepada perniagaan untuk membantu dengan sokongan pelanggan. Ejen ini bukan chatbots mahupun pembalut LLM untuk satu panggilan API, tetapi ejen lanjutan yang sangat disesuaikan yang boleh mengendalikan aliran kerja yang kompleks berdasarkan keperluan khusus syarikat.
Selain menerangkan sebab mereka mencipta Decagon dan cara ia direka bentuk untuk mengendalikan LLM dan persekitaran pelanggan yang berbeza, Jesse juga bercakap tentang faedah model perniagaan yang mengenakan bayaran bagi setiap perbualan, dan cara Ejen AI akan mengubah kemahiran yang diperlukan oleh pemimpin sokongan pelanggan.
Perlu juga disebut bahawa Kimberly baru-baru ini menulis catatan blog bertajuk "RIP to RPA, The Rise of Intelligent Automation," yang kami bincangkan secara ringkas dalam episod ini.
Ia merupakan titik permulaan yang bagus untuk memahami cara automasi bermula dalam proses perniagaan dan kami akan menyediakan pautan dalam nota rancangan. Dan akhirnya, sebagai peringatan, kandungan artikel ini adalah untuk tujuan maklumat sahaja dan tidak boleh dianggap sebagai nasihat undang-undang, perniagaan, cukai atau pelaburan, dan tidak boleh digunakan untuk menilai sebarang pelaburan atau keselamatan, dan tidak ditujukan kepada mana-mana pelabur dana a16z atau bakal pelabur.
Jesse Zhang: Pengenalan ringkas kepada diri saya. Saya dilahirkan dan dibesarkan di Boulder, dan saya menyertai banyak pertandingan matematik dan seumpamanya sebagai seorang kanak-kanak. Saya belajar sains komputer di Harvard, dan kemudian memulakan sebuah syarikat yang turut disokong oleh a16z. Kami akhirnya diperoleh oleh Niantic.
Kemudian kami mula membina Decagon. Perniagaan kami sedang membina Ejen AI untuk perkhidmatan pelanggan. Pada mulanya, kami melakukan ini kerana kami ingin melakukan sesuatu yang sangat dekat di hati kami.
Sudah tentu, tiada siapa yang perlu diajar tentang peranan Ejen AI dalam perkhidmatan pelanggan, bukan? Kita semua telah melalui telefon dengan syarikat penerbangan, hotel, dsb., dan menunggu untuk ditahan. Jadi idea itu datang dari situ.
Kami bercakap dengan ramai pelanggan untuk mengetahui dengan tepat jenis produk yang perlu kami bina. Satu perkara yang menonjol bagi kami ialah apabila kami mengetahui lebih lanjut tentang Ejen AI, kami mula berfikir tentang bagaimana masa depan apabila terdapat banyak daripada mereka. Saya rasa semua orang percaya bahawa akan ada banyak Ejen AI pada masa hadapan.
Apa yang kami fikirkan ialah apakah yang akan dilakukan oleh pekerja yang bekerja di sekitar ejen AI? Apakah jenis alat yang akan mereka ada? Bagaimanakah mereka akan mengawal atau melihat ejen yang mereka bekerjasama atau uruskan?
Jadi ini adalah teras bagaimana kami membina syarikat berdasarkan soalan ini. Saya rasa ini juga yang membezakan kami sekarang, kerana kami menyediakan ejen AI ini dengan pelbagai alat untuk membantu orang yang bekerja dengan kami membina dan mengkonfigurasi ejen ini supaya mereka tidak lagi menjadi "kotak hitam". Inilah cara kami membina jenama kami.
Derrick Harris: Apakah yang memberi inspirasi kepada anda, memandangkan syarikat terakhir anda ialah syarikat video yang berhadapan dengan pengguna, untuk beralih ke perisian perusahaan?
Jesse Zhang: Soalan yang hebat. Saya rasa pengasas selalunya "agnostik topik" apabila memilih topik, kerana sebenarnya, apabila anda mendekati bidang baharu, anda biasanya agak naif. Jadi ada kelebihan untuk melihat sesuatu dari perspektif yang baru. Jadi apabila kami memikirkannya, hampir tiada sekatan topik.
Saya fikir itu adalah corak yang sangat biasa untuk orang yang mempunyai latar belakang yang lebih kuantitatif, termasuk saya sendiri. Selepas mencuba produk pengguna, anda lebih cenderung kepada perisian perusahaan kerana perisian perusahaan mempunyai masalah yang lebih konkrit.
Anda mempunyai pelanggan sebenar dengan keperluan dan belanjawan sebenar dan perkara seperti itu, dan anda boleh mengoptimumkan serta menyelesaikan masalah untuk mereka. Pasaran pengguna juga sangat menarik, tetapi ia lebih berdasarkan gerak hati daripada didorong oleh percubaan. Bagi saya secara peribadi, perisian perusahaan adalah lebih sesuai.
Kimberly Tan: Pertama, kita boleh mulakan dengan soalan ini: Apakah kategori sokongan yang paling biasa yang ditangani oleh Decagon hari ini? Bolehkah anda menghuraikan cara anda menggunakan model bahasa besar (LLM) untuk menyelesaikan masalah ini dan perkara yang kini boleh anda lakukan yang tidak boleh anda lakukan sebelum ini?
Jesse Zhang: Jika anda melihat kembali automasi sebelumnya, anda mungkin telah menggunakan pepohon keputusan untuk melakukan sesuatu yang mudah, untuk menentukan laluan yang hendak diambil. Tetapi kami semua telah menggunakan chatbots, dan ia adalah pengalaman yang cukup mengecewakan.
Selalunya soalan anda tidak dapat dijawab sepenuhnya oleh pepohon keputusan. Jadi anda akhirnya diarahkan ke laluan soalan yang berkaitan dengan soalan tetapi tidak sepadan dengannya. Kini, kami mempunyai model bahasa besar (LLM). Keajaiban LLM ialah mereka sangat fleksibel, boleh menyesuaikan diri dengan pelbagai situasi yang berbeza, dan mempunyai kecerdasan asas.
Apabila anda menggunakan ini pada sokongan pelanggan, atau apabila pelanggan bertanya soalan, anda boleh menyediakan perkhidmatan yang lebih diperibadikan. Ini adalah perkara pertama, tahap pemperibadian telah bertambah baik. Ini membuka kunci metrik yang lebih tinggi. Anda boleh menyelesaikan lebih banyak masalah, pelanggan lebih berpuas hati, dan kepuasan pelanggan meningkat.
Langkah semula jadi seterusnya ialah: jika anda mempunyai kecerdasan ini, anda sepatutnya dapat melakukan lebih banyak perkara yang boleh dilakukan oleh manusia. Perkara yang boleh dilakukan oleh manusia ialah mereka boleh menarik data dalam masa nyata, mereka boleh mengambil tindakan dan mereka boleh membuat alasan melalui pelbagai langkah. Jika pelanggan bertanya soalan yang agak rumit, mungkin "Saya mahu melakukan ini dan itu," dan AI hanya bersedia untuk mengendalikan soalan pertama. LLM cukup bijak untuk menyedari bahawa terdapat dua soalan di sini. Pertama, ia akan menyelesaikan masalah pertama, dan kemudian membantu anda menyelesaikan masalah kedua.
Sebelum LLM datang, ini pada asasnya mustahil. Oleh itu, kami kini melihat perubahan langkah dalam teknologi yang mampu lakukan, dan itu adalah terima kasih kepada LLM.
Kimberly Tan: Dalam konteks ini, bagaimana anda mentakrifkan Ejen AI? Oleh kerana perkataan "Agen" digunakan secara meluas, saya ingin tahu tentang maksud sebenarnya dalam konteks Decagon.
Jesse Zhang: Saya akan mengatakan bahawa Agen lebih merujuk kepada sistem di mana berbilang sistem LLM (model bahasa besar) berfungsi bersama. Anda mempunyai permohonan LLM, yang pada asasnya melibatkan penghantaran gesaan dan mendapat respons. Untuk Ejen, anda mahu dapat menyambungkan berbilang seruan sedemikian, mungkin juga secara rekursif.
Sebagai contoh, anda mempunyai panggilan LLM yang menentukan cara mengendalikan mesej, dan kemudian ia mungkin mencetuskan panggilan lain yang menarik lebih banyak data, melakukan tindakan dan mengulangi perkara yang pengguna katakan, mungkin juga bertanya soalan susulan. Jadi bagi kami, Ejen boleh difahami sebagai rangkaian panggilan hampir LLM, panggilan API atau logik lain yang bekerjasama untuk memberikan pengalaman yang lebih baik.
Kimberly Tan: Mengenai topik ini, mungkin kita boleh bercakap lebih lanjut tentang infrastruktur Agen yang sebenarnya anda bina. Saya rasa satu perkara yang sangat menarik ialah terdapat banyak demonstrasi Ejen AI di pasaran, tetapi saya fikir terdapat sangat sedikit contoh mereka yang sebenarnya boleh berjalan dengan stabil dalam persekitaran pengeluaran. Dan sukar untuk mengetahui dari luar apa yang nyata dan apa yang tidak.
Jadi pada pendapat anda, apakah aspek Ejen AI hari ini yang berfungsi dengan baik, dan apakah aspek yang masih memerlukan penemuan teknologi untuk menjadikannya lebih teguh dan boleh dipercayai?
Jesse Zhang: Pandangan saya sebenarnya sedikit berbeza. Perbezaan antara menentukan sama ada Ejen AI hanyalah demo atau "benar-benar berfungsi" tidak terletak sepenuhnya pada timbunan teknologi, kerana saya fikir kebanyakan orang mungkin menggunakan teknologi yang hampir sama. Saya fikir sebaik sahaja anda melangkah lebih jauh dalam pembangunan syarikat anda, sebagai contoh, syarikat kami telah ditubuhkan selama lebih daripada setahun, anda akan mencipta sesuatu yang sangat khusus yang sesuai dengan kes penggunaan anda.
Tetapi dalam analisis akhir, semua orang boleh mengakses model yang sama dan menggunakan teknologi yang sama. Saya fikir pembeza terbesar sama ada ejen AI boleh berfungsi dengan berkesan sebenarnya terletak pada bentuk kes penggunaan. Sukar untuk mengetahui perkara ini pada mulanya, tetapi melihat ke belakang, anda akan mendapati bahawa terdapat dua atribut yang sangat penting untuk ejen AI untuk melangkaui demonstrasi dan memasuki aplikasi praktikal.
Yang pertama ialah kes penggunaan yang anda selesaikan mesti mempunyai ROI (pulangan pelaburan) yang boleh diukur. Ini sangat penting, kerana jika ROI tidak boleh diukur, sukar untuk meyakinkan orang ramai untuk benar-benar menggunakan produk anda dan membayarnya. Dalam kes kami, penunjuk kuantitatif ialah: berapa peratusan permintaan sokongan yang anda selesaikan? Kerana nombor ini jelas, orang ramai boleh memahaminya – oh, okey, jika anda menyelesaikan lebih banyak lagi, saya boleh membandingkan hasil ini dengan perbelanjaan semasa dan masa yang saya habiskan. Jadi, jika ada indikator ini, satu lagi indikator yang sangat penting bagi kami ialah kepuasan pelanggan. Kerana ROI boleh dikira dengan mudah, orang ramai akan benar-benar mengguna pakainya.
Faktor kedua ialah kes penggunaan mestilah lebih sukar secara berperingkat. Ia juga akan menjadi sangat sukar jika anda memerlukan Ejen untuk menjadi manusia luar biasa dari awal, menyelesaikan hampir 100% kes penggunaan. Kerana seperti yang kita tahu, LLM adalah bukan deterministik, anda perlu mempunyai semacam pelan kontingensi. Nasib baik, terdapat ciri hebat kes penggunaan sokongan, dan itu ialah anda sentiasa boleh meningkat kepada manusia. Walaupun anda hanya boleh menyelesaikan separuh daripada masalah, ia masih sangat berharga kepada orang ramai.
Jadi saya fikir sokongan itu mempunyai ciri ini yang menjadikannya sangat sesuai untuk Ejen AI. Saya rasa terdapat banyak kawasan lain di mana orang boleh membuat demo yang mengagumkan di mana anda tidak perlu melihat dengan teliti untuk memahami sebab AI Agent akan berguna. Tetapi jika ia harus sempurna dari awal, maka ia sangat sukar. Jika itu yang berlaku, hampir tiada siapa yang mahu mencuba atau menggunakannya kerana akibat daripada ketidaksempurnaannya boleh menjadi sangat serius – contohnya, dari segi keselamatan.
Sebagai contoh, apabila orang melakukan simulasi, mereka sentiasa mempunyai pemikiran klasik ini: "Oh, alangkah baiknya jika LLM boleh membaca ini." Tetapi sukar untuk membayangkan seseorang berkata, “Baiklah, Ejen AI, lakukannya. Saya percaya awak boleh melakukannya.” Kerana jika ia membuat kesilapan, akibatnya boleh menjadi sangat serius.
Jesse Zhang: Ini biasanya diputuskan oleh pelanggan kami, dan sebenarnya kami melihat pelbagai perbezaan yang sangat luas. Pada satu ekstrem, sesetengah orang benar-benar menjadikan Ejen mereka kelihatan seperti manusia, jadi terdapat avatar manusia, nama manusia, dan responsnya sangat semula jadi. Sebaliknya, Ejen hanya menyatakan bahawa ia adalah AI dan menjelaskannya kepada pengguna. Saya rasa syarikat yang berbeza yang kami bekerjasama mempunyai kedudukan yang berbeza mengenai perkara ini.
Biasanya, jika anda berada dalam industri terkawal, anda perlu menjelaskan perkara ini dengan jelas. Apa yang saya dapati menarik sekarang ialah tingkah laku pelanggan berubah. Kerana ramai pelanggan kami mendapat banyak maklum balas di media sosial, seperti, "Ya Tuhanku, ini adalah pengalaman sembang pertama yang pernah saya cuba yang sebenarnya terasa sangat nyata," atau "Ini hanya sihir." Dan itu bagus untuk mereka, kerana kini pelanggan mereka sedang belajar, hei, jika ia adalah pengalaman AI, ia sebenarnya boleh menjadi lebih baik daripada manusia. Itu tidak berlaku pada masa lalu, kerana kebanyakan kita pernah mempunyai pengalaman perkhidmatan pelanggan telefon seperti itu pada masa lalu: “Baiklah, AI, AI, AI…”
Kimberly Tan: Anda menyebut konsep pemperibadian beberapa kali. Setiap orang menggunakan seni bina teknologi asas yang sama, tetapi mereka mempunyai keperluan pemperibadian yang berbeza dari segi perkhidmatan sokongan. Bolehkah anda bercakap tentang ini? Secara khususnya, bagaimanakah anda mencapai pemperibadian supaya orang boleh berkata dalam talian, "Ya Tuhan, ini adalah pengalaman sokongan terbaik yang pernah saya alami"?
Jesse Zhang: Bagi kami, pemperibadian datang daripada penyesuaian untuk pengguna. Anda perlu memahami maklumat latar belakang pengguna, yang merupakan konteks tambahan yang diperlukan. Kedua, anda juga perlu memahami logik perniagaan pelanggan kami.Jika anda menggabungkan kedua-duanya, anda boleh memberikan pengalaman yang cukup baik.
Jelas sekali, ini kedengaran mudah, tetapi pada hakikatnya adalah sangat sukar untuk mendapatkan semua konteks yang diperlukan. Oleh itu, kebanyakan kerja kami adalah tentang cara membina komponen primitif yang betul supaya apabila pelanggan menggunakan sistem kami, mereka boleh membuat keputusan dengan mudah, "Baiklah, ini adalah logik perniagaan yang kami mahukan." Sebagai contoh, pertama anda perlu melakukan empat langkah ini, dan jika langkah tiga gagal, anda perlu pergi ke langkah lima.
Anda ingin dapat mengajar AI ini dengan mudah, tetapi juga memberikannya akses kepada maklumat seperti, “Ini ialah butiran akaun pengguna. Jika anda memerlukan maklumat lanjut, anda boleh menghubungi API ini.” Lapisan ini ialah lapisan penyelarasan di atas model, dan dalam satu cara, ia menjadikan Ejen benar-benar boleh digunakan.
Kimberly Tan: Nampaknya dalam kes ini, anda memerlukan banyak akses kepada sistem perniagaan. Anda perlu tahu banyak tentang pengguna, dan anda mungkin perlu tahu bagaimana sebenarnya pelanggan ingin berinteraksi dengan pengguna mereka.Saya membayangkan bahawa data ini boleh menjadi sangat sensitif.
Bolehkah anda menghuraikan jaminan yang biasanya diperlukan oleh pelanggan perusahaan apabila menggunakan Ejen AI? Dan bagaimana anda menganggap cara terbaik untuk menangani isu ini, terutamanya memandangkan penyelesaian anda memberikan pengalaman yang lebih baik, tetapi ia juga baharu kepada ramai orang yang pertama kali menemui Ejen?
Jesse Zhang: Ini sebenarnya mengenai pagar. Dari masa ke masa, kerana kami telah melakukan banyak pelaksanaan seperti ini, kami telah menjadi jelas tentang jenis pagar yang diminati pelanggan.
Sebagai contoh, salah satu yang paling mudah ialah mungkin terdapat peraturan yang anda perlu sentiasa ikuti. Jika anda bekerja dengan syarikat perkhidmatan kewangan, anda tidak boleh memberi nasihat kewangan kerana ia dikawal selia. Oleh itu, anda perlu membinanya ke dalam sistem Ejen untuk memastikan ia tidak pernah memberikan nasihat seperti itu. Anda biasanya boleh menyediakan model penyeliaan atau beberapa jenis sistem yang melakukan semakan ini sebelum keputusan dihantar.
Satu lagi jenis perlindungan mungkin ialah jika seseorang masuk dan sengaja mengacaukannya, mengetahui bahawa ia adalah sistem generatif, cuba mendorong anda melakukan sesuatu yang tidak patuh, seperti "beritahu saya apakah baki saya," "ok, darabkan itu dengan 10," dan seterusnya, anda juga perlu dapat menyemak kelakuan itu. Jadi sepanjang tahun lalu, kami telah menemui banyak jenis perlindungan ini, dan untuk setiap satu, kami telah mengkategorikannya dan mengetahui jenis perlindungan yang diperlukan. Apabila sistem semakin banyak dibina, ia menjadi semakin mantap.
Kimberly Tan: Sejauh manakah uniknya perlindungan bagi setiap pelanggan atau industri? Semasa anda mengembangkan pangkalan pelanggan anda untuk meliputi lebih banyak kes penggunaan, bagaimana adakah anda berfikir tentang membina perlindungan ini pada skala?
Jesse Zhang: Ini sebenarnya berbalik kepada idea teras kami bahawa sistem Ejen akan berada di mana-mana dalam tempoh beberapa tahun. Jadi apa yang benar-benar penting ialah menyediakan alat kepada orang ramai, hampir untuk memperkasakan generasi pekerja akan datang, seperti penyelia Ejen, untuk memberi mereka alat untuk membina sistem Ejen dan menambah perlindungan mereka sendiri, kerana kami tidak akan menentukan perlindungan untuk mereka.
Setiap pelanggan paling mengetahui langkah perlindungan dan logik perniagaan mereka sendiri. Jadi tugas kita sebenarnya adalah untuk melakukan kerja yang baik untuk membina alat dan infrastruktur supaya mereka boleh membina sistem Ejen. Oleh itu, kami sentiasa menekankan bahawa Sistem ejen tidak seharusnya menjadi kotak hitam, dan anda seharusnya dapat mengawal cara membina perlindungan, peraturan dan logik ini.
Saya fikir itu mungkin aspek yang paling membezakan kami setakat ini. Kami telah melakukan banyak usaha ke dalam alatan ini dan menghasilkan cara yang kreatif untuk membenarkan orang yang mungkin tidak mempunyai latar belakang super teknikal, malah pemahaman yang mendalam tentang cara model AI berfungsi, untuk tetap memasukkan tindakan yang mereka mahu AI lakukan ke dalam sistem Ejen.
Saya fikir itu akan menjadi keupayaan yang semakin penting dalam beberapa tahun akan datang. Itu sepatutnya menjadi salah satu kriteria yang paling penting apabila orang menilai alat yang serupa, kerana anda mahu dapat terus mengoptimumkan dan menambah baik sistem ini dari semasa ke semasa.
Logik perniagaan didorong oleh bahasa semula jadi
Derrick Harris: Apakah persediaan yang boleh dibuat oleh pelanggan atau perniagaan untuk menyediakan sebarang jenis automasi, dan khususnya penggunaan sistem Ejen ini? Sebagai contoh, bagaimana mereka boleh mereka bentuk sistem data, seni bina perisian atau logik perniagaan mereka untuk menyokong sistem sedemikian?
Kerana saya merasakan bahawa banyak teknologi AI adalah novel pada mulanya, tetapi apabila ia berkaitan dengan sistem warisan sedia ada, ia sering menghadapi banyak huru-hara.
Jesse Zhang: Jika seseorang sedang membina dari awal sekarang, terdapat banyak amalan terbaik yang boleh memudahkan kerja anda. Contohnya, cara menstruktur pangkalan pengetahuan anda. Kami telah menulis tentang beberapa perkara ini, dan memperkenalkan beberapa kaedah yang boleh memudahkan AI untuk menelan maklumat dan meningkatkan ketepatannya. Satu cadangan khusus adalah untuk membahagikan pangkalan pengetahuan kepada bahagian modular, dan bukannya mempunyai satu artikel besar dengan pelbagai jawapan.
Apabila menyediakan API, anda boleh menjadikannya lebih sesuai untuk sistem Ejen, dan menetapkan kebenaran dan output dengan cara yang memudahkan sistem Ejen menelan maklumat tanpa perlu melakukan banyak pengiraan untuk mencari jawapan. Ini adalah beberapa langkah taktikal yang boleh diambil, tetapi saya tidak akan mengatakan ada apa-apa yang perlu dilakukan untuk menggunakan sistem Ejen.
Derrick Harris: Dokumentasi yang baik sentiasa penting, pada asasnya ia adalah mengenai penyusunan maklumat dengan berkesan.
Kimberly Tan: Nampaknya jika anda cuba mengajar orang bagaimana untuk mengarahkan sistem Ejen beroperasi dengan cara yang paling sesuai dengan pelanggan mereka atau kes penggunaan tertentu, maka banyak percubaan dengan reka bentuk UI dan UX mungkin diperlukan, atau anda perlu memulakan laluan baharu dalam bidang yang sama sekali baharu ini, kerana ia sangat berbeza daripada perisian tradisional.
Saya ingin tahu, bagaimana pendapat anda tentang ini? Apakah rupa UI dan UX dalam dunia yang mengutamakan Agen? Bagaimana anda fikir ia akan berubah dalam beberapa tahun akan datang?
Jesse Zhang: Saya tidak akan mengatakan kami telah menyelesaikan masalah ini. Saya fikir kami mungkin telah menemui optimum tempatan yang sesuai untuk pelanggan semasa kami, tetapi ia masih merupakan bidang penyelidikan yang berterusan, untuk kami dan ramai lagi.
Isu teras kembali kepada apa yang kami nyatakan sebelum ini, iaitu anda mempunyai sistem Ejen. Pertama, bagaimana anda boleh melihat dengan jelas apa yang dilakukannya dan bagaimana ia membuat keputusan? Kemudian, bagaimanakah anda boleh menggunakan maklumat ini untuk memutuskan perkara yang perlu dikemas kini dan apakah maklum balas yang perlu diberikan kepada AI? Di sinilah elemen UI disatukan, terutamanya bahagian kedua.
Kami berpendapat bahawa dari masa ke masa, UI dan UX akan menjadi lebih dan lebih berasaskan bahasa semula jadi, kerana itulah cara sistem Ejen berfikir, atau itu pada dasarnya asas untuk melatih model bahasa besar (LLM).
Secara ekstrem, jika anda mempunyai ejen super pintar yang pada asasnya berfikir seperti manusia, anda boleh menunjukkan perkara, menerangkan perkara kepadanya, memberi maklum balas, dan ia akan mengemas kini dalam "fikiran"nya sendiri. Anda boleh bayangkan mempunyai orang yang sangat berkebolehan menyertai pasukan anda, anda mengajarnya sesuatu, dia mula bekerja, dan kemudian anda terus memberi maklum balas kepadanya, anda boleh menunjukkan kepadanya perkara baharu, dokumen baharu, gambar rajah, dsb.
Saya fikir dalam kes yang melampau, ia akan berkembang ke arah ini: perkara menjadi lebih perbualan, lebih berasaskan bahasa semula jadi, dan orang ramai berhenti membina sistem dengan pepohon keputusan yang kompleks seperti dahulu, menangkap perkara yang anda mahukan, tetapi pendekatan ini boleh rosak dengan mudah. Dulu kami perlu melakukan ini kerana tidak ada LLM pada masa itu, tetapi kini sistem Agen semakin berkuasa, UI dan UX akan menjadi lebih perbualan.
Kimberly Tan: Kira-kira setahun setengah yang lalu, apabila Decagon mula-mula dimulakan, terdapat persepsi umum bahawa LLM sangat sesuai untuk banyak kes penggunaan, tetapi sebenarnya ia hanyalah sejenis "pembungkus GPT," di mana syarikat hanya boleh memanggil model asas melalui API dan segera menyelesaikan masalah sokongan mereka.
Tetapi jelas sekali, apabila syarikat memilih untuk menggunakan penyelesaian seperti Decagon dan bukannya melalui laluan itu secara langsung, ternyata ini tidak berlaku. Saya tertanya-tanya jika anda boleh menjelaskan mengapa ini berlaku. Apakah sebenarnya yang menjadikan cabaran membina dalaman lebih kompleks daripada yang dijangkakan? Apakah salah tanggapan yang mereka ada tentang konsep tersebut?
Jesse Zhang: Tidak salah untuk menjadi "pembungkus GPT", anda boleh mengatakan bahawa Purcell ialah pembungkus AWS atau sesuatu seperti itu. Biasanya, apabila orang menggunakan istilah ini, ia bermakna sesuatu yang menghina.
Pandangan peribadi saya ialah jika anda membina sistem ejen, mengikut definisi anda pasti akan menggunakan LLM sebagai alat. Jadi anda sebenarnya membina di atas sesuatu yang sudah wujud, sama seperti biasanya anda membina pada AWS atau GCP.
Tetapi masalah sebenar yang boleh anda hadapi ialah jika perisian yang anda bina di atas LLM tidak "berat" atau cukup kompleks untuk membuat perubahan.
Mengimbas kembali, bagi kami, apa yang kami jual pada dasarnya adalah perisian. Kami sebenarnya seperti syarikat perisian biasa, kecuali kami menggunakan LLM sebagai sebahagian daripada perisian dan sebagai salah satu alat. Tetapi apabila orang membeli produk jenis ini, mereka terutamanya mahukan perisian itu sendiri. Mereka mahukan alat yang boleh memantau AI, yang boleh menggali jauh ke dalam butiran setiap perbualan yang AI ada, yang boleh memberi maklum balas, yang boleh membina dan melaraskan sistem secara berterusan.
Jadi itulah teras perisian kami. Walaupun dengan sistem Ejen itu sendiri, masalah yang dihadapi oleh orang ramai ialah senang melakukan demo, tetapi jika anda ingin menjadikannya sedia pengeluaran dan benar-benar berhadapan dengan pelanggan, anda perlu menyelesaikan banyak masalah yang telah lama wujud, seperti mencegah fenomena “ilusi” dan menangani pelakon jahat yang cuba menimbulkan kekacauan. Kita juga perlu memastikan bahawa kependaman cukup rendah, nadanya sesuai, dan sebagainya.
Kami bercakap dengan banyak pasukan, dan mereka melakukan beberapa percubaan, membina versi awal, dan kemudian mereka akan menyedari, "Oh, sungguh, kami tidak mahu menjadi orang yang terus membina butiran ini pada peringkat kemudian." Mereka juga tidak mahu menjadi orang yang terus menambah logik baharu kepada pasukan perkhidmatan pelanggan. Jadi pada ketika ini, nampaknya lebih sesuai untuk memilih untuk bekerjasama dengan orang lain.
Kimberly Tan: Anda menyebut beberapa isu jangka panjang, seperti keperluan menangani pelakon jahat, dsb.Saya percaya ramai pendengar yang mempertimbangkan menggunakan Ejen AI bimbang tentang laluan serangan keselamatan baharu yang mungkin timbul selepas pengenalan LLM, atau risiko keselamatan baharu yang mungkin timbul selepas pengenalan sistem Ejen. Apa pendapat anda tentang isu-isu ini? Dan apakah amalan terbaik untuk memastikan keselamatan perusahaan terkemuka semasa berurusan ejen?
Jesse Zhang: Dari segi keselamatan, ada beberapa langkah yang jelas boleh diambil, yang saya sebutkan tadi, seperti perlunya langkah perlindungan. Isu terasnya ialah kebimbangan orang ramai tentang LLM ialah mereka tidak bersifat deterministik.
Tetapi berita baiknya ialah anda sebenarnya boleh meletakkan kebanyakan operasi sensitif dan kompleks di sebalik dinding penentu, dan pengiraan berlaku di sana apabila ia memanggil API. Jadi anda tidak bergantung sepenuhnya pada LLM untuk mengendalikannya, dan itu mengelakkan banyak masalah teras.
Tetapi masih terdapat situasi di mana, sebagai contoh, pelakon yang tidak baik mengganggu atau seseorang cuba membuat sistem berhalusinasi. Kami telah memerhatikan bahawa dalam kebanyakan pelanggan utama yang bekerjasama dengan kami, pasukan keselamatan mereka akan masuk dan pada asasnya melakukan ujian "pasukan merah" pada produk kami, menghabiskan berminggu-minggu secara berterusan melancarkan pelbagai kemungkinan serangan ke atas sistem untuk cuba mencari kelemahan. Memandangkan AI Agent menjadi semakin popular, kita mungkin melihat perkara ini semakin kerap berlaku, kerana ini adalah salah satu cara terbaik untuk menguji sama ada sesuatu sistem itu berkesan. Ia adalah untuk melontar sesuatu melalui ujian pasukan merah dan melihat sama ada ia boleh menembusi pertahanan.
Terdapat juga syarikat permulaan yang membangunkan alat pasukan merah atau membolehkan orang ramai melakukan ujian jenis ini sendiri, yang merupakan trend yang kita lihat sekarang. Banyak syarikat yang bekerjasama dengan kami, pada peringkat seterusnya dalam kitaran jualan, akan mempunyai pasukan keselamatan mereka, atau bekerja dengan pasukan luar, menguji tekanan sistem. Bagi kami, dapat melepasi ujian seperti itu adalah satu kemestian. Jadi, akhirnya, itulah yang terjadi.
Derrick Harris: Adakah ini sesuatu yang anda galakkan pelanggan anda lakukan? Kerana apabila kita bercakap tentang dasar AI, kita menyebut aspek penting, iaitu lapisan aplikasi, dan kami menekankan meletakkan yang tanggungjawab ke atas pengguna LLM dan orang yang menjalankan aplikasi, bukannya hanya menyalahkan model itu sendiri. Maksudnya, pelanggan harus menjalankan ujian pasukan merah, mengenal pasti kes penggunaan khusus dan laluan serangan, dan menentukan kelemahan yang perlu dilindungi, dan bukannya hanya bergantung pada perlindungan keselamatan yang telah disediakan oleh OpenAI atau syarikat lain.
Jesse Zhang: Saya bersetuju sepenuhnya. Saya juga berpendapat bahawa mungkin terdapat gelombang baharu keperluan pemberitahuan yang muncul, serupa dengan pensijilan SOC 2 dan pensijilan HIPAA yang semua orang lakukan sekarang, yang diperlukan dalam industri yang berbeza. Biasanya, apabila anda menjual produk SaaS generik, pelanggan akan memerlukan ujian penembusan dan kami juga mesti menyediakan laporan ujian penembusan kami. Untuk Ejen AI, mungkin terdapat keperluan yang sama pada masa hadapan, dan seseorang mungkin menamakannya, tetapi ini pada asasnya cara baharu untuk menguji sama ada sistem Ejen cukup berkuasa.
Kimberly Tan: Satu perkara yang menarik ialah jelas sekali semua orang sangat teruja dengan penemuan model baharu dan penemuan teknologi yang sedang diperkenalkan oleh semua makmal besar. Sebagai syarikat AI, anda jelas tidak melakukan penyelidikan anda sendiri, tetapi anda memanfaatkan penyelidikan itu dan membina banyak perisian di sekelilingnya untuk disampaikan kepada pelanggan akhir.
Tetapi kerja anda adalah berdasarkan teknologi yang berubah dengan pantas. Saya ingin tahu, sebagai syarikat AI gunaan, bagaimana anda mengikuti perubahan teknologi baharu dan memahami cara ia mempengaruhi syarikat sambil dapat meramalkan pelan hala tuju produk anda sendiri dan membina keperluan pengguna? Secara lebih luas, apakah strategi yang harus digunakan oleh syarikat AI dalam situasi yang sama?
Jesse Zhang: Anda sebenarnya boleh membahagikan keseluruhan timbunan kepada bahagian yang berbeza. Sebagai contoh, LLM berada di bahagian bawah jika anda melihat lapisan aplikasi. Anda mungkin mempunyai beberapa alat di tengah-tengah yang membantu anda mengurus LLM atau melakukan beberapa penilaian dan perkara seperti itu. Kemudian, bahagian atas pada dasarnya adalah apa yang kami bina, yang sebenarnya seperti SaaS standard.
Jadi, kebanyakan kerja kami sebenarnya tidak begitu berbeza daripada perisian biasa, kecuali kami mempunyai komponen penyelidikan tambahan - LLM berubah terlalu cepat. Kita perlu menyelidik perkara yang boleh mereka lakukan, kemahiran mereka, dan model yang harus digunakan untuk melaksanakan tugas tertentu. Ini adalah isu besar kerana kedua-dua OpenAI dan Anthropic melancarkan teknologi baharu, dan Gemini juga bertambah baik secara beransur-ansur.
Oleh itu, anda perlu mempunyai mekanisme penilaian anda sendiri untuk memahami model mana yang sesuai digunakan dalam situasi yang mana. Kadang-kadang anda juga perlu memperhalusi, tetapi persoalannya ialah: bila untuk memperhalusi? Bilakah penalaan halus berbaloi? Ini mungkin isu penyelidikan utama yang berkaitan dengan LLM yang kami fokuskan. Tetapi sekurang-kurangnya setakat ini, kami tidak merasakan bahawa SaaS berubah dengan cepat, kerana kami tidak bergantung pada lapisan tengah. Jadi pada asasnya, LLM yang sedang berubah. Mereka tidak terlalu kerap berubah, dan apabila mereka berubah, ia biasanya naik taraf. Sebagai contoh, Claude 3.5 sonnet telah dikemas kini beberapa bulan yang lalu, dan pada masa itu kami berfikir, "Baiklah, patutkah kami beralih kepada model baharu dan bukannya terus menggunakan model lama?"
Kami hanya perlu menjalankan beberapa siri penilaian, dan setelah kami bertukar kepada model baharu, kami tidak memikirkannya lagi kerana anda sudah menggunakan model baharu. Kemudian, versi o1 keluar, dan keadaannya serupa. Fikirkan di mana ia boleh digunakan. Dalam kes kami, o1 agak perlahan untuk kebanyakan kes penggunaan yang dihadapi pelanggan, jadi kami boleh menggunakannya untuk beberapa kerja latar belakang. Akhirnya, kita hanya perlu mempunyai sistem yang baik untuk penyelidikan model.
Kimberly Tan: Berapa kerap anda menilai model baharu dan memutuskan sama ada untuk menggantikannya?
Jesse Zhang: Kami menilai setiap kali model baharu keluar. Anda perlu memastikan bahawa walaupun model baharu itu lebih pintar, ia tidak memecahkan beberapa kes penggunaan yang telah anda bina. Ini boleh berlaku. Sebagai contoh, model baharu mungkin lebih pintar secara keseluruhan, tetapi dalam beberapa kes yang melampau, ia berprestasi buruk pada pilihan A/B dalam salah satu aliran kerja anda. Itu yang kita nilai.
Saya fikir secara keseluruhannya, jenis kecerdasan yang paling kami minati ialah apa yang saya panggil "keupayaan mengikuti arahan." Kami mahu model menjadi lebih baik dan lebih baik dalam mengikut arahan. Jika itu berlaku, maka ia pasti bermanfaat untuk kita, dan itu sangat baik.
Nampaknya penyelidikan baru-baru ini lebih menumpukan pada jenis kecerdasan yang melibatkan penaakulan, seperti pengaturcaraan yang lebih baik dan operasi matematik yang lebih baik. Ini juga membantu kami, tetapi ia tidak sepenting peningkatan keupayaan mengikuti arahan.
Kimberly Tan: Satu perkara yang sangat menarik yang anda nyatakan, dan saya fikir ia juga sangat unik kepada Decagon, ialah anda telah membina banyak infrastruktur penilaian secara dalaman untuk memastikan anda mengetahui dengan tepat prestasi setiap model di bawah set ujian yang anda berikan.
Bolehkah anda menghuraikan perkara ini? Sejauh manakah infrastruktur penilaian dalaman ini penting, dan khususnya bagaimana ia memberikan keyakinan kepada anda dan pelanggan anda terhadap prestasi Ejen? Kerana beberapa penilaian ini juga berhadapan dengan pelanggan.
Jesse Zhang: Saya fikir ia sangat penting, kerana tanpa infrastruktur penilaian ini, ia akan menjadi sangat sukar bagi kami untuk lelaran dengan cepat.
Jika anda merasakan bahawa setiap perubahan mempunyai kebarangkalian tinggi untuk memecahkan sesuatu, maka anda tidak akan membuat perubahan dengan cepat. Tetapi jika anda mempunyai mekanisme penilaian, maka apabila terdapat perubahan besar, kemas kini model, atau sesuatu yang baharu datang, anda boleh membandingkannya terus dengan semua ujian penilaian. Jika keputusan penilaian adalah baik, anda boleh merasakan: okey, kami membuat penambahbaikan, atau anda boleh mengeluarkannya dengan yakin tanpa terlalu risau.
Jadi, dalam bidang kita, penilaian memerlukan input daripada pelanggan, kerana pelanggan adalah orang yang memutuskan sama ada sesuatu itu betul atau tidak. Sudah tentu, kami boleh menyemak beberapa isu peringkat tinggi, tetapi biasanya pelanggan menyediakan kes penggunaan khusus dan memberitahu kami jawapan yang betul, atau apa yang mesti, nada apa yang mesti dikekalkan, apa yang mesti dikatakan.
Penilaian adalah berdasarkan ini. Jadi kita kena pastikan sistem penilaian kita cukup mantap. Pada mulanya, kami membinanya sendiri, dan ia tidak begitu sukar untuk dikekalkan. Kami juga tahu bahawa terdapat beberapa syarikat penilaian, dan kami telah meneroka beberapa daripadanya. Mungkin pada satu ketika, kami akan mempertimbangkan sama ada untuk menerima pakai mereka, tetapi buat masa ini, sistem penilaian bukan lagi titik kesakitan bagi kami.
Kimberly Tan: Topik yang sangat popular hari ini ialah multimodaliti, bermakna ejen AI sepatutnya boleh berinteraksi merentasi semua bentuk yang digunakan manusia hari ini, sama ada teks, video, suara, dll. Saya tahu bahawa Decagon bermula sebagai berasaskan teks. Dari perspektif anda, betapa pentingnya adalah multimodaliti kepada ejen AI? Pada pendapat anda, apakah tempoh masa untuk ia menjadi arus perdana atau pun standard?
Jesse Zhang: Ia penting, dan dari perspektif syarikat, tidak sukar untuk menambah modaliti baharu. Ia tidak mudah, tetapi intinya ialah: jika anda menyelesaikan masalah lain, seperti yang saya nyatakan - contohnya, membina AI, memantaunya dan mempunyai logik yang betul - maka menambah modaliti baharu bukanlah perkara yang paling sukar untuk dilakukan. Jadi bagi kami, mempunyai semua modaliti sangat masuk akal, dan ia mengembangkan pasaran kami. Kami pada asasnya adalah agnostik modaliti, dan kami membina Ejen kami sendiri untuk setiap modaliti.
Secara umumnya, terdapat dua faktor yang mengehadkan: pertama, adakah pelanggan bersedia untuk menggunakan modaliti baharu? Saya fikir ia sangat masuk akal untuk bermula dengan teks, kerana itu adalah cara yang paling aktif digunakan oleh orang ramai, dan ia kurang berisiko untuk mereka, lebih mudah dipantau dan lebih mudah difahami. Modaliti besar yang lain ialah suara. Jelas sekali, saya rasa masih ada ruang di pasaran, dan penerimaan pengguna terhadap suara masih perlu diperbaiki. Pada masa ini, kami melihat beberapa pengguna awal yang telah mula menerima pakai Ejen suara, yang sangat mengujakan. Aspek lain ialah cabaran teknikal. Kebanyakan orang akan bersetuju bahawa bar ditetapkan lebih tinggi untuk suara. Jika anda bercakap dengan seseorang melalui telefon, anda memerlukan kependaman suara yang sangat singkat. Jika anda mengganggu seseorang, mereka perlu bertindak balas secara semula jadi.
Kerana kependaman pertuturan adalah lebih rendah, anda perlu lebih bijak dalam cara anda mengira. Jika anda berada dalam sembang dan masa tindak balas adalah lima hingga lapan saat, anda hampir tidak menyedarinya dan ia berasa sangat semula jadi. Tetapi jika ia mengambil masa lima hingga lapan saat untuk bertindak balas di telefon, ia terasa agak tidak wajar. Jadi terdapat lebih banyak cabaran teknikal dengan ucapan. Memandangkan cabaran teknikal ini telah diselesaikan dan minat untuk menerima pakai pertuturan meningkat dalam pasaran, pertuturan sebagai modaliti baharu akan menjadi arus perdana.
Model perniagaan yang melampaui kepercayaan
Kimberly Tan: Sebelum kita meneruskan, saya ingin bercakap lebih sedikit tentang model perniagaan Ejen AI. Apabila anda mula-mula dibina Ejen AI atau berbincang dengan pelanggan tentang sistem yang mereka gunakan, data yang mereka proses dan kebimbangan mereka, adakah terdapat apa-apa yang mengejutkan anda? Apakah beberapa perkara yang tidak intuitif atau mengejutkan yang Decagon terpaksa lakukan untuk memberi perkhidmatan yang lebih baik kepada pelanggan perusahaan?
Jesse Zhang: Saya fikir perkara yang paling mengejutkan ialah sejauh mana orang sanggup bercakap dengan kami semasa kami mula-mula. Lagipun hanya kami berdua. Kami berdua telah memulakan syarikat sebelum ini, jadi kami mengenali ramai orang, tetapi walaupun begitu, bagi setiap usahawan, apabila anda ingin meneruskan perbualan rujukan, jika perkara yang anda katakan tidak begitu menarik, perbualan biasanya agak suam.
Tetapi apabila kami mula bercakap tentang kes penggunaan ini, saya sebenarnya mendapati ia agak mengejutkan betapa terujanya orang bercakap mengenainya. Kerana idea itu kelihatan begitu jelas. Anda mungkin berfikir bahawa kerana ia adalah idea yang begitu jelas, orang lain mesti sudah melakukannya, atau mesti sudah ada penyelesaian, atau orang lain mesti telah menghasilkan beberapa jenis penyelesaian. Tetapi saya fikir kami telah menangkap momen yang baik, kes penggunaan itu sangat besar dan orang ramai sangat mengambil berat tentangnya. Seperti yang saya nyatakan sebelum ini, kes penggunaan itu sangat sesuai untuk mengambil Ejen AI dan mendorongnya ke dalam pengeluaran, kerana anda boleh melaksanakannya secara berperingkat dan dapat menjejaki ROI.
Itu adalah satu kejutan yang menyenangkan bagi saya, tetapi jelas terdapat banyak kerja yang perlu dilakukan selepas itu, anda perlu bekerja dengan pelanggan, anda perlu membina produk, anda perlu memikirkan cara untuk pergi. Pada fasa awal, ia benar-benar penemuan yang mengejutkan.
Derrick Harris: Kimberly, saya rasa saya harus menyebut catatan blog yang anda tulis, RIP ke RPA, yang menyentuh banyak yang tugas automasi dan permulaan.Adakah anda fikir terdapat fenomena di mana tugas atau penyelesaian automatik ini tidak begitu ideal, jadi orang ramai sentiasa mencari cara yang lebih baik?
Kimberly Tan: Ya, saya fikir begitu. Saya ingin mengatakan beberapa perkara. Pertama, jika idea jelas kepada semua orang, tetapi tidak ada syarikat yang jelas untuk menyelesaikannya, atau tiada siapa yang menunjuk kepada syarikat dan berkata, "Anda harus menggunakan ini," maka ini bermakna masalah itu sebenarnya belum diselesaikan.
Dalam erti kata lain, ia adalah peluang yang terbuka sepenuhnya bagi syarikat untuk membangunkan penyelesaian. Kerana, seperti yang anda katakan, kami telah mengikuti Decagon sebagai pelabur dari awal. Kami telah melihat mereka menavigasi labirin kreatif, dan apabila mereka memutuskan untuk pergi ke arah ini dan mula bercakap dengan pelanggan, menjadi jelas bahawa semua pelanggan terdesak untuk beberapa jenis penyelesaian yang didayakan AI asli. Ini antara masalah yang saya sebutkan tadi, di mana ramai yang beranggapan ia hanyalah pembalut GPT. Tetapi minat pelanggan yang diterima oleh Decagon sejak awal telah menyedarkan kami lebih awal bahawa banyak isu ini adalah lebih rumit daripada jangkaan orang ramai.
Saya rasa fenomena ini berlaku merentas industri, sama ada perkhidmatan pelanggan atau automasi profesional dalam menegak tertentu. Saya rasa salah satu perkara yang diremehkan ialah, seperti yang dinyatakan Jesse sebelum ini, dapat mengukur dengan jelas pulangan pelaburan (ROI) tugasan mengautomasikan. Kerana, jika anda ingin mendapatkan seseorang untuk menerima ejen AI, mereka sebenarnya mengambil tahap "lompat kepercayaan" kerana ia adalah wilayah yang sangat asing bagi ramai orang.
Jika anda boleh mengautomasikan proses yang sangat khusus iaitu sama ada proses menjana hasil yang jelas, atau proses yang sebelum ini menjadi halangan dalam perniagaan, atau pusat kos utama yang meningkat secara linear dengan pertumbuhan pelanggan atau pertumbuhan hasil, maka lebih mudah untuk mendapatkan penerimaan untuk Ejen AI. Keupayaan untuk mengubah masalah sedemikian menjadi proses yang lebih produktif yang boleh diskalakan seperti perisian tradisional adalah sangat menarik.
Kimberly Tan: Saya ada satu soalan terakhir sebelum kita meneruskan. Saya masih ingat Jesse, dalam perbincangan kami sebelum ini, selalu mengatakan bahawa cabaran terbesar bagi syarikat yang menggunakan perisian atau Ejen AI adalah halusinasi. Tetapi anda pernah memberitahu saya bahawa ini sebenarnya bukan masalah utama. Bolehkah anda menghuraikan mengapa persepsi halusinasi agak mengelirukan dan perkara yang sebenarnya lebih dibimbangkan oleh orang ramai?
Jesse Zhang: Saya fikir orang ramai mengambil berat tentang halusinasi, tetapi mereka lebih mengambil berat tentang nilai yang mereka boleh berikan. Hampir semua syarikat yang bekerja dengan kami memfokuskan pada beberapa isu yang sama, hampir sama: berapa peratusan perbualan yang boleh anda selesaikan? Sejauh manakah pelanggan saya berpuas hati? Kemudian isu halusinasi boleh diklasifikasikan sebagai kategori ketiga iaitu sejauh mana ketepatannya. Secara umumnya, dua faktor pertama adalah lebih penting semasa menilai.
Katakan anda sedang bercakap dengan perniagaan baharu dan anda telah melakukan kerja yang sangat baik berdasarkan dua faktor pertama, dan anda mendapat banyak sokongan daripada kepimpinan dan semua orang dalam pasukan. Mereka seperti, “Ya Tuhan, pengalaman pelanggan kami berbeza. Setiap pelanggan kini mempunyai pembantu peribadi mereka sendiri yang boleh menghubungi kami pada bila-bila masa. Kami telah memberi mereka jawapan yang hebat, mereka sangat berpuas hati, dan ia berbilang bahasa dan tersedia 24/7.” Itu hanya sebahagian daripadanya, dan anda juga telah menjimatkan banyak wang.
Jadi sebaik sahaja anda mencapai matlamat tersebut, anda mendapat banyak sokongan dan banyak peluang untuk memacu kerja. Sudah tentu, isu ilusi akhirnya perlu diselesaikan, tetapi ia bukan perkara yang paling mereka bimbangkan. Cara untuk menyelesaikan ilusi adalah cara yang sama yang saya nyatakan sebelum ini - orang akan menguji anda. Mungkin terdapat fasa pembuktian konsep di mana anda benar-benar menjalankan perbualan sebenar dan mereka mempunyai ahli pasukan memantau dan menyemak ketepatan. Jika itu berjalan dengan baik, maka ia biasanya akan berlalu.
Selain itu, seperti yang saya nyatakan sebelum ini, anda boleh menyediakan beberapa langkah perlindungan yang ketat untuk maklumat sensitif, seperti anda tidak semestinya perlu menjadikan kandungan sensitif generik. Jadi isu ilusi adalah titik perbincangan dalam kebanyakan transaksi. Ia bukan topik yang tidak penting. Anda akan melalui proses ini, tetapi ia tidak pernah menjadi tumpuan perbualan.
Kimberly Tan: Sekarang mari kita beralih kepada model perniagaan Ejen AI. Hari ini, terdapat topik besar tentang cara untuk menetapkan harga Ejen AI ini.
Dari segi sejarah, banyak perisian SaaS diberi harga mengikut bilangan tempat duduk kerana ia adalah perisian aliran kerja yang menyasarkan pekerja individu dan digunakan untuk meningkatkan produktiviti pekerja. Walau bagaimanapun, Ejen AI tidak dikaitkan dengan produktiviti pekerja individu seperti perisian tradisional.
Ramai orang berpendapat bahawa kaedah penetapan harga berdasarkan bilangan tempat duduk mungkin tidak lagi terpakai. Saya ingin tahu tentang bagaimana anda memikirkan tentang dilema ini pada hari-hari awal dan bagaimana anda akhirnya memutuskan untuk menetapkan harga Decagon. Selain itu, pada pendapat anda, apakah arah aliran harga perisian pada masa hadapan apabila Ejen AI menjadi semakin biasa?
Jesse Zhang: Pandangan kami tentang isu ini ialah pada masa lalu, harga perisian bagi setiap tempat duduk kerana skalanya secara kasarnya berdasarkan bilangan orang yang boleh menggunakan perisian tersebut. Tetapi bagi kebanyakan Ejen AI, nilai yang anda berikan tidak bergantung pada bilangan orang yang mengekalkannya, sebaliknya pada jumlah kerja yang dihasilkan. Ini konsisten dengan perkara yang saya nyatakan sebelum ini: jika pulangan pelaburan (ROI) sangat boleh diukur, maka tahap output kerja juga sangat jelas.
Pandangan kami ialah harga mengikut bilangan tempat duduk pastinya tidak terpakai. Anda boleh menetapkan harga berdasarkan hasil kerja. Jadi, model penentuan harga yang anda tawarkan sepatutnya ialah semakin banyak kerja yang dilakukan, semakin banyak yang anda bayar.
Bagi kami, terdapat dua cara yang jelas untuk menentukan harga. Anda boleh sama ada harga perbualan, atau anda boleh harga perbualan yang sebenarnya diselesaikan oleh AI. Saya rasa salah satu pengajaran menarik yang kami pelajari ialah kebanyakan orang memilih model penetapan harga perbualan. Sebabnya ialah kelebihan utama penetapan harga mengikut penyelesaian ialah anda membayar untuk apa yang AI lakukan.
Tetapi persoalan seterusnya ialah, apakah yang dianggap sebagai "penyelesaian"? Pertama sekali, tiada siapa yang mahu membincangkan perkara ini secara mendalam, kerana ia menjadi, "Jika seseorang masuk dengan marah dan anda menghantarnya pergi, mengapa kami perlu membayar untuk itu?"
Ini mewujudkan situasi yang janggal dan juga menjadikan insentif untuk penyedia AI agak pelik, kerana pengebilan melalui penyelesaian bermaksud, "Kami hanya perlu menyelesaikan sebanyak mungkin perbualan dan menolak beberapa orang." Tetapi terdapat banyak kes di mana adalah lebih baik untuk meningkatkan isu itu daripada menolaknya sahaja, dan pelanggan tidak menyukai pengendalian seperti ini. Oleh itu, pengebilan melalui perbualan akan membawa lebih kesederhanaan dan kebolehramalan.
Kimberly Tan: Pada pendapat anda, berapa lama model harga masa hadapan akan bertahan?Kerana pada masa ini apabila anda menyebut ROI, ia biasanya berdasarkan perbelanjaan lepas yang mungkin telah digunakan untuk menampung kos buruh. Apabila Ejen AI menjadi lebih biasa, adakah anda berpendapat bahawa dalam jangka panjang, AI akan dibandingkan dengan kos buruh dan ini adalah penanda aras yang sesuai? Jika tidak, bagaimana anda melihat harga jangka panjang melangkaui kos buruh?
Jesse Zhang: Saya berpendapat bahawa dalam jangka panjang, harga Ejen AI mungkin masih dikaitkan terutamanya dengan kos buruh, kerana itulah keindahan Ejen – perbelanjaan anda sebelum ini untuk perkhidmatan kini boleh dialihkan kepada perisian.
Bahagian perbelanjaan ini boleh menjadi 10 hingga 100 kali ganda daripada perbelanjaan perisian, jadi banyak kos akan beralih kepada perisian. Oleh itu, kos buruh secara semula jadi akan menjadi penanda aras. Bagi pelanggan kami, ROI adalah sangat jelas. Jika anda boleh menjimatkan X juta kos buruh, maka masuk akal untuk menerima pakai penyelesaian ini. Tetapi dalam jangka panjang, ini mungkin di jalan tengah.
Kerana walaupun beberapa produk yang tidak sebaik Ejen kami akan menerima harga yang lebih rendah. Ini seperti situasi SaaS klasik, di mana semua orang bersaing untuk bahagian pasaran.
Kimberly Tan: Pada pendapat anda, apakah masa depan syarikat SaaS semasa, terutamanya mereka yang produknya mungkin tidak dibina untuk AI secara asli atau yang berharga bagi setiap tempat duduk dan oleh itu tidak dapat menyesuaikan diri dengan model penetapan harga berorientasikan hasil?
Jesse Zhang: Bagi sesetengah syarikat tradisional, memang agak sukar jika mereka cuba melancarkan produk Ejen AI kerana mereka tidak boleh menetapkan harga menggunakan model tempat duduk. Jika anda tidak lagi memerlukan Ejen sebanyak mana, sukar untuk mengekalkan pendapatan dengan produk sedia ada. Ini adalah masalah untuk syarikat tradisional, tetapi sukar untuk dikatakan. Syarikat tradisional sentiasa mempunyai kelebihan saluran pengedaran. Walaupun produk itu tidak sebaik syarikat baru, orang ramai enggan menghabiskan usaha untuk menerima pembekal baru dengan hanya 80% kualiti.
Jadi, pertama, jika anda seorang pemula seperti kami, anda mesti memastikan bahawa produk anda adalah tiga kali lebih baik daripada produk tradisional. Kedua, ini adalah persaingan biasa antara syarikat tradisional dan pemula. Syarikat tradisional secara semula jadi mempunyai toleransi risiko yang lebih rendah kerana mereka mempunyai bilangan pelanggan yang ramai. Jika mereka membuat kesilapan dalam lelaran pantas, ia akan menyebabkan kerugian besar. Walau bagaimanapun, pemula boleh lelaran lebih cepat, jadi proses lelaran itu sendiri boleh membawa kepada produk yang lebih baik. Ini adalah kitaran biasa. Bagi kami, kami sentiasa berbangga dengan kelajuan penghantaran kami, kualiti produk dan pelaksanaan pasukan kami. Inilah sebabnya kami telah memenangi perjanjian semasa.
Kimberly Tan: Bolehkah anda membuat beberapa ramalan tentang masa depan AI di tempat kerja? Sebagai contoh, bagaimanakah ia akan mengubah keperluan atau keupayaan pekerja, atau cara pekerja manusia dan Ejen AI berinteraksi?Apakah amalan atau norma terbaik baharu yang anda fikir akan menjadi kebiasaan di tempat kerja apabila Ejen AI semakin meluas?
Jesse Zhang: Perubahan pertama dan paling penting ialah kami yakin bahawa pada masa hadapan, pekerja akan menghabiskan lebih banyak masa di tempat kerja membina dan mengurus Ejen AI, sama seperti peranan penyelia AI. Walaupun jawatan anda bukan "penyelia AI" secara rasmi, banyak masa yang anda gunakan untuk melakukan kerja anda akan dialihkan kepada mengurus Ejen ini, kerana Ejen boleh memberi anda banyak leverage.
Kami telah melihat ini dalam banyak penempatan di mana orang yang pernah menjadi ketua pasukan kini menghabiskan banyak masa memantau AI, contohnya, untuk memastikan ia tidak menghadapi masalah atau membuat pelarasan. Mereka memantau prestasi keseluruhan untuk melihat sama ada terdapat kawasan khusus yang memerlukan perhatian, jika terdapat jurang dalam pangkalan pengetahuan yang boleh membantu AI menjadi lebih baik, dan sama ada AI boleh mengisi jurang tersebut.
Kerja yang datang dengan bekerja dengan Ejen memberi gambaran bahawa pada masa hadapan, pekerja akan menghabiskan banyak masa untuk berinteraksi dengan Ejen AI. Ini adalah konsep teras syarikat kami, seperti yang saya nyatakan sebelum ini. Oleh itu, keseluruhan produk kami dibina dengan menyediakan alat, visualisasi, kebolehtafsiran dan kawalan kepada orang ramai. Saya fikir dalam masa setahun, ini akan menjadi trend yang besar.
Kimberly Tan: Itu masuk akal. Apakah keupayaan yang anda fikir penyelia AI akan perlukan pada masa hadapan? Apakah kemahiran yang ditetapkan untuk peranan ini?
Jesse Zhang: Terdapat dua aspek. Salah satunya ialah kebolehmerhatian dan kebolehtafsiran, keupayaan untuk memahami dengan cepat apa yang dilakukan oleh AI dan cara ia membuat keputusan. Yang lain ialah keupayaan membuat keputusan, atau bahagian pembinaan, cara memberi maklum balas dan cara membina logik baharu. Saya fikir kedua-dua ini adalah dua sisi syiling yang sama.
Kimberly Tan: Apakah tugas yang anda fikir akan kekal di luar kemampuan ejen AI dalam jangka sederhana atau panjang dan masih perlu diurus dan dilaksanakan dengan betul oleh manusia?
Jesse Zhang: Saya fikir ia akan bergantung terutamanya pada keperluan untuk "kesempurnaan" yang saya nyatakan sebelum ini. Terdapat banyak tugas yang mempunyai toleransi yang sangat rendah untuk kesilapan. Dalam kes ini, mana-mana alat AI lebih merupakan bantuan daripada ejen sepenuhnya.
Contohnya, dalam beberapa industri yang lebih sensitif, seperti penjagaan kesihatan atau keselamatan, di mana anda mesti hampir sempurna, kemudian dalam bidang ini, Ejen AI mungkin menjadi kurang autonomi, tetapi itu tidak bermakna mereka tidak berguna. Saya rasa gayanya akan berbeza, dalam platform seperti kami, anda sebenarnya menggunakan Ejen ini untuk membenarkan mereka mengautomasikan keseluruhan kerja.
Derrick Harris: Dan itu sahaja untuk episod ini. Jika anda mendapati topik ini menarik atau memberi inspirasi, sila nilaikan podcast kami dan kongsikannya dengan lebih ramai orang.Kami menjangkakan untuk mengeluarkan episod akhir sebelum akhir tahun dan akan memperlengkap kandungan untuk tahun baharu. Terima kasih kerana mendengar dan nikmati musim cuti yang hebat (jika anda mendengar semasa cuti).
Video asal: Bolehkah Ejen Al Akhirnya Membetulkan Sokongan Pelanggan?