企業 AI 代理人需要壓力測試,而非銷售推銷

Abhishek Saxena,Sentient策略與成長負責人。


金融科技發展迅速。消息無處不在,清晰卻不易。

FinTech Weekly 將關鍵故事與事件集中呈現。

點擊此處訂閱 FinTech Weekly 的電子報

由摩根大通、Coinbase、貝萊德、Klarna 等高管閱讀。


企業人工智慧面臨一個信任問題,任何行銷都無法解決。公司開始將自主代理部署到生產環境中,而一次錯誤的決策可能引發合規違規、支付失敗、交易錯誤、財務損失或聲譽危機。然而,行業評估代理是否準備好進入生產的標準仍然基本上是舞台上令人印象深刻的演示。

Nvidia 本週推出的 NemoClaw 表示自主代理正迅速從實驗走向企業工作流程。該平台加入了重要的安全與隱私控制,包括沙箱和政策護欄。但安全部署並不等同於生產就緒。更難的問題是,這些系統是否已經經過測試,能在模糊性、邊緣案例和監管壓力下可靠運作。

在受控環境中完成任務的代理相對容易。建立一個能處理模糊性、從意外輸入中恢復、在數千次並發交互中保持一致性,並且不違反監管限制的代理,則是完全不同的工程挑戰。

這種差異正是許多企業部署遇到困難的原因。演示性能與生產可靠性之間的差距比大多數團隊預期的更寬。

在測試中能完美處理客戶支持查詢的代理,可能在面對從未見過的邊緣案例時,產生不存在的退款政策。管理金融流程的代理,可能在歷史數據上表現完美,但在市場條件超出訓練分佈時卻做出災難性決策。協調供應鏈的物流代理,可能在模擬中成功,但當現實中的延遲和衝突信號開始累積時,卻難以應對。

任何經歷過對抗性測試環境的代理開發者都能迅速識別這些模式。系統——直到遇到模糊性和壓力——才會暴露出問題。

這也是為什麼行業目前專注於建立更多代理框架,卻忽略了一個關鍵環節。真正的瓶頸不在於公司能多快創建代理,而在於他們能多有信心在代理承擔真正責任前,對其進行評估。

企業人工智慧所需的是嚴謹、系統的壓力測試基礎設施,專為自主系統設計。這意味著故意引入那些會讓代理在生產中崩潰的輸入。評估代理在不確定性、衝突信息和未在乾淨基準數據集中出現的邊緣案例下的行為。並且,這需要持續評估,而非一次性測試。

NemoClaw 的開源方法是朝正確方向邁出的一步,因為它讓開發者能看到代理的運作方式。你無法正確測試一個黑箱,但僅有可見性是不夠的。測試基礎設施本身也必須隨著系統的演進而進化。

代理開發應假設失效模式是不可避免的,並且必須提前暴露。目標不是證明代理一次就能正常工作,而是了解它在條件變得不可預測時的行為。這種思維方式改變了代理的評估方式、護欄的設計,以及系統在高風險環境中的部署準備。

隨著代理從孤立任務轉向端到端工作流程,風險只會增加。企業已經在探索能協商合約、執行金融交易、協調供應鏈和管理複雜運營流程的代理。當這些系統跨越多個決策點運作時,一個錯誤的影響可能迅速擴散。

失敗的客戶支持代理會失去一張工單。失敗的金融代理可能損失資本。失敗的運營代理可能延遲整個生產線。
最終能在企業人工智慧中取得成功的公司,不會是那些最早部署代理的公司,而是那些真正能信任代理的公司。

信任不是在開發結束時加入的功能,而是一種工程紀律——從測試系統、評估其在壓力下的行為,到在觸及生產工作負載之前理解其失效模式,這一切都應該從一開始就著手。

Nvidia 正在為企業提供強大的工具,以建立自主代理。更難的問題——也是決定這些系統是否能在現實世界成功的關鍵——是企業是否同樣投資於證明這些代理已準備就緒所需的基礎設施。


關於作者

Abhishek Saxena 是 Sentient 的策略與成長負責人,Sentient 是一個開源人工智慧平台,致力於建立可信自主代理的基礎設施。此前,Abhishek 曾在 Polygon Technology、Apple 和 InMobi 擔任職務,並擁有哈佛商學院的MBA學位。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆