Gate News 訊息,4 月 27 日——Google DeepMind 的資深產品經理、以及 Google AI Studio 的產品負責人 Logan Kilpatrick 表示,在 X 上,每一家正在打造基於 AI 的產品的公司都應建立自己的自訂基準,用以衡量 AI 模型的效能。他將其描述為一種方法,使模型改進能夠「讓貴公司獲益不成比例」,並敦促創辦人與商業領袖「從明天開始。」
多數公司目前依賴公開排行榜來選擇 AI 模型,但這些排行榜衡量的是通用能力,往往與特定商業情境不匹配。Kilpatrick 以一家合約審閱公司為例,該公司最關注的是條款抽取的準確度——而這項能力在公開基準中並不存在,導致無法評估模型在該任務上的表現。自訂基準提供兩項關鍵優勢:第一,它們讓公司能夠針對各次模型更新,評估其在自身商業任務上的表現,並選擇在其實際使用情境中表現最佳的模型,而非整體排名最高的模型;第二,它們讓公司能夠與模型供應商分享這些測試集,從而在與公司業務息息相關的領域推動持續最佳化。
Kilpatrick 指出,像 Zapier 和 Sierra 這樣的公司已在採用這種做法,他表示:「這裡可以創造出很多 alpha。」
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
PayPal 揭露重組為三個部門,目標在 2027 年底前達成 $900M 年度節省
在 4 月 30 日,PayPal 宣布進行全面的結構性重組,將業務拆分為三個明確的事業單位——消費者(Consumer)、中小型企業(Small Business)以及企業(Enterprise)——目標在於精簡營運並加速人工智慧(AI)的整合。公司預估此次重組將帶來
GateNews35分鐘前
Kaisar Network 完成 $4 百萬美元的募資,為去中心化的 AI 運算層 1
根據 ChainCatcher,Kaisar Network(一個去中心化的 AI 計算 Layer 1 網路)截至目前已完成 $4 百萬的融資金額,其中包含在策略性 Pre-Seed 輪中融資 100 萬美元。投資者包括 Merov Capital、StoneBlock、WM Capital、Arche Fund、Q42 和 Unicorn Ventures。該網路
GateNews2小時前
OpenAI 首席財務官駁斥營收目標傳聞,稱公司將於 5 月 1 日以最高水準執行
根據 Bloomberg 報導,OpenAI 首席財務官 Sarah Friar 在 5 月 1 日駁斥了該公司未達內部銷售與用戶目標的傳聞。Friar 表示,公司正以最高層級執行其計畫,並將產品需求形容為「垂直牆」。她指出,執行
GateNews2小時前
馬斯克的顧問在法庭上揭露 xAI 的 $974B 出價,針對 OpenAI 非營利資產,引發新一輪審視
根據 Jared Birchall 在 Musk 對 OpenAI 提起訴訟的第 4 天作證內容,xAI 的 9740 億美元出價收購 OpenAI 這家非營利組織的資產,目的是避免 Sam Altman 在 OpenAI 重整期間對這些資產進行低估。然而,Judge Yvonne Gonzalez Rogers 質疑 Birchall 如何能提出 9740 億美元
GateNews3小時前
馬斯克承認 xAI 在第 4 天審判期間對 OpenAI 模型使用了蒸餾技術
根據 Beating 與 The Verge,在 Musk 與 OpenAI 的審判第 4 天,OpenAI 的律師質疑 xAI 是否使用蒸餾(distillation)來透過使用 OpenAI 的技術改進其模型。Musk 起初表示「幾乎所有 AI 公司都這麼做」,但在被追問是否能直接回答時,承認
GateNews4小時前
美國高收入員工中有 66.3% 在工作中使用 AI 工具,美聯儲調查顯示
根據美國聯邦準備理事會(Federal Reserve)的調查,截至 5 月 1 日,每年收入超過 20 萬美元的美國受僱者中,有 66.3% 在過去 12 個月於工作中使用過 AI 工具。在較低收入級距中,使用率顯著下降:收入在 10 萬美元至 20 萬美元之間者為 51.6%,收入在 5 萬美元至 10 萬美元之間者為 40.2%,
GateNews4小時前