无码中文字幕色专区_精品视频在线观看一区_免费黄色一级网站_2018中文字幕第一页_午夜一区二区视频_精品久久久久久中文字幕2017_男女激情免费视频_182午夜视频_国产精品网站免费_亚洲免费av一区

硅谷大力押注“環境”技術,用于訓練AI智能體

時間:2025-12-01 19:10:31 來源:柳煙花霧網

  多年來,環境科技巨頭的硅谷首席執行官們一直宣揚AI智能體(AI agents)的愿景 —— 這類智能體可自主使用軟件應用為人類完成任務。但如今將消費者級 AI 智能體(無論是大力 OpenAI 的 ChatGPT Agent,還是押注用于 Perplexity 的 Comet)投入實際使用便會發現,這項技術的技術局限性仍十分明顯。要讓 AI 智能體具備更強的訓練穩健性,或許需要行業尚未完全探索出的環境一系列新技術支持。

  其中一項技術便是硅谷精心模擬 “工作空間”,讓智能體在其中接受多步驟任務訓練 —— 這種 “工作空間” 被稱為強化學習(reinforcement learning,大力簡稱 RL)環境。押注用于正如帶標簽的技術數據集推動了上一波 AI 發展浪潮,強化學習環境正逐漸成為智能體開發過程中的訓練關鍵要素。

  AI 研究人員、環境創業者及投資者透露,硅谷目前頂尖 AI 實驗室對強化學習環境的大力需求大幅增加,而有意提供此類技術的初創公司也不在少數。

  “所有大型 AI 實驗室都在內部搭建強化學習環境,” 安德森?霍洛維茨基金(Andreessen Horowitz)普通合伙人珍妮弗?李表示,“但可想而知,創建這類數據集的復雜度極高,因此 AI 實驗室也在尋找能打造高質量環境與評估體系的第三方供應商。整個行業都在關注這一領域。”

  對強化學習環境的需求催生了一批資金雄厚的新興初創公司,例如 Mechanize Work 和 Prime Intellect,這些公司均致力于在該領域占據領先地位。與此同時,Mercor、Surge 等大型數據標注公司表示,隨著行業正從靜態數據集向交互式模擬轉型,它們也在加大對強化學習環境的投入以跟上趨勢。大型實驗室同樣在考慮巨額投資:據《The Information》報道,Anthropic 的管理層已討論計劃在未來一年內,為強化學習環境投入超 10 億美元。

  投資者與創業者們期望,這些初創公司中能誕生出 “強化學習環境領域的 Scale AI”—— 這里的 Scale AI 是估值 290 億美元的數據標注巨頭,曾為聊天機器人時代的發展提供了重要支撐。

  目前的核心問題在于,強化學習環境是否真能推動 AI 技術突破現有邊界。

  什么是強化學習(RL)環境?

  從本質上講,強化學習環境是模擬 AI 智能體在真實軟件應用中操作場景的 “訓練場”。一位創業者在近期采訪中形容其構建過程 “就像制作一款非常枯燥的電子游戲”。

  例如,某個環境可模擬 Chrome 瀏覽器,并向 AI 智能體下達 “在亞馬遜上購買一雙襪子” 的任務。系統會對智能體的表現進行評分,若任務成功(即買到合適的襪子),便會向其發送 “獎勵信號”。

  盡管這類任務聽起來相對簡單,但 AI 智能體在執行過程中仍可能在多個環節出錯:可能在網頁下拉菜單中 “迷路”,也可能誤購多雙襪子。由于開發者無法精準預測智能體可能出現的失誤,環境本身必須具備足夠的穩健性,既能捕捉所有意外行為,又能提供有效的反饋 —— 這使得構建環境的復雜度遠高于創建靜態數據集。

  部分強化學習環境設計十分復雜,可支持 AI 智能體使用工具、訪問互聯網或調用各類軟件應用完成指定任務;另有部分環境則定位更細分,專注于幫助智能體學習企業級軟件應用中的特定任務。

  盡管強化學習環境如今是硅谷的熱門技術,但使用這類技術的先例早已有之。2016 年,OpenAI 的首批項目之一便是構建 “RL Gyms”(強化學習場館),其理念與現代強化學習環境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系統擊敗圍棋世界冠軍,該系統同樣在模擬環境中采用了強化學習技術。

  如今的強化學習環境之所以具有獨特性,在于研究人員正嘗試結合大型 Transformer 模型,打造能 “使用計算機” 的 AI 智能體。與 AlphaGo(僅適用于封閉環境的專用 AI 系統)不同,如今的 AI 智能體旨在具備更通用的能力。當前的 AI 研究人員雖擁有更堅實的技術起點,但目標也更為復雜,可能出現的問題也更多。

  競爭激烈的領域

  Scale AI、Surge、Mercor 等 AI 數據標注公司正積極順應趨勢,著力打造強化學習環境。這些公司不僅比該領域多數初創企業擁有更充足的資源,還與 AI 實驗室建立了深厚的合作關系。

  Surge 首席執行官埃德溫?陳(Edwin Chen)表示,近期已觀察到 AI 實驗室對強化學習環境的需求 “顯著增長”。他透露,Surge 去年通過與 OpenAI、谷歌、Anthropic、Meta 等 AI 實驗室合作,營收據稱達到 12 億美元;該公司近期已成立專門的內部團隊,負責強化學習環境的搭建工作。

  緊隨 Surge 之后的是估值 100 億美元的初創公司 Mercor,該公司同樣與 OpenAI、Meta、Anthropic 有合作。TechCrunch 獲取的營銷材料顯示,Mercor 正向投資者推介其核心業務 —— 為編程、醫療、法律等特定領域任務打造強化學習環境。

  Mercor 首席執行官布倫丹?富迪(Brendan Foody)在采訪中表示:“很少有人真正意識到,強化學習環境領域蘊含的機遇究竟有多大。”

  Scale AI 曾在數據標注領域占據主導地位,但自 Meta 投資 140 億美元并挖走其首席執行官后,該公司的市場份額逐漸下滑。此后,谷歌和 OpenAI 不再將 Scale AI 列為數據供應商,甚至在 Meta 內部,Scale AI 也面臨數據標注業務的競爭壓力。盡管如此,Scale AI 仍在努力適應趨勢,投身強化學習環境的構建。

  “這正是(Scale AI)所處行業的本質,”Scale AI 負責智能體與強化學習環境的產品負責人切坦?拉內(Chetan Rane)表示,“Scale 已證明其快速適應的能力:在我們的首個業務板塊 —— 自動駕駛領域的早期階段,我們做到了這一點;ChatGPT 問世后,Scale AI 也成功適應了新趨勢;如今,我們再次在智能體、環境等新前沿領域進行調整。”

  部分新興企業從創立之初便專注于強化學習環境領域。成立約 6 個月的初創公司 Mechanize Work 便是其中之一,該公司提出了 “實現所有工作自動化” 的大膽目標。不過,聯合創始人馬修?巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正從為 AI 編程智能體打造強化學習環境起步。

  巴尼特表示,Mechanize Work 計劃為 AI 實驗室提供少量高穩健性的強化學習環境,而非像大型數據公司那樣打造大量簡單的強化學習環境。為此,該初創公司為軟件工程師開出了 50 萬美元的年薪(用于構建強化學習環境),這一薪資遠高于在 Scale AI 或 Surge 從事小時工性質工作的報酬。

  兩位知情人士透露,Mechanize Work 已開始與 Anthropic 合作開發強化學習環境。對此,Mechanize Work 與 Anthropic 均拒絕就合作細節置評。

  另有部分初創公司押注強化學習環境在 AI 實驗室之外的領域也將產生影響力。由 AI 研究員安德烈?卡帕西(Andrej Karpathy)、Founders Fund 風投、Menlo Ventures 風投支持的初創公司 Prime Intellect,正將其強化學習環境定位為服務中小型開發者。

  上個月,Prime Intellect 推出了強化學習環境中心,目標是打造 “強化學習環境領域的 Hugging Face”(Hugging Face 為 AI 領域知名開源社區)。該平臺旨在讓開源開發者獲得與大型 AI 實驗室同等的資源支持,同時在此過程中向開發者出售計算資源訪問權限。

  Prime Intellect 研究員威爾?布朗(Will Brown)表示,在強化學習環境中訓練具備通用能力的智能體,所需的計算成本可能高于以往的 AI 訓練技術。因此,除了打造強化學習環境的初創公司,為這一過程提供算力支持的 GPU 供應商也將迎來機遇。

  “沒有任何一家公司能獨自主導強化學習環境領域,其規模太大了,” 布朗在采訪中說,“我們目前所做的部分工作,只是嘗試圍繞該領域搭建良好的開源基礎設施。我們的核心服務是提供計算資源,這確實是使用 GPU 的便捷入口,但我們更著眼于長期發展。”

  能否實現規模化發展?

  關于強化學習環境,目前尚未有定論的問題是:這項技術能否像以往的 AI 訓練方法那樣實現規模化發展?

  過去一年,強化學習推動了 AI 領域多項重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。這些突破意義重大,因為此前用于改進 AI 模型的方法如今正顯現出 “收益遞減” 的趨勢。

  強化學習環境是 AI 實驗室對強化學習技術 “更大押注” 的一部分 —— 許多人認為,隨著在該技術中投入更多數據與計算資源,強化學習將持續推動 AI 進步。OpenAI 負責 o1 模型的部分研究人員此前透露,該公司最初之所以投資 AI 推理模型(通過對強化學習和測試時計算的投入開發而成),正是因為他們認為這類模型具備良好的規模化潛力。

  目前,強化學習實現規模化的最佳路徑尚不明確,但強化學習環境似乎是頗具潛力的方向。與僅通過文本回復獎勵聊天機器人不同,強化學習環境能讓智能體在模擬場景中操作工具、使用計算機完成任務 —— 這種方式雖然對資源的消耗遠更高,但潛在的回報也更大。

  也有部分人士對強化學習環境的發展前景持懷疑態度。曾擔任 Meta AI 研究負責人、現聯合創立 General Reasoning 公司的羅斯?泰勒表示,強化學習環境容易出現 “獎勵作弊”(reward hacking)現象 —— 即 AI 模型為獲得獎勵而 “作弊”,并未真正完成任務。

  “我認為人們低估了環境規模化的難度,” 泰勒說,“即便是目前公開可用的最佳(強化學習環境),若不進行大幅修改,通常也無法正常使用。”

  OpenAI API 業務工程負責人舍溫?吳(Sherwin Wu)在近期播客中表示,他對強化學習環境領域的初創公司 “持看空態度”。吳指出,該領域競爭異常激烈,且 AI 研究發展速度極快,要為 AI 實驗室提供優質服務難度很大。

  卡帕西(作為 Prime Intellect 的投資者,曾稱強化學習環境可能成為突破性技術)也對整個強化學習領域表達了謹慎態度。他在社交平臺 X 的帖子中提出疑問:通過強化學習技術,AI 還能實現多大程度的進步?

  “我對環境與智能體交互持樂觀態度,但對強化學習本身持悲觀態度。” 卡帕西表示。

推薦內容
    无码中文字幕色专区_精品视频在线观看一区_免费黄色一级网站_2018中文字幕第一页_午夜一区二区视频_精品久久久久久中文字幕2017_男女激情免费视频_182午夜视频_国产精品网站免费_亚洲免费av一区
    国产视频一区二区三区在线播放| 久久综合久久网| 白白操在线视频| aa在线观看视频| 一级黄色录像在线观看| 激情五月六月婷婷| 午夜免费看视频| 国产一线二线三线女| 亚洲综合色在线观看| 青青青免费在线| 一区二区三区一级片| 国模杨依粉嫩蝴蝶150p| wwwwww欧美| 久久成年人网站| 亚洲中文字幕无码不卡电影| 亚洲色婷婷久久精品av蜜桃| 日韩欧美xxxx| 青青青青在线视频| 91在线第一页| 能看的毛片网站| 少妇人妻在线视频| 在线观看中文av| 少妇黄色一级片| 国产乱子夫妻xx黑人xyx真爽| 日本三级中文字幕在线观看| 亚洲色图久久久| 黄色一级片播放| 日韩精品一区二区三区四 | 蜜臀av色欲a片无码精品一区| 一级特黄性色生活片| 黄色一级片在线看| 咪咪色在线视频| 中文字幕成人在线视频| av免费中文字幕| 日韩五码在线观看| 久久久久久久免费视频| 亚洲视频第二页| 欧美伦理片在线观看| 色综合手机在线| 中文字幕日本最新乱码视频| 国产aaa免费视频| 成人手机在线播放| 亚洲男人天堂2021| 久久精品久久99| 思思久久精品视频| 国产喷水theporn| www.激情小说.com| 久久九九国产视频| 国产精品99久久免费黑人人妻| 国产精品无码人妻一区二区在线 | 国产一区二区网| 国产不卡一区二区视频| 日韩亚洲欧美一区二区| 国产片侵犯亲女视频播放| 久久免费一级片| 日韩免费在线观看av| 国产真实老熟女无套内射| 国产资源第一页| 日韩中文字幕亚洲精品欧美| 欧美精品在欧美一区二区| www.avtt| 欧美成人三级在线视频| 国产乱子伦农村叉叉叉| 每日在线更新av| 岳毛多又紧做起爽| 国产成人亚洲精品无码h在线| 亚洲国产精品久久久久婷蜜芽| 丰满爆乳一区二区三区| 国产男女无遮挡| 超碰在线97免费| 想看黄色一级片| ijzzijzzij亚洲大全| 小泽玛利亚av在线| 日韩中字在线观看| 欧美一级黄色片视频| 亚洲黄色a v| 亚洲一区二区图片| 日本天堂免费a| 国产精品又粗又长| 国产成人手机视频| 91网址在线观看精品| 日本丰满大乳奶| 妞干网在线视频观看| 日韩在线第三页| 午夜激情视频网| 欧美久久在线观看| 国产成人精品无码播放| 少妇一级淫免费播放| 青青草原国产在线视频| 中文字幕在线中文| 人妻精品无码一区二区三区 | 久久www视频| 无码人妻丰满熟妇区毛片18| 三级在线视频观看| 糖心vlog在线免费观看| 虎白女粉嫩尤物福利视频| 一道本在线免费视频| 免费看黄色a级片| 中国丰满人妻videoshd| 国内av一区二区| 亚洲人精品午夜射精日韩| 日韩一级免费片| 日韩欧美国产免费| 亚洲黄色片免费| 国产白丝袜美女久久久久| 日本免费观看网站| 亚洲av首页在线| 中文字幕永久视频| 日本大胆人体视频| 美女网站免费观看视频| 国产成人生活片| 国产v亚洲v天堂无码久久久| 亚洲欧美一区二区三区不卡| 浮妇高潮喷白浆视频| 亚洲77777| 久久久久久久久久久视频| 6080国产精品| 亚洲中文字幕久久精品无码喷水| 黄色影视在线观看| 污网站免费在线| 国产精品网站免费| 天堂av手机在线| 能在线观看的av| 国产精品国三级国产av| 午夜啪啪小视频| 日韩av资源在线| 欧妇女乱妇女乱视频| 91免费视频污| jizz欧美激情18| 日本精品久久久久久久久久| 一区二区三区四区久久| 欧美亚洲日本在线观看| 九九热只有这里有精品| 色乱码一区二区三区熟女| 亚洲黄色av网址| 日本免费黄视频| 久久在线中文字幕| 大地资源第二页在线观看高清版| 熟妇人妻无乱码中文字幕真矢织江| 男女日批视频在线观看| 亚洲精品天堂成人片av在线播放| 九九热99视频| 狠狠躁狠狠躁视频专区| 蜜臀久久99精品久久久酒店新书 | 99re精彩视频| 日韩视频在线免费看| 日韩小视频网站| 中文字幕精品在线播放| 日本网站在线看| 九九视频精品在线观看| 久久午夜夜伦鲁鲁一区二区| 日韩在线一级片| 成人性生活视频免费看| 国产在线xxxx| 欧妇女乱妇女乱视频| 亚洲乱码日产精品bd在线观看| 热这里只有精品| 亚洲一二三av| 免费在线观看污网站| 国产精品自在自线| 三上悠亚在线一区| 亚洲黄色片免费| 99精品视频免费版的特色功能| 午夜一级免费视频| 五月天中文字幕在线| 亚洲欧美日韩三级| 国产欧美一区二| 成人高清在线观看视频| 久久香蕉视频网站| 18禁裸男晨勃露j毛免费观看| 黄色成人在线免费观看| 国产黄色片免费在线观看| 亚洲人精品午夜射精日韩 | 福利视频999| 手机在线国产视频| 日本在线观看视频一区| 婷婷激情综合五月天| 国产91av视频在线观看| 8x8x华人在线| 日韩精品在线观看av| 男人添女荫道口图片| 欧美一区二区中文字幕| www.亚洲天堂网| jizzzz日本| 国产精品一二三在线观看| 国产天堂视频在线观看| 国产精品秘入口18禁麻豆免会员| 少妇性l交大片| 国内外成人免费在线视频| 国产成人精品免费看在线播放| 成人午夜免费在线视频| 欧美 国产 日本| 午夜免费看视频| 国产尤物av一区二区三区| 黄色片视频在线免费观看| 99视频免费播放| 三年中国中文在线观看免费播放| 国产毛片视频网站| 黑森林精品导航| 99亚洲国产精品|