自偷自拍亚洲综合精品第一页,中文字幕mv在线观看,夜夜躁狠狠躁日日躁2002,在线精品无码字幕无码av,怡红院av一区二区三区

頭部-中國互聯(lián)網(wǎng)投資基金
您的位置: 首頁>新聞資訊>行業(yè)動態(tài) 行業(yè)動態(tài)
被投企業(yè)動態(tài) | 銀河通用重磅發(fā)布全球首個端到端具身抓取基礎(chǔ)大模型 GraspVLA,定義全合成大數(shù)據(jù)預(yù)訓(xùn)練新范式!
日期:2025-01-14      來源:

    在剛剛結(jié)束的NVIDIACES2025發(fā)布會上,Galbot站在英偉達(dá)創(chuàng)始人黃仁勛的身后,在全世界的注視下托舉起了其發(fā)布的新一代顯卡產(chǎn)品——RTX5090。

    緊接著Galbot又和團隊成員在線下展位接待黃教主,現(xiàn)場展示無人零售的取貨能力,大獲贊譽。

    一時之間,銀河通用備受全球矚目,這家初創(chuàng)型企業(yè)憑什么獲黃教主如此垂青?

    今天,銀河通用以發(fā)布全球首個端到端具身抓取基礎(chǔ)大模型(FoundationModel)給出一個圓滿的回答。

    銀河通用聯(lián)合北京智源人工智能研究院(BAAI)及北京大學(xué)和香港大學(xué)研究人員,鄭重發(fā)布首個全面泛化的端到端具身抓取基礎(chǔ)大模型GraspVLA。

    GraspVLA的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。

    其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達(dá)到了有史以來最大的數(shù)據(jù)體量——十億幀「視覺-語言-動作」對,掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型;預(yù)訓(xùn)練后,模型可直接Sim2Real在未見過的、千變?nèi)f化的真實場景和物體上零樣本測試,全球首次全面展現(xiàn)了七大卓越的泛化能力,滿足大多數(shù)產(chǎn)品的需求;而針對特別需求,后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場景,維持高泛化性的同時形成符合產(chǎn)品需求的專業(yè)技能。

    作為真正意義的端到端具身基礎(chǔ)大模型,GraspVLA展示了無需大規(guī)模真實數(shù)據(jù)、僅通過合成數(shù)據(jù)達(dá)到基礎(chǔ)模型的預(yù)訓(xùn)練過程,和進一步通過小樣本微調(diào)使基礎(chǔ)“通才”快速成長為指定場景“專家”的能力,定義了VLA發(fā)展的新范式。

    這一范式具有重要意義,一舉打破了世界范圍內(nèi)具身通用機器人當(dāng)前發(fā)展的兩大瓶頸。

    數(shù)據(jù)瓶頸

    真實數(shù)據(jù)采集不僅非常昂貴,且很難覆蓋所有可能的實際應(yīng)用場景,導(dǎo)致數(shù)據(jù)量不夠無法訓(xùn)練出基礎(chǔ)模型、采集成本過大以致無法盈利。即便不計成本地采集,由于人形機器人硬件遠(yuǎn)未收斂,隨著硬件更新,原有的數(shù)據(jù)效力將大打折扣,造成大規(guī)模的浪費。

    泛化瓶頸

    數(shù)據(jù)的缺乏直接限制了機器人的泛化性和通用性。大部分機器人只能在特定的環(huán)境、特定的物體和特定的條件下完成專用任務(wù),人形機器人無法實現(xiàn)規(guī)模商業(yè)化。

     以GraspVLA為代表的銀河通用技術(shù)路線具有低成本、大數(shù)據(jù)、高泛化的特點,突破了具身智能的發(fā)展瓶頸,無愧于托舉起芯片巨頭下一代核心產(chǎn)品的重?fù)?dān),將在2025年引領(lǐng)端到端具身大模型走向規(guī)模商業(yè)化!

     下面讓我們詳細(xì)了解這一新范式經(jīng)受的一系列泛化性測試以及展示出的基礎(chǔ)模型的強大遷移能力。


    VLA預(yù)訓(xùn)練如何才算達(dá)到基礎(chǔ)模型?“金標(biāo)準(zhǔn)”來檢驗!

    近年來,具身大模型雖在泛化性上取得一定進展,包括RDT初步展示了對不同背景和同一類別不同外觀物體泛化的能力,OpenVLA、π0、GR-2等進一步展示了對干擾物、平面位置泛化的能力。

    但時至今日,端到端具身大模型的泛化性仍然達(dá)不到真實需求,無法支撐產(chǎn)品落地。基于此,我們首次給出了VLA達(dá)到基礎(chǔ)模型需滿足的七大泛化金標(biāo)準(zhǔn)。以下內(nèi)容均為未見過的場景和物體進行零樣本測試的結(jié)果,展現(xiàn)了GraspVLA單一模型的七大全面泛化能力。



01

光照泛化:光影百變,能力不變

    咖啡廳、便利店、生產(chǎn)車間、KTV等真實工作環(huán)境中的光照條件各異,光線的冷暖、強弱變化不盡相同,既有漸變也有驟變。面對以上各種情景,GraspVLA都不出意外,表現(xiàn)穩(wěn)定:


視頻為二倍速播放

    甚至是在極端黑暗環(huán)境下移動目標(biāo)物體,GraspVLA也能準(zhǔn)確找到并正常抓取:


視頻為二倍速播放

02

背景泛化:萬千紋理,始終如一

    實際環(huán)境中機器人工作場景不盡相同,面對不同材質(zhì)、不同紋理的桌面和操作臺,甚至動態(tài)變化的背景畫面,GraspVLA皆不受影響,穩(wěn)穩(wěn)出手:


視頻為三倍速播放

    同樣的,面對動態(tài)變化的背景畫面,GraspVLA亦不受影響(需要注意的是,GraspVLA采用雙相機視角作為輸入,演示視頻拍攝的視角對應(yīng)了機器人正面的相機視角):


視頻為三倍速播放

03

平面位置泛化:平移旋轉(zhuǎn),隨機應(yīng)變

    將物體在桌面上隨意平移、旋轉(zhuǎn),GraspVLA仍舊輕車熟路:


視頻為二倍速播放

04

空間高度泛化:高低錯落,從容不迫

     GraspVLA具備強大的高度泛化能力,即便是面對物體擺放高低錯落的工作臺,用戶也不用擔(dān)心模型蒙圈:


視頻為倍速播放

05

動作策略泛化:閉環(huán)調(diào)整,隨心應(yīng)對

    GraspVLA實時進行推理決策,不僅會移動跟隨目標(biāo),對于物體豎放、倒放等不同擺放方式,還可根據(jù)物體和夾爪的位姿自動調(diào)整策略,選擇最安全合理的抓取方式,處理復(fù)雜情況得心應(yīng)手:


06

動態(tài)干擾泛化:超強抗擾,穩(wěn)定抓取

    真實工作場景復(fù)雜多變,機器人在執(zhí)行任務(wù)時常常會受到干擾。在工作過程中,即使往工作空間中隨意添加干擾物體,甚至發(fā)生撞擊并使目標(biāo)物體隨機移位,GraspVLA依然能夠穩(wěn)定地完成任務(wù):


視頻為倍速播放

07

物體類別泛化:開放詞匯,觸類旁通

    上述測試中,所有物體、場景、擺放方式均未進行任何訓(xùn)練,GraspVLA僅通過仿真合成數(shù)據(jù)學(xué)習(xí)到的語義和動作能力,實現(xiàn)了在真實世界中零樣本泛化測試。

    此外,通過把仿真合成的動作數(shù)據(jù)和海量互聯(lián)網(wǎng)語義數(shù)據(jù)巧妙地聯(lián)合訓(xùn)練,對于沒有學(xué)習(xí)過動作數(shù)據(jù)的物體類別,GraspVLA也能把已掌握的動作能力泛化遷移:


視頻為倍速播放

    產(chǎn)品有特殊需求?一人天數(shù)據(jù)后訓(xùn)練迅速對齊!

    經(jīng)過合成大數(shù)據(jù)的預(yù)訓(xùn)練,GraspVLA已經(jīng)天然滿足大多數(shù)應(yīng)用需求,但是在產(chǎn)品和特定場景中常常有一些特殊需求。這里我們以商超、工廠、家庭中的三個需要后訓(xùn)練的情形進行舉例,展示GraspVLA對新需求的快速適應(yīng)及遷移能力。

01

迅速服從指定規(guī)范并“舉一反三”

    以商超場景為例,雖然GraspVLA具有泛化的抓取能力,預(yù)訓(xùn)練后即可輕松抓取指定商品,但用戶希望模型按照順序取出同類商品。


視頻為倍速播放


02

迅速掌握新詞匯,拓展新類別

    工業(yè)場景中,往往有大量行業(yè)專用的特殊零件。雖然模型僅需預(yù)訓(xùn)練就可以抓起任意零件,但難以直接根據(jù)語言指令抓起對應(yīng)物體,比如指定“抓取車窗控制器”,但模型抓起了接線座。


視頻為倍速播放

    為了提升模型識別罕見零件的能力,僅需采集少量軌跡進行快速后訓(xùn)練。GraspVLA迅速掌握了諸如接線座(WiringBase)、三角板(TriangularPanel)、黑色軟管(BlackHose)等特殊工業(yè)名詞,能從任意擺放的密集場景中精準(zhǔn)找出對應(yīng)零件:


視頻為倍速播放

03

迅速對齊人類偏好

    在家庭場景中,人們對機器人的行為會有特定的偏好,例如抓取杯子時不要碰到杯子內(nèi)壁。同樣通過采集少量帶偏好的抓取軌跡,GraspVLA即可學(xué)會按照自然語義抓取:


對齊前,視頻為三倍速播放


對齊,視頻為三倍速播放

    由此可見,GraspVLA在預(yù)訓(xùn)練中已經(jīng)充分掌握識別物品、抓取物品、多維度泛化的基礎(chǔ)能力,使其在不同場景中針對特定需求規(guī)?;瘧?yīng)用時,可以低成本高效拓展,這是VLA模型商業(yè)化應(yīng)用中必備的能力。


VLA新范式的現(xiàn)在與將來

    抓取是操作技能的基礎(chǔ),GraspVLA的發(fā)布樹立了一個重要的里程碑,奠定了以仿真合成大數(shù)據(jù)預(yù)訓(xùn)練為核心的具身基礎(chǔ)大模型的技術(shù)路線,開創(chuàng)了該領(lǐng)域發(fā)展的全新范式。

支撐這一范式的關(guān)鍵是合成大數(shù)據(jù)。

    銀河通用基于多年合成仿真數(shù)據(jù)的經(jīng)驗,堅持合成仿真數(shù)據(jù)的研究,開創(chuàng)性地研發(fā)出一套針對端到端VLA模型預(yù)訓(xùn)練的全仿真合成數(shù)據(jù)生產(chǎn)管線,在短短一周內(nèi)就能生成全球規(guī)模最大的十億級機器人操作數(shù)據(jù)集(包含視頻-語言-動作三個模態(tài))。

    借助Isaac平臺的加持,團隊進一步提高了數(shù)據(jù)的物理真實性和物理渲染的并行度,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量和低成本。即使硬件發(fā)生更新,該技術(shù)方案也能快速更新數(shù)據(jù)而不產(chǎn)生高附加成本,讓企業(yè)沒有數(shù)據(jù)沉沒成本、減少硬件迭代的阻力。銀河通用的預(yù)訓(xùn)練全合成大數(shù)據(jù)方案在人力和資金投入上成本更低,時間效率更高,可持續(xù)發(fā)展性更好。

    此外,面對產(chǎn)品落地中的特別需求,GraspVLA的基座屬性使得它僅需百條真實軌跡即可讓預(yù)訓(xùn)練模型理解新任務(wù)并舉一反三,實現(xiàn)了“一人一天完成產(chǎn)品部署”的通用機器人落地愿景,為VLA大規(guī)模商業(yè)化落地開辟了一條極具潛力的道路。

    與此同時,聯(lián)合研發(fā)團隊在過去一年里還在導(dǎo)航VLA模型(NaVid系列模型)的研究上取得了重大突破,我們將陸續(xù)展示和介紹該系列導(dǎo)航VLA模型的泛化能力和涌現(xiàn)現(xiàn)象。

    面向未來,我們將快速推出覆蓋多技能的具身基礎(chǔ)大模型,全面整合團隊從抓到放、從關(guān)節(jié)類物體到柔性物體操作的各類任務(wù)的合成數(shù)據(jù),持續(xù)依靠合成大數(shù)據(jù)作為唯一預(yù)訓(xùn)練來源,釋放前所未有的潛力與能力,定義具身智能的ChatGPT時刻,推動人形機器人出現(xiàn)下一個高峰。

    敬請期待我們的更多突破與成果。

分享到:
關(guān)于我們
公司簡介
企業(yè)文化
管理團隊
新聞資訊
公司新聞
行業(yè)動態(tài)
投資業(yè)務(wù)
投資理念
投資領(lǐng)域
增值服務(wù)
已投項目
聯(lián)系我們
聯(lián)系方式
BP通道
招聘信息

掃碼關(guān)注中網(wǎng)投微信公眾號
版權(quán)所有 Copyright@2018-2023 中國互聯(lián)網(wǎng)投資基金 京ICP備18053263號