Tech columns

プロのデータサイエンティストが執筆する技術コラム

力情報を扱うVLAモデルのサーベイ

Vision-Language-Action (VLA) Modelとは?」では、VLAモデルの基本構成や代表的なモデルを紹介しました。VLAは多くのタスクで成果を上げていますが、接触を多く伴うタスクではまだ課題が残っており、力情報をモーダルとして追加することで改善を図る研究が増えています。

本稿では、力情報を扱うVLAモデル(本稿ではVision-Tactile-Language-Action Model〔VTLAモデル〕と総称)に関する8件の文献を、力のセンシング・モデルの拡張方法・制御方式の3つの観点から整理します。

VLAモデル/VTLAモデルとは?

VLAモデルとVTLAモデルのフロー比較図
VLAモデル(左)とVTLAモデル(右)の比較

VTLAモデルとは、VLAモデルに対して入力や出力に「力情報(Tactile)」を追加したものと定義*1でき、食品などの柔らかい物体を扱うために効果的なモデルです。

VLAモデル

視覚・言語・関節状態を入力し、関節位置を出力するマルチモーダル模倣学習モデル。

VTLAモデル

VLAモデルの入力や出力にトルク・触覚画像などの力情報(図の赤字の箇所)が追加されたモデル。

*1 ACTのようなVAモデル(言語なし)の拡張も含めて本稿では「VTLA」と総称します

なぜ力情報が必要か?

VLAモデルのフロー図

従来のVLAモデル

従来の模倣学習ベースのVLAモデルは視覚・位置情報のみでタスクを実行しており、以下の課題を抱えています。

データ収集時
  • 位置制御のみの遠隔操作では操作者に接触の感覚が伝わらず、力を使わないデモ動作になりやすい[8]

  • 遠隔操作は非効率

    • ズッキーニの皮むきでは、完了時間が手作業*2では5分以内なのに対して遠隔操作では13分以内[10]

*2 ForceMimicが提案するロボット不要の直接デモ収集方式。人間がツールを持ち、力データを直接記録する

観測データ(モデルへの入力)
  • 接触を伴うタスクの成功率が極めて低い

    • 充電器挿入0%[7]、柔らかい物体(食品等)の把持13%[8]、5タスク平均37%[1]

  • 視覚だけでは物体の物理特性がわからない

    • 硬さ・力の判別はランダム推測と同等(各50%)[11]

  • 視覚が劣化するとタスクを実行できない

    • 暗環境でタスク失敗[9]/視覚遮蔽下のプラグ挿入60%[1]

アクション(モデルからの出力)
  • 力加減ができず物体を破損

    • 位置制御のみの皮むきで 〜20N(一部40N超)を印加[10]

  • 力加減(「softly」や「hard」)を言語指示しても制御できない[8]


VTLAモデルのフロー図

VTLAモデルでの改善

VTLAモデルに関する文献では、これらの課題に対して以下のような改善が報告されています。

データ収集時
  • バイラテラル制御(力の双方向伝達)で、リーダーの操作者がフォロワーの触覚をフィードバックにより感じながら動作を収集できる

観測データ(モデルへの入力)

視覚だけではわからない物体特性の情報が得られます。

  • 把持の精度・滑らかさが向上

    • 触覚入力で把持成功率が向上(75.0% → 96.9%)、完了時間も24%削減[4]

  • タスク成否・物体特性を判断

    • トルク変化で接触失敗を検知し自律リトライ(ボタン押し 5 → 10/20)[7]

    • 触覚で硬さ・力を判別(硬さ75%・力90%)[11]

  • 視覚が劣化しても操作できる

    • 遮蔽下のプラグ挿入(60% → 90%)[1]

    • 暗環境でもペグ挿入に成功(VLAでは失敗)[9]

アクション(モデルからの出力)

力(トルク)を出力に含めたり、制御の補足情報とすることで、力の強さを調整できるようになります。

  • 過大な力を抑制

    • 皮むき時の接触力を抑制(〜20N → 〜9N)、成功率向上(55% → 85%)[10]

  • 力の時間的変化パターンの理解

    • 将来トルクを補助タスクとして予測し、力応答の因果関係を獲得(予測値は制御には使わない)[7]

また、力加減を自然言語で指示できます。

  • 副詞に応じた力の出し分けを学習

    • 「softly」→ 0.5N、「hard」→ 2.57N。未学習の副詞にも汎化(「harder」→ 2.94N)[8]

関連文献の分類

関連文献は、力のセンシング・VLAモデルの力拡張方法・制御方式の観点で以下のように分別できます。

力センシング
  • 関節トルク(内部推定)
  • 触覚画像(外部・2D画像取得)
  • トルクセンサ(外部・値取得)
力の入力方法
  • VLM側(Enc有/無)
  • AE側(MoE:混合エキスパート)
  • AE側(MLP:多層パーセプトロン)
  • 直接結合
制御方法
  • 位置出力 → 位置制御
  • 位置+力出力 → 力補正付き
  • 位置+力出力 → ハイブリッド
研究 カメラ 力センシング ベース 力の入力方法 出力 制御
ForceVLA[1] RGB×2 内蔵推定値(6軸) π₀ AE側(MoE) 位置 位置制御
OmniVTLA[4] RGB×2 触覚画像+トルクセンサ π₀ VLM側(Enc有) 位置 位置制御
Tactile-VLA[8] RGB トルクセンサ π₀ VLM側(Enc有) 位置+目標力 力補正付き
TA-VLA[7] RGB×3 関節トルク π₀ AE側(MLP) 位置+将来トルク 位置制御
VTLA[9] RGB×1 触覚画像 Qwen2-VL VLM側(Enc有) 位置 位置制御
ForceMimic[10] 点群 トルクセンサ 拡散ポリシー 位置+6軸力 ハイブリッド
VLA-Touch[11] RGB×2 触覚画像 RDT-1B VLM側(Enc無*3 位置 位置制御
Bi-ACT/LAT[2][3] RGB×2 関節トルク ACT 直接結合 角度+角速度+トルク ハイブリッド

*3 VLA-Touchは触覚を言語化(VLA未改変)

力情報のセンシング

サーベイ対象の研究では、力情報の取得方法は大きく3種類に分かれます。

関節トルク

モーターからトルクを直接取得、または推定する方式です。
モーター電流や外乱オブザーバからトルクを推定します。TA-VLA[7]は電流の定数倍をトルクとし、Bi-ACT/LAT[2][3]は外乱オブザーバにより実トルクを推定しています。追加ハードウェアが不要で低コスト・導入が容易な反面、ノイズ・熱ドリフトの影響を受けやすく、接触位置の情報は得られません。

触覚画像

GelSight Miniの製品画像
GelSight Miniと触覚画像(出典:GelSight, Inc.

GelSight等の外部接触センサを用いて、接触面の変形を2D画像データとして取得する方式です。
OmniVTLA[4]はGelSight、VTLA[9]はGelStereo 2台、VLA-Touch[11]はGelSight Miniをそれぞれ使用しています。高空間解像度で接触状態を詳細に把握できる一方、時間解像度が低く(20〜30Hz)、コスト・摩耗・形状面の制約があります。

トルクセンサ

外部センサまたはロボット内蔵の推定機能から、力・トルクの数値を直接取得する方式です。
ForceVLA[1]はFlexivの内蔵推定値、ForceMimic[10]は外付6軸センサの実測値、Tactile-VLA[8]は法線力とせん断力、OmniVTLA[4]は力覚ベースの触覚センサであるPaxiniをそれぞれ用いています。高時間解像度(〜1 kHz)で6DoF(6自由度)の情報が得られますが、専用センサが必要でコストが高く、推定値の場合は精度に限界があります。

モデルのアーキテクチャ

サーベイ対象の多くはπ₀やACT等の既存モデルを拡張し、力情報の入出力を追加しています。

π₀(Physical Intelligence, 2024)[5]

π₀モデルのアーキテクチャ図
エンコーダ(SigLiP)

RGB画像をトークン列に変換する

VLM(PaliGemma 3B)

画像トークンと言語指示を統合し「何をすべきか」を理解する

Action Expert

300M パラメータのデコーダ。VLM出力を条件にFlow Matchingで 一定ステップのアクションチャンクを生成する


ACT(Action Chunking with Transformers)[6]

ACTモデルのアーキテクチャ図
エンコーダ(ResNet18)

RGB画像(ACT:4枚、Bi-ACT:2枚)を特徴マップに変換する

CVAE(学習時のみ)

人間のデモには「同じ状況でも異なる軌道を取る」ばらつきがあるため、それを潜在変数zで吸収する。推論時はz=0に固定

Transformer Decoder

画像特徴・関節状態・潜在変数zから、次のkステップ分の関節位置をまとめて予測する(アクションチャンク)。重複するチャンクは指数加重平均で結合し、動きをなめらかにする

力情報の入力方法

力情報をモデルのどこに入力するかは、大別すると「VLM側に入力する方法」と、「デコーダ(Action Expert)側に入力する方法」の2系統に分かれます。「デコーダ(Action Expert)側に入力する方法」は、どのように力情報とその他のモーダルを融合するかによって細分化されます。

入力方法のアーキテクチャ図
VLM側(図①)

力覚データ(触覚画像やセンサ値)をトークン化しVLMへ入力する方式です。OmniVTLA[4]/Tactile-VLA[8]/VTLA[9]が採用しています。力なしに比べ性能は上がりますが、「デコーダ(Action Expert)側に入力する方法」ほどの改善は得られていないとされています(ForceVLA[1]では45% → 55%)。

デコーダ側

VLMを通した後のデコーダ入力段階で力情報を統合する方式です。融合の仕方によってさらに分かれます。

MoE:混合エキスパートを用いる方式(図②-a)
  • VLM出力と力データを複数のMLPエキスパートで状況に応じて混合

  • ForceVLA[1]のFVLMoEがこの方式です

MLP:多層パーセプトロンを用いる方式(図②-b)
  • 力データをMLPで1トークンに集約し、関節状態入力の前に追加

  • TA-VLA[7]のDePostがこの方式です

直接結合する方式
  • 力データを変換せずにデコーダの入力に直接連結する方式

  • Bi-ACT/LAT[2][3]はトルクを関節角度・角速度と結合、TA-VLA[7]のDePreはトルクを関節角度のゼロパディング部分に埋め込み、ForceVLA[1]の連結方式はVLM出力に力を連結してAEに入力する


入力位置による性能差

「VLM側に入力する方法」でもベースラインより改善しますが、「デコーダ(Action Expert)側に入力する方法」の方が一貫して高い性能を示すとされています。

TA-VLA[7]

MLP:多層パーセプトロンを用いる方式」が最も高く、「直接結合する方式」、「VLM側に入力する方法」の順に性能が下がる

ForceVLA[1]

MoE:混合エキスパートを用いる方式」(80%)が最も高く、「直接結合する方式」(60%)、「VLM側に入力する方法」(55%)、ベースライン π₀(45%)の順

「デコーダ(Action Expert)側に入力する方法」が優位な理由として、両論文から以下の知見が得られています。

ForceVLA[1]ではVLMは大規模データで事前学習しているため、「VLM側に入力する方法」のように力トークンをVLMの入力に加えると、学習済みの特徴を壊してしまいやすいためです。実際、MoEをVLMの前に置くと成功率が0%となりました。

TA-VLA[7]ではトルクと関節角度はどちらも関節レベルの信号であり、統計的にも類似性が高いことが確認されています。またデコーダはエンコーダより入力の小さな変動に敏感であるため、力の微細な変化を拾うにはデコーダ側に統合する方が有効に働くとされています。

ForceVLA[1] – プラグ挿入タスク(精密なアライメント+力制御)
融合方式 成功率
ベースライン(π₀) 45%
VLM側に入力する方法 … 力を線形射影しVLM入力に追加 55%
直接結合する方式 60%
MoE:混合エキスパートを用いる方式 … 4エキスパートMLP+Top-1ルーティングで動的融合 80%
TA-VLA[7] – ボタン押し=接触検知+押下、充電器挿入=精密アライメント+力制御
融合方式 ボタン押し 充電器挿入
π₀(ベースライン) 45/20 0/20
VLM側に入力する方法 … Enc 7/20 8/20
直接結合する方式 … DePre 8/20 11/20
MLP:多層パーセプトロンを用いる方式 … DePost 10/20 12/20

制御方式

モデル出力をロボットの動作に変換する制御方式は、「位置のみを出力し位置制御で駆動する方式」と、「位置に加え力も出力し力制御・ハイブリッド制御を組み合わせる方式」の2つに大別されます。

位置出力 → 位置制御

力情報は入力のみで活用し、出力は目標姿勢のみとする方式です。ForceVLA[1]/OmniVTLA[4]/VTLA[9]/VLA-Touch[11]が採用しています。TA-VLA[7]では位置に加え将来トルクも同時に予測させることで力応答の因果関係を学習していますが、予測値は制御には使用しません。

位置+力出力

位置だけでなく力情報も出力し、直接制御や制御の補正に用いる方式です。力の使い方によってさらに分かれます。

力補正付き位置制御
  • Tactile-VLA[8]ではモデルが目標力も出力し、実測力との誤差が閾値を超えたときのみ位置を補正する

ハイブリッド制御
  • ForceMimic[10]では 位置と6軸力を同時に出力する。

  • 予測力が小さいとき(6N未満)は位置制御のみ、大きくなると軸ごとに位置と力を分けて制御する。1kHzのF/Tセンサにより高精度な力制御が可能で、皮むき時の接触力を ~20N → ~9N に抑制し成功率が向上(55% → 85%)

バイラテラル制御
  • Bi-ACT/LAT[2]では角度・角速度・トルクをaction chunkとして予測し、バイラテラル制御(リーダとフォロワーの位置一致+トルクの作用反作用)でモータ電流に変換する。

  • DOB/RFOBにより力センサ不要(制御1kHz、推論100Hz)。力ありモデルでは複雑形状の物体の成功率が大幅に向上している(接着剤ボトル 80% vs 50%、アイクリーム 100% vs 50%)。Bi-LATは言語エンコーダ(SigLIP)を追加し、自然言語指示で把持力の強弱を制御可能にした拡張

まとめ

VLAモデルに力情報を統合するVTLA研究を、力のセンシング方法・モデルのアーキテクチャ・制御方式の3つの観点で整理しました。

残された課題

データ収集

遠隔操作での力フィードバック欠如により触覚に依存しない動作になりがち[8][10]。インターネット動画に力データが存在しない点もスケーラビリティを制約する[10]

学習

力トークンの追加がVLMやデコーダの事前学習パターンを崩す場合がある[1][7]。入力位置・トークン数の設計が性能に直結する。

推論

力センサの高サンプリングレート(100Hz–1kHz)に対しモデル推論が低速(8–20Hz)で、高周波情報を活用しきれていない[8][11]。モータ電流ベースのトルク推定では熱ドリフトによる長時間精度低下も指摘されている[7]

評価

各研究が独自のタスク・ハードウェア・ベースラインで評価しており、横断的な比較が困難な状況にある。

VLA、VTLAや弊社製品にご興味がありましたら、まずはお気軽にご連絡ください。

参考文献

Contact

お問い合わせはこちら

詳細資料、無料相談、お見積もり、ご依頼などお気軽にお問い合わせください