TacO: Tactile Sensors for Object Manipulation
링크: arXiv
- 6개 tactile sensor를 같은 로봇 조작 파이프라인에서 비교하는 real-world benchmark
- 연구 동기: Tactile sensor는 종류가 많지만, 어떤 센서가 어떤 manipulation task에서 실제로 유리한지 비교하기 어려움
- 비교 센서
- FSR: 저렴한 단일 force sensor , 누르는 힘에 따라 저항이 변하는 단일 normal force 값
- FlexiTac: 저항식 taxel array, 12×32 taxel 형태의 분포된 normal force
- eGain: 액체금속 기반 resistive sensor, elastomer microchannel 안의 EGaIn 저항 변화
- Contact Mic: 접촉 진동/소리를 보는 microphone(piezo contact microphone), 접촉, 미끄러짐, 충격에서 나오는 고주파 진동/소리
- Daimon: 카메라 기반 visual tactile sensor(soft membrane deformation을 내부 카메라로 촬영해 force/deformation/shear 추정) Digit360
- eFlesh: magnetic tactile sensor(magnet displacement를 Hall sensor로 읽어 normal/shear force 추정)
- 방법:
- RGB camera, proprioception, tactile observation을 ACT 기반 policy에 넣고, vision-only policy와 visuotactile policy를 같은 data에서 비교한다.
- FSR: scalar -> linear projection
- FlexiTac: taxel array -> MLP
- eGain: resistive values -> MLP
- eFlesh: magnetic/force array -> MLP
- Daimon: tactile image -> ResNet18
- Contact Mic: waveform -> mel-spectrogram -> MLP
- Loss는 $\mathcal{L}=\sum_{\tau=0}^{H-1}\lVert\hat{a}{t+\tau}-a{t+\tau}\rVert_1+\lambda_{KL}D_{KL}(q(z|a)\Vert p(z))$다. $\hat{a}$는 예측 action chunk, $a$는 demo action, $H=64$, $z$는 CVAE latent, $p(z)=\mathcal{N}(0,I)$다.
- 기타
vision-only는 tactile reading을 안 쓰지만, 센서 하드웨어는 여전히 gripper fingertip에 붙어 있습니다. 그래서 센서마다 다음이 달라짐!
- 손가락 표면 마찰, compliance , 두께 / 형상 , 물체와 닿는 면적, gripper의 실제 접촉 방식
-> Sensor Material and Form Factor 로 따로 분석
- FSR / FlexiTac: 낮은 마찰, 미끄러운 표면
- eFlesh / Daimon / Contact Mic: 더 compliant하고 high-friction한 표면
- pick-and-place / insertion은 high-friction fingertip 자체가 유리함.
- reorientation은 controlled slipping이 필요해서 low-friction이 오히려 유리함.
- 따라서 센서 간 절대 성공률 차이는 tactile modality만의 효과가 아니라 embodiment/material 효과도 섞여 있음.
VITRA: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos
링크: arXiv, Project, GitHub, HF model
- 연구 목표: unscripted real-life ego-centric human videos를 로봇 VLA 사전학습 데이터로 바꿔, Dexterous manipulation 성능 높임
- 연구 동기: 로봇 VLA 데이터는 수집 비용이 크고 실험실 환경에 묶여 있어 범위가 좁다. 반면 사람 활동 영상은 물체, 기술, 환경 다양성이 크다. 문제는 영상이 행동 단위로 잘려 있지 않고, 설명도 없고, 로봇 행동 라벨도 없다는 점
- 방법:
- 3D motion labeling
- 배경 optical flow로 카메라가 고정인지 이동인지 판별하고, 카메라 내부 파라미터와 왜곡을 보정한 뒤 각 프레임에서 양손의 3D 손 자세와 카메라 자세를 복원한다. 이렇게 얻은 camera-frame 손 궤적을 world-frame 손 궤적으로 바꿔 이후 atomic action과 instruction 생성에 쓴다.
- Camera intrinsics:
- 이동 카메라: DroidCalib으로 intrinsics 추정
- 고정 카메라: DeepCalib으로 intrinsics/distortion을 먼저 추정하고, distortion이 작으면 MoGe-2로 pinhole focal length를 보정
- distortion이 큰 영상은 undistortion 후 pinhole camera model에 맞춤
- reconstruction per frame camera-space 3D hands : HaWoR
- moving camera trajectory:
- MegaSAM으로 metric-scale camera pose를 추정 (MegaSAM 내부에서 쓰는 depth prior를 DepthAnything/UniDepth 대신 MoGe-2 출력)
- atomic action segmentation
- world-frame 손목 속도에서 local minima를 찾아 컷 지점으로 사용한다. 사람이 한 행동에서 다음 행동으로 넘어갈 때 손 속도가 잠깐 느려진다는 점을 사용함. 왼손과 오른손을 독립적으로 나누기 때문에 한 손 기준의 짧은 원자 행동 clip을 만들 수 있음
- instruction labeling
- 각 행동 clip에서 8개 프레임을 고르게 뽑고, 현재 프레임부터 clip 끝까지의 손바닥 궤적을 이미지 위에 겹쳐 표시한다. GPT-4.1은 이 이미지 묶음과 궤적을 보고 “Right hand: pick up ...” 같은 명령문 형태의 언어 라벨을 붙인다. 의미 있는 행동이 아니면 N/A로 표시
- episode는 언어 지시문, 영상 프레임, 프레임별 3D action chunk로 구성
- 정책은 $\pi:(l,o_t,s_t)\rightarrow(a_t,a_{t+1},...,a_{t+N})$ 형태로 언어 지시문 $l$, 시각 관측 $o_t$, 상태 $s_t$를 받아 앞으로 실행할 행동 청크단위로 예측, 사람 손 행동은 $a_t=[\Delta t^l,\Delta r^l,\theta_h^l,\Delta t^r,\Delta r^r,\theta_h^r]\in\mathbb{R}^{102}$로 표현되며, $\Delta t$는 손목 위치 변화, $\Delta r$은 손목 회전 변화, $\theta_h$는 MANO 손 관절 각도, $l/r$은 왼손과 오른손임
- 손 행동 예측 평가는 두 가지로 나뉨
- Grasping: 예측된 손가락 궤적이 목표 물체의 RGB-D point cloud에 얼마나 가까이 가는지 측정함. 낮을수록 목표 물체를 향해 그럴듯하게 접근했다는 의미임.
- VITRA는 평균/중앙값 손-물체 거리 8.8/6.2cm를 기록했고, Being-H0는 19.1/18.4cm를 기록함. 따라서 VITRA가 목표 물체 근처까지 더 잘 접근함.
- 이 수치는 정답 손 궤적과의 오차나 grasp 성공률이 아님. 예측 손가락 궤적이 목표 물체 point cloud에 얼마나 가까이 갔는지를 보는 plausibility 지표임.
- 목표 물체 point cloud는 사람이 목표 위치를 지정하고, SAM-2 mask, depth, camera intrinsics로 구성함. 따라서 물체 크기, visible surface, mask/depth 품질의 영향을 받을 수 있음.
- General action은 손-물체 거리 하나로 평가하기 어려워 user study로 평가함.
- 참가자 23명이 unseen scene에서 여러 모델의 예측 손 동작 영상을 익명으로 보고 top-3를 고름.
- 1/2/3등에 각각 3/2/1점을 부여하고, 나머지는 0점으로 처리함.
- VITRA는 평균 1.91점으로 human annotation baseline 0.96, Being-H0 0.15보다 높음.
- 이 점수는 로봇 실행 성공률이 아니라, 예측 손 동작이 장면과 instruction에 얼마나 자연스럽고 task-aligned하게 보였는지에 대한 상대적 선호도임.

TacO: Tactile Sensors for Object Manipulation
링크: arXiv
데이터 수집
실험
결과
결과의 의미와 기여점: TacO는 tactile sensor를 hardware spec이 아니라 policy success 기준으로 비교한다. Vision-only가 놓치는 mass, occluded insertion, continuous force regulation을 tactile signal이 보완함
vision-only는 tactile reading을 안 쓰지만, 센서 하드웨어는 여전히 gripper fingertip에 붙어 있습니다. 그래서 센서마다 다음이 달라짐!
-> Sensor Material and Form Factor 로 따로 분석
VITRA: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos
링크: arXiv, Project, GitHub, HF model