new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Mar 20

Submitted by

dkliang

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

H-EmbodVis

Submitted by

syxbb

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

baidu

Submitted by

yxlu0

FASTER: Rethinking Real-Time Flow VLAs

hkuhk

The University of Hong Kong

Submitted by

lanikoworld

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

yonseiworld

Yonsei University

Submitted by

hzxie

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

mmlab-ntu

Submitted by

hzxie

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

mmlab-ntu

Submitted by

taesiri

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

nvidia

Submitted by

Epiphqny

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

hkuhk

The University of Hong Kong

Submitted by

KD-TAO

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

·
16 authors

Submitted by

Zhouhc

Memento-Skills: Let Agents Design Agents

UniversityCollegeLondon

University College London

Submitted by

Geralt-Targaryen

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

codefuse-ai

Submitted by

bing-li-ai

ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

·
8 authors

Submitted by

Jungang

AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents

·
28 authors

Submitted by

liyn20

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

·
13 authors

Submitted by

HenghuiDing

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

FudanCVL

Submitted by

d3tk

Tinted Frames: Question Framing Blinds Vision-Language Models

UBC-V

University of British Columbia

Submitted by

DogNeverSleep

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

·
12 authors

Submitted by

spapi

SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

FBK-MT

2

Submitted by

fdugyt

MOSS-TTS Technical Report

OpenMOSS-Team

Submitted by

taesiri

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

nvidia

Submitted by

whj363636

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

tencent

Submitted by

delyanboychev

OSM-based Domain Adaptation for Remote Sensing VLMs

INSAIT-Institute

Institute for Computer Science, Artificial intelligence and Technology

Submitted by

KevinQu7

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

microsoft

Submitted by

taesiri

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

·
21 authors

Submitted by

taesiri

Matryoshka Gaussian Splatting

·
13 authors

Submitted by

gagan3012

What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

·
4 authors

Submitted by

tangqh

Prompt-Free Universal Region Proposal Network

·
6 authors

Submitted by

MohammadJRanjbar

PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark

·
5 authors

2

Submitted by

lyf07

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

·
4 authors

Submitted by

isminoula

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

PLAN-Lab

Perception and LANguage Lab

Submitted by

nkthiroto

VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

·
8 authors

Submitted by

jwliao1209

COT-FM: Cluster-wise Optimal Transport Flow Matching

·
5 authors