Publications

2026

DFlash: Block Diffusion for Flash Speculative Decoding

Jian Chen, Zhijian Liu

Paper Coming Soon

2025

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

Samir Khaki*, Xiuyu Li*, Junxian Guo*, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu

ICML 2025

Paper Code

NVILA: Efficient Frontier Visual Language Models

Zhijian Liu*, Ligeng Zhu*, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin†, Song Han†, Yao Lu†

CVPR 2025

Paper Code

LServe: Efficient Long-Sequence LLM Serving with Unified Sparse Attention

Shang Yang*, Junxian Guo*, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han

MLSys 2025

Paper Code

2024

LongLoRA: Efficient Fine-Tuning of Long-Context Large Language Models

Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia

ICLR 2024 (Oral)

Paper Code