📜 Biography

I am a research in Shanghai AI Lab, collaborating closely with Dr. Kaipeng Zhang and Dr. Wenqi Shao. I recevied my Ph.D. degree in 2025 from Beijing Institute of Technology (BIT), won Excellent PhD studental Dissertation Award of BIT, advised by Prof. Yuwei Wu and Prof. Yunde Jia; Master degree in 2020 from Northeastern University supervised by Prof. Shukuan Lin; and Bachlor degree in 2017 from Harbin University of Science and Technology.

My research area lies at:

vision-and-language
image/video generation
internet-augmented generation
compositional generalization

🎓 Education

2020.09 - 2025.03, Ph.D. in CS, Beijing Institute of Technology, Beijing, China
2017.09 - 2020.01, Master in CS, Northeastern University, Shenyang, Liaoning, China
2013.09 - 2017.06, Bachelor in CS, Harbin University of Science and Technology, Harbin, Heilongjiang, China

⚡ Preprint

* indicates equal contribution

+ indicates corresponding author

arXiv 2025

From Pixels to Paths: A Multi-Agent Framework for Editable Scientific Illustration

Jianwen Sun*, Fanrui Zhang*, Yukang Feng*, Chuanhao Li, Zizhen Li, Jiaxin Ai, Yifan Chang, Yu Dai, and Kaipeng Zhang+.
[arXiv 2025] [paper]

arXiv 2025

Dialogue as Discovery: Navigating Human Intent Through Principled Inquiry

Jianwen Sun*, Yukang Feng*, Yifan Chang*, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yu Dai, and Kaipeng Zhang+.
[arXiv 2025] [paper]

arXiv 2025

Multi-Step Reasoning for Embodied Question Answering via Tool Augmentation

Mingliang Zhai*, Hansheng Liang*, Xiaomeng Fan*, Zhi Gao, Chuanhao Li, Che Sun, Xu Bin, Yuwei Wu, and Yunde Jia.
[arXiv 2025] [paper]

arXiv 2025

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

Shilong Li*, Xingyuan Bu*+, …, Chuanhao Li, …, Ruizhe Ding, and Shilei Wen+.
[arXiv 2025] [paper] [code] [dataset]

arXiv 2025

YUME: An Interactive World Generation Model

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi+, Yu Qiao, and Kaipeng Zhang+.
[arXiv 2025] [paper] [homepage] [code]

arXiv 2025

IA-T2I: Internet-Augmented Text-to-Image Generation

Chuanhao Li*, Jianwen Sun*, Yukang Feng*, Mingliang Zhai, Yifan Chang, and Kaipeng Zhang+.
[arXiv 2025] [paper]

arXiv 2025

A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

Yukang Feng*, Jianwen Sun*, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, and Kaipeng Zhang+.
[arXiv 2025] [paper]

arXiv 2025

ARMOR: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Jianwen Sun*, Yukang Feng*, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Pengfei Zhou, Yu Dai, Shenglin Zhang, and Kaipeng Zhang+.
[arXiv 2025] [paper] [code]

arXiv 2025

SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

Yifan Chang*, Yukang Feng*, Jianwen Sun*, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, and Kaipeng Zhang+.
[arXiv 2025] [paper]

📝 Selected Publications

AAAI 2026

Composition-Incremental Learning for Compositional Generalization

Zhen Li, Yuwei Wu, Chenchen Jing, Che Sun+, Chuanhao Li+, and Yunde Jia.
[AAAI 2026] [paper]

AAAI 2026

MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

Pengfei Zhou*, Fanrui Zhang*, Xiaopeng Peng*, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You+, and Kaipeng Zhang+.
[AAAI 2026] [paper] [code]

NeurIPS 2025

Sekai: A Video Dataset towards World Exploration

Zhen Li*, Chuanhao Li*+, …, Yuwei Wu+, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, and Kaipeng Zhang+.
[NeurIPS 2025] [paper] [homepage] [dataset] [code]

EMNLP 2025

InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, and Kaipeng Zhang+.
[EMNLP 2025] [Main Conference] [paper]

IJCAI 2025

Multi-Sourced Compositional Generalization in Visual Question Answering

Chuanhao Li*, Wenbo Ye*, Zhen Li, Yuwei Wu+, and Yunde Jia.
[IJCAI 2025] [paper] [code]

CVPR 2025

GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Pengfei Zhou*, Xiaopeng Peng*, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, and Kaipeng Zhang+.
[CVPR 2025] [Oral] (Top 3.3%) [paper] [code]

ICLR 2025

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

Fanqing Meng*, Jin Wang*, Chuanhao Li*, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang+, and Wenqi Shao+.
[ICLR 2025] [paper] [code]

AAAI 2025

Consistency of Compositional Generalization across Multiple Levels

Chuanhao Li*, Zhen Li*, Chenchen Jing+, Xiaomeng Fan, Wenbo Ye, Yuwei Wu+, and Yunde Jia.
[AAAI 2025] [paper] [code]

NeurIPS 2024

SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge

Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao, Yuwei Wu+, Ping Luo, Yu Qiao, and Kaipeng Zhang+.
[NeurIPS 2024] [paper] [code]

NeurIPS 2024

ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models

Shuo Liu, Kaining Ying, Hao Zhang, Yue Yang, Yuqi Lin, Tianle Zhang, Chuanhao Li, Yu Qiao, Ping Luo, Wenqi Shao+, and Kaipeng Zhang+.
[NeurIPS 2024] [Spotlight] [paper] [code]

ECCV 2024

Compositional Substitutivity of Visual Reasoning for Visual Question Answering

Chuanhao Li*, Zhen Li*, Chenchen Jing+, Yuwei Wu+, Mingliang Zhai, and Yunde Jia.
[ECCV 2024] [paper] [code]

EMNLP 2024

In-Context Compositional Generalization for Large Vision-Language Models

Chuanhao Li, Chenchen Jing, Zhen Li, Mingliang Zhai, Yuwei Wu+, and Yunde Jia.
[EMNLP 2024] [Main Conference] [paper]

TOMM 2024

Adversarial Sample Synthesis for Visual Question Answering

Chuanhao Li, Chenchen Jing, Zhen Li, Yuwei Wu+, and Yunde Jia.
[TOMM 2024] [paper]

CVPR 2023

Exploring the Effect of Primitives for Compositional Generalization in Vision-and-Language

Chuanhao Li, Zhen Li, Chenchen Jing+, Yunde Jia, and Yuwei Wu+.
[CVPR 2023] [paper] [code]

AAAI 2022

Learning the Dynamics of Visual Relational Reasoning via Reinforced Path Routing

Chenchen Jing, Yunde Jia, Yuwei Wu, Chuanhao Li, and Qi Wu.
[AAAI 2022] [paper]

🏅 Selected Awards

2023.01, the second prize in the multi-modal technology innovation competition of the first “Xingzhi Cup” National Artificial Intelligence Innovation Application Competition
2016.05, the first prize in the CCPC Heilongjiang Collegiate Programming Contest
2015.05, the first prize in the CCPC Heilongjiang Collegiate Programming Contest
2014.07, the silver medal in the ACM-ICPC Collegiate Programming Contest Shanghai Invitational

🏛️ Academic Activities

Conference Reviewer of MM2025, ICCV 2025, ICML 2025, IJCAI 2025, CVPR 2024, NeurIPS 2024, MM 2024, etc.
Journal Reviewer of T-MM.
Invited Speaker in The 3rd SMBU-BIT Machine Intelligence Graduate Student Forum.

💻 Work Experience

2025.04 - Present, Researcher, Shanghai AI Lab, Shanghai, China
2024.01 - 2025.04, Intern, Shanghai AI Lab, Shanghai, China
2019.07 - 2019.10, Intern, UISEE, Beijing, China

Chuanhao Li （李川皓）

📜 Biography

🎓 Education

⚡ Preprint

📝 Selected Publications

🏅 Selected Awards

🏛️ Academic Activities

💻 Work Experience

Chuanhao Li

（李川皓）