Preprints

A Survey of Data Attribution: Methods, Applications, and Evaluation in the Era of Generative AI

Junwei Deng*, Yuzheng Hu*, Pingbang Hu*, Ting-Wei Li*, Shixuan Liu*, Jiachen T. Wang, Dan Ley, Qirun Dai, Benhao Huang, Jin Huang, Cathy Jiao, Hoang Anh Just, Yijun Pan, Jingyan Shen, Yiwen Tu, Weiyi Wang, Xinhe Wang, Shichang Zhang, Shiyuan Zhang, Ruoxi Jia, Himabindu Lakkaraju, Hao Peng, Weijing Tang, Chenyan Xiong, Jieyu Zhao, Hanghang Tong, Han Zhao, Jiaqi Ma

Demonstration Distillation for Efficient In-Context Learning

Tong Chen, Qirun Dai, Zhijie Deng, Dequan Wang

Publications

Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code

Aniket Vashishtha*, Qirun Dai*, Hongyuan Mei, Amit Sharma†, Chenhao Tan†, Hao Peng†

NeurIPS 2025 Workshop on Foundations of Reasoning in Language Models

The Best Instruction-Tuning Data are Those That Fit

Dylan Zhang, Qirun Dai, Hao Peng

NeurIPS 2025 (Spotlight)

Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities

Qirun Dai, Dylan Zhang, Jiaqi W Ma, Hao Peng

Findings of EMNLP 2025; ICLR 2025 Workshop on DATA-FM