📝 Selected Publications

(^* indicates equal contribution, full publication list)

Agent Foundation Model

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence (arXiv 2026)
Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
[website] [paper]
Seed 2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity (Seed Technical Report, 2026)
ByteDance Seed Team (Junjie Huang as a core contributor of general agent ability)
[model card]

iKnow: an Intent-Guided Chatbot for Cloud Operations with Retrieval-Augmented Generation (ASE 2025) 🏆 ACM SIGSOFT Distinguished Paper Award
Junjie Huang, Yuedong Zhong, Guangba Yu, Zhihan Jiang, Minzhi Yan, Wenfei Luan, Tianyu Yang, Rui Ren, Michael R. Lyu
[code] [paper]
CodeAD: Synthesize Code of Rules for Log-based Anomaly Detection with LLMs (Under Review)
Junjie Huang, Junjie Huang, Minghua He, Jinyang Liu, Yintong Huo, Domenico Bianculli, Michael R. Lyu
[paper]
No More Labelled Examples? An Unsupervised Log Parser with LLMs (FSE 2025)
Junjie Huang, Zhihan Jiang, Zhuangbin Chen, Michael R. Lyu
[code] [paper]
Demystifying and Extracting Fault-indicating Information from Logs for Failure Diagnosis (ISSRE 2024)
Junjie Huang, Zhihan Jiang, Jinyang Liu, Yintong Huo, Jiazhen Gu, Zhuangbin Chen, Cong Feng, Hui Dong, Zengyin Yang, Michael R. Lyu
[code] [paper]
FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems (ICSE-SEIP 2024)
Junjie Huang, Jinyang Liu, Zhuangbin Chen, Zhihan Jiang, Yichen Li, Jiazhen Gu, Cong Feng, Zengyin Yang, Yongqiang Yang, Michael R. Lyu
[paper]

PreServe: Intelligent Management for LMaaS Systems via Hierarchical Prediction (ICSE 2026) 🏆 ACM SIGSOFT Distinguished Paper Award
Zhihan Jiang, Yujie Huang, Guangba Yu, Junjie Huang, Jiazhen Gu, Michael R. Lyu
[code] [paper]
L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis (FSE 2025)
Zhihan Jiang, Junjie Huang, Guangba Yu, Zhuangbin Chen, Yichen Li, Renyi Zhong, Cong Feng, Yongqiang Yang, Zengyin Yang, Michael R. Lyu
[paper]

Contextualized Data-Wrangling Code Generation in Computational Notebooks (ASE 2024)
Junjie Huang, Daya Guo, Chenglong Wang, Jiazhen Gu, Shuai Lu, Jeevana Priya Inala, Cong Yan, Jianfeng Gao, Nan Duan, Michael R. Lyu
[code] [paper]
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation (NeurIPS 2021)
Shuai Lu^*, Daya Guo^*, Shuo Ren^*, Junjie Huang^*, Alexey Svyatkovskiy, Ambrosio Blanco, Colin Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu
[code] [paper]
CoSQA: 20,000+ Web Queries for Code Search and Question Answering (ACL 2021)
Junjie Huang, Duyu Tang, Linjun Shou, Ming Gong, Ke Xu, Daxin Jiang, Ming Zhou, Nan Duan
[data] [code] [paper]
Execution-based Evaluation for Data Science Code Generation Models (EMNLP 2022 DaSH)
Junjie Huang, Chenglong Wang, Jipeng Zhang, Cong Yan, Haotian Cui, Jeevana Priya Inala, Colin Clement, Nan Duan, Jianfeng Gao
[code] [paper]