Chiyue Wei

Building efficient AI inference systems
through hardware–software co-design

Chiyue Wei is a Ph.D. candidate in Electrical and Computer Engineering at Duke University, advised by Professor Yiran Chen. His research lies at the intersection of computer architecture and deep learning, focusing on efficient inference systems and hardware–software co-design for artificial intelligence. Prior to Duke, he earned his B.Eng. in Electronic Engineering from Tsinghua University in 2023, where he worked with Professor Yuan Xie and Professor Yu Wang.

News

Jun 2026

Excited to share our latest work on Diffusion LLM serving, Optimus: Elastic Decoding for Efficient Diffusion LLM Serving, delivering up to 6.1× throughput gain over autoregressive decoding. Check out the paper and code.

May 2026

Started my research internship in the AI-System Co-Design team at Meta, where I work on MTIA, Meta’s in-house AI accelerator.

Mar 2026

Our work EVA: Accelerating LLM Decoding via an Efficient Vector Quantization Architecture is accepted to ISCA 2026! Check out the paper and code.

Nov 2025

Two papers accepted to HPCA 2026! One features our work Focus: A Streaming Concentration Architecture for Efficient Vision-Language Models, now a 🏆 Best Paper Nominee! Check out the paper and code.

Aug 2025

Check out our work DPad, a training-free acceleration method for Diffusion LLMs, now available on arXiv!

Aug 2025

Wrapped up my internship at NVIDIA, where I worked on the FlashInfer project — developing high-performance, customizable attention kernels with CuTe DSL, optimized for Blackwell GPUs.

Jun 2025

Honored to be named a DAC 2025 Young Fellow.

Jun 2025

Our works Phi, Transitive Array, and Ecco were presented at ISCA 2025 — check out the slides for Phi.

May 2025

Started my summer internship at NVIDIA, focusing on LLM inference framework optimization within the Deep Learning Frameworks team.

Mar 2025

Three papers accepted by ISCA 2025! Topics include acceleration for Spiking Neural Networks, General Matrix Multiplications, and Large Language Models.

Mar 2025

Presented Prosperity at HPCA 2025 in Las Vegas! Check out the slides and video.

Nov 2024

Our paper Prosperity: Accelerating Spiking Neural Networks via Product Sparsity is accepted by HPCA 2025.

Selected Publications

A selection of my work on efficient architectures and systems for artificial intelligence.

HPCA 2026 🏆 Best Paper Nominee

Focus: A Streaming Concentration Architecture for Efficient Vision-Language Models

Chiyue Wei, Cong Guo, Junyao Zhang, Haoxuan Shan, Yifan Xu, Ziyue Zhang, Yudong Liu, Qinsi Wang, Changchun Zhou, Hai “Helen” Li, Yiran Chen

Paper Code Slides

Preprint 2026

Optimus: Elastic Decoding for Efficient Diffusion LLM Serving

Chiyue Wei, Cong Guo, Bowen Duan, Junyao Zhang, Haoxuan Shan, Yifei Wang, Yangjie Zhou, Hai “Helen” Li, Danyang Zhuo, Yiran Chen

Paper Code

ISCA 2026

EVA: Accelerating LLM Decoding via an Efficient Vector Quantization Architecture

Bowen Duan, Cong Guo, Chiyue Wei, Haoxuan Shan, Yuzhe Fu, Xinhua Chen, Yifan Xu, Ziyue Zhang, Changchun Zhou, Hai Li, Yiran Chen

Paper Code

ISCA 2025

Phi: Leveraging Pattern-based Hierarchical Sparsity for High-Efficiency Spiking Neural Networks

Chiyue Wei, Bowen Duan, Cong Guo, Jingyang Zhang, Qingyue Song, Hai Li, Yiran Chen

Paper Slides

ISCA 2025

Transitive Array: An Efficient GEMM Accelerator with Result Reuse

Cong Guo, Chiyue Wei, Jiaming Tang, Bowen Duan, Song Han, Hai Li, Yiran Chen

Paper

ISCA 2025

Ecco: Improving Memory Bandwidth and Capacity for LLMs via Entropy-Aware Cache Compression

Feng Cheng, Cong Guo, Chiyue Wei, Junyao Zhang, Changchun Zhou, Edward Hanson, Jiaqi Zhang, Xiaoxiao Liu, Hai Li, Yiran Chen

Paper

HPCA 2025

Prosperity: Accelerating Spiking Neural Networks via Product Sparsity

Chiyue Wei, Cong Guo, Feng Cheng, Shiyu Li, Hao Yang, Hai Li, Yiran Chen

Paper Code Slides

DATE 2023

CLAP: Locality Aware and Parallel Triangle Counting with Content Addressable Memory

Tianyu Fu*, Chiyue Wei*, Zhenhua Zhu, Shang Yang, Zhongming Yu, Guohao Dai, Huazhong Yang, Yu Wang

Paper Code

ISCA 2022

DIMMining: Pruning-Efficient and Parallel Graph Mining on Near-Memory-Computing

Guohao Dai, Zhenhua Zhu, Tianyu Fu, Chiyue Wei, Bangyan Wang, Xiangyu Li, Yuan Xie, Huazhong Yang, Yu Wang

Paper

Experience

May 2026 – Present

Research Scientist Intern, AI-System Co-Design

Meta · Menlo Park, CA

Architectural design for the next-gen Meta Training and Inference Accelerator (MTIA) targeting LLM inference on a wafer-scale system. Mentors: Aravind Sukumaran-Rajam, Yitu Wang; Manager: Harsha Jagannati.

May 2025 – Aug 2025

Deep Learning Intern

NVIDIA · Santa Clara, CA

Built high-performance, customizable attention kernels for Blackwell GPUs using CUTLASS / CuTe DSL, improving inference efficiency in open-source serving stacks (vLLM, FlashInfer). Mentors: Zihao Ye, Pavani Majety; Managers: Cliff Woolley, Kushan Ahmadian.

Aug 2023 – Present

Graduate Research Assistant

Duke University · Durham, NC

Efficient inference architectures and systems for artificial intelligence. Advisor: Prof. Yiran Chen.

Jun 2022 – Jan 2023

Research Assistant

UC Santa Barbara · Santa Barbara, CA

Systolic-array-friendly design for sparse LU factorization. Advisor: Prof. Yuan Xie.

Sep 2021 – Jun 2023

Research Assistant

Tsinghua University · Beijing, China

Near-memory-computing architectures for graph mining and GNN-based subgraph counting. Advisor: Prof. Yu Wang.

Service & Recognition

Education

Ph.D. in Electrical and Computer EngineeringDuke University · Aug 2023 – May 2028 (expected)
B.Eng. in Electronic EngineeringTsinghua University · Aug 2019 – Jun 2023

Honors & Awards

HPCA 2026 Best Paper Nominee2026

DAC 2025 Young Fellow2025

HPCA 2025 Travel Grant2025

Academic Service

Journal Reviewer, IEEE Transactions on Circuits and Systems for Artificial Intelligence (TCASAI)
Journal Reviewer, ACM Journal on Emerging Technologies in Computing Systems (JETC)
Artifact Evaluation Committee, ASPLOS 2025
Artifact Evaluation Committee, HPCA 2025
Artifact Evaluation Committee, OSDI 2025
Artifact Evaluation Committee, USENIX ATC 2025

Teaching

Teaching Assistant, Duke ECE 661 — Computer Engineering Machine Learning and Deep Neural Nets, Fall 2024