Computer Science Researcher & Systems Architect

探索计算机科学的边界

专注于分布式系统理论、高性能计算架构与大规模数据处理技术的研究。致力于将前沿学术成果转化为可落地的工程实践，在系统设计、算法优化与云原生基础设施等方向持续探索。研究兴趣横跨从底层存储引擎到上层分布式共识协议的整个系统栈，强调理论与实践的双向驱动——在SOSP、OSDI、NSDI等顶级系统会议的学术脉络中寻找研究方向，在真实大规模生产环境中验证和迭代系统设计。当前聚焦于AI基础设施与系统协同设计这一新兴交叉领域，探索大模型推理调度、分布式训练通信优化与显存管理等前沿问题。研究视角涵盖从单个CPU指令的微架构影响到跨数据中心的地理分布式系统设计，将形式化验证、性能剖析与工程实现有机结合，形成了独特的多层次系统研究方法论。十余年来，我在操作系统内核、分布式共识协议、编译优化与大规模数据处理等方向上积累了深厚的技术积累，并在多个开源社区中持续贡献代码与技术洞察。

~/research> whoami

Systems Researcher · Distributed Computing · Cloud Native

~/research> cat research_interests.txt

Distributed Systems · HPC · Data Engineering · AI Infrastructure · Compiler Optimization

~/research> echo $MOTTO

Advancing computing through rigorous research

"The computing scientist's main challenge is not to get confused by the complexities of his own making." — E. W. Dijkstra
"Program testing can be used to show the presence of bugs, but never to show their absence." — E. W. Dijkstra
"Simplicity is a great virtue but it requires hard work to achieve it and education to appreciate it. And to make matters worse: complexity sells better." — E. W. Dijkstra

研究背景

学术与技术探索之路

</>

Advancing computing through rigorous research.

计算机系统研究者 · 架构师

计算机系统研究是一门独特的学科——它既不像纯理论计算机科学那样可以完全脱离物理世界进行推理，也不像应用开发那样只关注功能实现。系统研究者必须在数学的严谨性、硬件的物理约束和软件的工程复杂度之间寻找平衡点，在抽象与现实之间架设桥梁。正是这种「理论与实践的交汇」使得系统研究成为计算机科学中最具挑战性也最有成就感的领域之一。从Dijkstra的THE操作系统分层设计到Dean与Ghemawat的MapReduce，从Lamport的Paxos到Ongaro的Raft，系统领域的每一次重大突破都是理论洞察与工程勇气结合的产物。我的学术旅程正是沿着这一传统的脉络展开的。

自本科阶段接触操作系统与编译原理以来，我便对计算机系统的底层运作机制产生了浓厚兴趣。研究生期间专注于分布式系统一致性协议与容错机制的研究，在Paxos/Raft等共识算法的工程化实现方面积累了丰富经验。十余年来，我始终站在系统软件与基础设施研究的前沿，关注如何构建更高效、更可靠的分布式计算平台。从最初对Linux内核调度器的好奇探索，到后来主导万级节点集群的资源调度系统设计，我的研究轨迹始终围绕着一个核心问题：如何让复杂的分布式系统在不可靠的硬件和网络之上提供可靠的抽象？这一问题驱动我深入研究了操作系统、分布式系统、编译器和数据库等多个计算机系统子领域，在跨领域的知识交叉中寻找系统设计的普适性原则。

我的研究方法论强调理论与实践的双向驱动：一方面深入研读顶尖学术会议（SOSP/OSDI/NSDI/EuroSys）的最新论文，追踪系统研究的学术脉络——从Lamport的Time, Clocks论文到当今的Serverless冷启动优化研究，系统领域的演进路径折射出硬件发展、应用需求与理论突破之间的深刻互动；另一方面将理论发现付诸工程验证，在真实的大规模生产环境中检验和迭代系统设计。目前主要研究方向涵盖：分布式共识协议的工程优化、云原生基础设施的自动伸缩与容错机制、大规模数据管道的流批一体架构，以及面向AI训练与推理的高性能计算调度系统。此外，我也关注持久内存（PMem）、RDMA和CXL等新兴硬件对系统软件设计的深远影响——当硬件接口发生根本性变化时，许多沿用数十年的软件设计假设需要被重新审视和重构。在研究选题上，我倾向于选择那些具有「长期价值」而非「短期热度」的问题——这些问题通常位于理论与工程的交汇处，需要深厚的背景知识积累，但一旦突破便能对整个领域产生持久的影响。

除了系统研究本身，我也长期关注编程语言理论与类型系统对软件可靠性的影响，探索Rust/Go等现代语言在系统软件开发中的最佳实践。曾在多个技术社区和学术研讨会上分享研究成果，累计发表技术论文与深度分析文章二十余篇，研究笔记与实验代码均在GitHub开源。在编程语言方向上，我特别关注线性类型（Linear Types）与仿射类型（Affine Types）在系统软件开发中的应用——从分离逻辑的视角审视Rust的借用检查器，探索所有权模型在并发场景下的表达能力边界。在编译器方向，LLVM/MLIR的中间表示优化与领域特定编译器（DSL Compiler）的设计方法论是我的主要兴趣点，尤其是将编译优化技术应用于数据库查询引擎与AI推理框架的性能提升。我深刻认同「编程语言塑造思维」这一观点——选择何种语言不仅是技术决策，更是对特定编程范式的采纳。Rust的所有权模型不仅消除了内存安全漏洞，更强制开发者清晰地思考资源生命周期和数据流关系；Go的CSP并发模型则将并发程序的结构从「共享内存通信」转变为「通过通信共享内存」，从根本上避免了数据竞争。对这些语言设计哲学的深入理解，使我能够在系统开发中做出更为审慎的技术选型。

在研究范式上，我深受Leslie Lamport关于「写作即思考」理念的影响——形式化规约不仅是验证工具，更是澄清系统设计思路的认知框架。因此，我的研究工作通常以TLA+规约或数学建模作为起点，在理论层面确立系统的不变式与活性属性后，再进入工程实现阶段。这种「规约驱动」的方法论帮助我在多个复杂系统项目中避免了代价高昂的早期设计缺陷，尤其在分布式一致性协议与并发控制算法的设计中发挥了关键作用。

在技术社区方面，我长期活跃于Apache Flink、etcd、RocksDB等开源项目的社区讨论与代码贡献中。将研究工作中发现的协议缺陷与性能优化方案通过Pull Request、技术报告等形式回馈给社区，是我践行「研究服务于实践」理念的重要方式。同时，我也定期撰写技术综述与深度分析文章，梳理分布式系统、存储引擎与编译优化等领域的最新学术进展，帮助工业界工程师与学术界研究者建立高效的沟通桥梁。技术写作对我而言不仅是知识传播的手段，更是深化自身理解的思维工具——将复杂的技术概念转化为清晰、准确的文字表述，本身就是一次对知识结构的系统性梳理。在写作过程中，我特别注重从第一性原理出发构建论述框架，避免堆砌术语和缩写，力求让每一篇文章都能为不同背景的读者提供真正的认知增量。此外，我也定期在技术社区和学术研讨会上进行分享，将最新的研究成果与行业实践进行双向传递，促进学术与工业界的良性互动。

展望未来，我正将研究重心逐步拓展到AI基础设施与系统协同设计（System-ML Co-Design）这一新兴交叉领域。随着大语言模型与生成式AI的快速发展，传统系统软件在推理效率、显存管理与分布式训练通信等维度面临全新挑战。我期望将十余年在分布式系统与高性能计算领域积累的理论工具与工程经验，应用于构建更高效、更可持续的AI基础设施，推动系统研究与机器学习的深度融合。具体而言，我关注以下几个子方向：大模型推理服务的显存管理与KV-Cache优化调度、分布式训练中的通信-计算重叠与梯度压缩、面向AI负载的异构资源调度（GPU/NPU/TPU混合集群），以及模型推理的能耗优化与碳足迹评估。这些方向不仅具有重要的学术研究价值，也直接关系到AI技术的可持续发展和产业落地。

回顾十余年的研究历程，我深刻体会到系统研究需要长期主义的视角——真正有影响力的系统工作往往需要数年甚至十数年的持续投入。无论是分布式共识协议的逐步成熟，还是LSM-Tree存储引擎的持续优化，抑或是容器编排系统的生态演进，都印证了「慢即是快」这一系统研究的基本规律。在追求快速发表和短期指标日益普遍的学术环境中，我选择坚守对底层原理的深入研究，相信只有建立在扎实理论基础上的工程实践才能经得起时间的检验。未来，我将继续秉持这一信念，在计算机系统研究的道路上一以贯之地探索下去。我也期待通过这个平台，与更多对系统研究抱有同样热情的研究者和工程师建立连接，共同推进计算机科学边界的拓展。

10+

年系统研究经验

20+

技术论文发表

30+

研究方向覆盖

研究方法论

研究理念与工作方式

计算机系统研究是一门兼具理论深度与工程广度的学科。在十余年的研究实践中，我逐渐形成了以「形式化驱动、工程验证、开源协作、量化评估」为四大支柱的研究方法论。这一方法论框架不是预设的教条，而是在大量成功与失败的研究项目中不断反思与迭代的产物。以下详细阐述每个支柱的核心理念与具体实践。

🔬 形式化驱动

深受Lamport「写作即思考」理念的影响，我的研究工作通常以TLA+规约或数学建模作为起点。在理论层面确立系统的不变式与活性属性后，再进入工程实现阶段。这种「规约驱动」的方法论帮助我在多个复杂系统项目中避免了代价高昂的早期设计缺陷，尤其在分布式一致性协议与并发控制算法的设计中发挥了关键作用。形式化模型不仅是验证工具，更是澄清设计思路的认知框架——在将系统设计转化为TLA+规约的过程中，模糊的设计直觉被迫转化为精确的状态变量与状态转移关系，任何概念上的含混都会在规约撰写阶段暴露出来。这种「规约即思考」的认知效应，使得形式化方法的价值远远超越了事后验证的范畴，成为设计阶段不可或缺的思维工具。在实践中，我通常遵循以下工作流：先用自然语言撰写设计文档以捕捉高层意图，再用TLA+规约精确定义系统的安全性不变式与活性属性，然后通过TLC模型检测器在有限模型下穷举验证，最后基于验证通过的规约进行工程实现。这一流程确保了从设计到实现的每一环节都有严格的正确性追溯。

⚙️ 工程验证

理论研究必须经受真实大规模环境的检验。我始终强调将理论发现付诸工程验证——通过构建万级节点集群模拟器、设计合成基准测试、采集生产环境监控数据等方式，在真实的负载特征与故障模式下迭代系统设计。同时关注性能剖析与瓶颈定位，使用eBPF、perf、Nsight Systems等工具深入系统的每一层，从内核调用栈到应用层逻辑进行端到端的性能分析，确保优化方案的可量化与可复现。工程验证的核心挑战在于「可复现性」——许多系统性能问题只在特定负载模式、特定并发度、特定故障场景下才会暴露，这些场景在生产环境中难以精确复现。为解决这一问题，我构建了基于容器的可复现实验环境，将实验所需的完整软件栈（包括操作系统内核版本、库依赖、配置文件）打包为Docker镜像，确保任何研究者都能在相同的环境中重现实验数据。此外，所有基准测试均记录了详细的系统级性能计数器（CPU Cache Miss、分支预测失败率、TLB Miss等），使得性能分析不局限于应用层的吞吐延迟指标，而是深入到微架构层面理解性能瓶颈的物理根源。

🤝 开源协作

优秀的系统研究应当回馈社区。我长期活跃于Apache Flink、etcd、RocksDB等开源项目的社区讨论与代码贡献中，将研究工作中发现的协议缺陷与性能优化方案通过Pull Request、技术报告等形式回馈给社区。同时，所有研究项目的实验代码、基准测试脚本与数据均公开在GitHub上，确保研究结果的可复现性。相信开放协作是推动计算机系统研究进步的核心动力。在协作模式上，我推崇「异步深度沟通」——通过精心撰写的技术文档与设计提案替代低效的同步会议，让每个技术决策都有完整的上下文记录与逻辑推演过程，使分布式的学术合作成为可能。开源贡献对我而言不仅是一种社区义务，更是研究工作的自然延伸——许多重要的研究洞察恰恰来自对开源项目代码的深度阅读和调试。例如，在阅读etcd的Raft实现时，我发现了一个与Leader选举超时设置相关的微妙竞态条件，这一发现后来成为我形式化验证工作的重要案例。我相信，最好的系统研究应该经得起「被阅读、被复现、被改进」的三重考验。

📐 量化评估

系统研究的科学性体现在可量化的实验评估上。我的每个研究项目都建立了严格的性能基准测试框架——从微基准（Micro-benchmark）到端到端的系统基准（System-level Benchmark），覆盖吞吐、延迟、资源利用率和故障恢复时间等多个维度。通过构建大规模集群模拟器与合成负载生成器，我能够在受控条件下复现极端场景（如网络分区、CPU争用、显存碎片化），并对系统行为进行精确的量化分析。实验数据全部开放，附有完整的实验环境描述与复现步骤，确保研究结论的可验证性与统计显著性。量化评估不仅是对系统设计质量的检验，更是驱动后续优化迭代的核心反馈机制。在实验设计上，我遵循以下原则：每个性能声明必须有统计显著性检验（通常使用Mann-Whitney U检验或Welch's t检验）支持；每个对比实验必须控制变量以确保归因的准确性；每个性能瓶颈的定位必须从应用层指标（吞吐/延迟）下钻到系统层指标（Cache Miss/分支预测失败/TLB Miss）和硬件层指标（PCIe带宽/NVLink利用率/显存带宽饱和度），形成完整的性能归因链条。这种多层次、多指标的量化评估体系，使得性能优化不再依赖直觉和试错，而是基于数据驱动的精确诊断。

研究哲学

驱动研究的核心信念

在十余年的系统研究实践中，我逐渐形成了几个支撑日常工作的核心信念。这些信念并非来自书本或教条，而是在反复的实验失败、设计重构和代码审查中自然沉淀下来的经验总结。

第一，复杂性必须被管理而非被消除。分布式系统本质上就是复杂的——试图通过简化设计来消除复杂性往往只会将复杂性转移到意想不到的地方。优秀的系统设计不是让系统变得简单，而是让复杂性变得可控：通过清晰的模块边界、严格的抽象层次和显式的状态建模，将系统复杂性结构化，使得每个组件可以独立地被理解、测试和优化。这也是为什么形式化规约在我的工作中占据核心地位——它不是要消除系统的复杂性，而是要让复杂性变得可见、可分析和可验证。

第二，性能优化必须有数据支撑。在系统领域，直觉往往是错误的。许多「显而易见」的性能优化在严格的基准测试下被证明无效甚至有害。因此，我坚持每个性能决策都必须有Profiling数据的支撑——从perf的CPU采样到eBPF的内核追踪，从微基准的统计显著性检验到生产环境的A/B测试。没有数据的性能优化只是猜测，而猜测在系统领域是极其危险的。

第三，可复现性是科学研究的基石。系统研究的一个独特挑战是实验的可复现性——硬件差异、内核版本、库依赖、编译器优化级别甚至环境温度都可能影响实验结果。我将实验环境的完整Docker化、基准测试脚本的开源和原始性能数据的公开视为研究工作的基本要求，而非可选加分项。只有可复现的实验结果才配被称为「科学证据」。

第四，跨领域知识是创新的催化剂。我在数据库、分布式系统、编译器和编程语言等多个领域的积累并非偶然的兴趣分散，而是一种有意识的研究策略。最有趣的系统创新往往发生在学科交叉处——例如，将编译器中的向量化优化技术应用于数据库查询引擎，或将分布式共识协议中的Leader选举机制引入Kubernetes控制器的设计。维持跨领域的知识广度需要持续的学习投入，但这种投入的回报是独特的——它使你能够看到单一领域专家容易忽视的解决方案。

这些信念共同塑造了我的研究风格：严谨但不教条，务实但不肤浅，开放但不失深度。在快速变化的技术环境中，底层原理的深刻理解比具体工具的熟练掌握更为重要——工具会过时，框架会被替代，但对分布式系统、存储引擎和编译器优化等核心领域的原理性认知，将始终是解决新问题的最可靠基础。我邀请所有对系统研究感兴趣的同行和学生，一同在这些核心信念的指引下，探索计算机科学的下一个前沿。

学术联系

研究合作与交流

欢迎在分布式系统、高性能计算与数据基础设施等领域展开学术讨论、研究合作与技术咨询。无论您是希望讨论研究思路、寻求论文合作、探讨技术方案，还是有意向邀请学术报告，我都乐于深入交流。对于在读研究生和本科高年级学生，如果您对系统研究方向有兴趣但不知如何入手，也欢迎来信交流——我会尽力提供方向性的指导建议。

保持联系

无论是学术讨论、研究合作还是技术交流，都欢迎通过以下方式联系我。我始终期待与志同道合的研究者在计算机科学的边界上共同探索。在合作模式上，我推崇基于异步深度沟通的分布式协作——通过精心撰写的技术文档与设计提案进行深入的学术交流，让每个技术决策都有完整的上下文记录与逻辑推演过程。无论是针对特定研究问题的探讨、论文合作撰写，还是开源项目的代码贡献与代码审查，我都乐于投入时间进行高质量的互动。对于学生和研究新手，我也愿意提供研究方向的指导建议，帮助下一代系统研究者找到自己的学术兴趣点。邮件是最佳的初始联系方式，我通常会在2-3个工作日内回复。如果您希望讨论具体的研究问题或技术方案，建议在邮件中附上相关的背景资料、论文链接或技术文档，以便我能提供更有针对性的反馈。

📧

探索计算机科学的边界

学术与技术探索之路

计算机系统研究者 · 架构师

核心研究领域

分布式系统

云原生基础设施

数据系统与存储引擎

高性能计算与调度

编程语言与编译器

大规模数据处理

学术与工程实践

分布式多租户资源调度平台

高并发事务处理引擎

流批一体数据管道架构

分布式一致性协议验证框架

大模型推理服务调度系统

分布式链路追踪与根因分析系统

论文与技术报告

微服务架构中服务治理的形式化建模与验证

React 18并发渲染调度的形式化分析

Kubernetes调度器性能瓶颈的量化分析与优化