## 目标 构建一套稳定、可迭代的 AI Coding 评测基线。 ## 任务集建议 - Bug 修复 - 新功能实现 - 测试补全 - 重构与文档 ## 评分指标 - 首次可运行率 - 任务完成时长 - 代码变更质量 - 回归问题数量