00:30:31
三位 AI 选手在 Ruby on Rails 项目上同台竞技,谁能又快又好地完成一个功能完整的 SaaS 应用?实测结果出乎意料。
本次测试旨在公平地对比三款主流 AI 代码生成模型在真实开发场景下的能力。测试项目是一个名为 "Help You Rent" 的 SaaS 应用,允许用户出租自己的物品。
技术栈统一为:
测试在 Cursor IDE 中进行,以排除不同工具和智能体(Agent)的干扰。每个模型都接收到相同的初始提示词(Prompt),并按照其生成的开发计划分阶段完成任务。
宣传称其在热门编程基准测试(如 S.Bench 和 Live Codebench)中取得了高分,具备跨语言(Python, JavaScript, Rust)的编写、调试和部署代码的能力。
强调其生成代码的速度,声称尤其擅长 TypeScript, Python, Java, Rust, C++ 和 Go。
测试者的日常主力模型,在此前的 Ruby on Rails 任务中表现优于其他模型,是本次比赛的卫冕冠军。
Grok 首先登场,其速度确实名不虚传。
Grok 在前期阶段展现了惊人的速度,总计约 10分钟 的纯计算时间就完成了大部分后端逻辑和测试。
问题与缺陷: 然而,其生成的前端视图存在大量错误,路由、控制器动作与视图名称不匹配等问题频发。虽然 UI 设计美观,但功能完整度仅约 70%,需要大量手动调试才能正常运行。
最终评价: 速度快,但细节处理粗糙,代码质量不够稳定,离“开箱即用”有较大差距。
Kimi 在速度上与 Grok 不相上下,甚至更快。
问题与缺陷: 项目无法成功启动。生成的代码存在根本性错误,控制器、路由缺失,视图文件也不完整。测试者多次尝试引导均告失败。
最终评价: 生成了“很少或几乎无效”的代码。虽然速度快,但无法完成可工作的应用程序,本次测试中判定为失败。
作为压轴选手,Sonnet 的表现截然不同。
Sonnet 的总计算时间更长(约15-16分钟),但其间包含了自我验证和修正的过程。最终生成的应用几乎无需调试即可运行。
生成的应用具备所有核心功能:
应用界面美观,交互逻辑清晰,仅存在个别小的路由或视图问题,稍作提示即可修复。
模型 | 速度 | 代码质量 | 功能完整性 | 综合排名 |
---|---|---|---|---|
Claude Sonnet 4 | 较慢 | ⭐️⭐️⭐️⭐️⭐️ (极高) | ~95% | 第 1 名 |
Grok Code Fast 1 | ⭐️⭐️⭐️⭐️⭐️ (极快) | 一般 | ~70% | 第 2 名 |
Kimi K2 Instruct | 快 (但无效) | 低 | ~0% | 失败 |
冠军:Claude Sonnet 4 以其无与伦比的准确性、对 Ruby on Rails 框架的深度理解以及生成高质量、可运行代码的能力胜出。它可能更贵、更慢,但其产出效率最高,是专业开发工作的可靠选择。
亚军:Grok Code Fast 1 速度是其最大优势,适合需要快速生成代码草稿或原型的场景。但代码粗糙,需要开发者投入大量时间进行调试和修正。
未完成:Kimi K2 Instruct 在此次测试中未能生成可工作的应用。其性能可能因项目或提示词而异,但本次结果不尽人意。