在之前的文章《37-AI 时代,代码评审方式究竟怎样优化?关键要点有哪些?》中已经提到,AI 代码评审基于 Code-Review-GPT-Gitlab 进行使用,因为这个开源库包含评分机制、问题反馈、修改建议和修正后的代码等部分,比较符合我的预期。

在使用了一段时间之后,考虑到要基于流程规范来操作,项目成员提交代码后,最好能看到 AI 代码评审报告,然后根据反馈的问题修改后再提交代码。

但怎样才算修改好了呢?这就需要制定一个标准,比如将 90 分作为评分标准,每个分支提交到仓库时,都需要达到 90 分以上,代码才能入库。

然而,以 90 分作为标准执行一段时间后,有同事反馈这个标准可能不太合理。因为通过 AI 代码评审,出现了一些幻觉问题,这会导致评分不准确,使得 90 分的要求难以达成。

幻觉问题一直是当下 AI 面临的较大难题,在我看来,这并非完全是由于私有化部署时使用的模型小、性能不够强大所致,很多市面上很强大的 AI 工具,同样存在这个问题。

加上,其实提交的代码只是变更部分,AI 代码评审时,只会对 diff 部分进行检查,这就会存在对业务认知不完整的问题,因为项目中一个完整的业务功能,并不一定就在一个文件里完整呈现的。

因此,流程调整为采用 “AI 预评审 + 人工复核” 的方式,依旧按照 90 分的评分要求,具体问题具体分析。如果出现幻觉问题,则灵活处理,而非因噎废食。

关于幻觉问题,一方面可以考虑升级配置,比如购买性能更好的显卡;另一方面只能等待行业发展,以有效解决 AI 幻觉问题。

在《当 99% 可靠性是及格线,我们如何为大模型装上工程 “安全带”?》这篇文章中,提到了对幻觉问题的探索和解决,后续发展情况仍需持续关注:

在 2025 世界人工智能大会(WAIC)上,蚂蚁集团旗下蚂蚁密算宣布对外开源高阶程序(High-Order Program)大模型可信应用技术框架,通过外部化控制与核验,为构建可信、可控、可维护的大模型应用提供了务实的参考标准。

除此之外,项目成员在提交代码之前,需要在 VSCode 中使用豆包 AI 插件,对所有改动的文件进行检查。

这样至少能在提交代码、进行分支合并之前,在本地提前暴露问题,无需等到提交代码后再用 AI 进行代码评审,从而简化大量工作。

不过,在本地使用豆包 AI 插件检查改动的代码时,无需过度检查。因为我发现,每次提问都会得到问题反馈,即便复制它建议的代码去询问,仍然会收到很多建议,这会让人感觉没完没了。

毕竟代码的写法、规范并非只有一套,功能的实现细节也千差万别,并非绝对统一。所以,只需检查一次,把特别明显的问题改掉即可,若是吹毛求疵,只会陷入无尽的循环。

至此,我之前认为代码评审完全可以由 AI 来完成并让整个流程顺畅运转的想法,显然有些激进了。

以当前情况来看,无论 AI 代码评审能达到何种程度,即便幻觉问题能得到有效解决,也不应该完全由 AI 来承担这项工作。

采用 “本地 AI 插件检查 + AI 预评审 + 人工复核” 这三个步骤,或许更为合理。