支持80+编程语言、集成VSCode，HuggingFace代码大模型来了

登录 · 发表于 2023-5-7 11:03:09

程序员们又有了一款 AI 代码生成工具。

随着近年来大模型的火热，出现了很多效果惊艳的语言大模型、视觉大模型和多模态大模型。与此同时，大模型范畴还在不断向更多垂直领域拓展，代码就是一个重要方向。

2022 年 9 月，HuggingFace 与 ServiceNow Research 联合发起了一个全新的代码大模型项目 BigCode，旨在围绕 AI 代码生成工具建立一个开放社区并开发大语言模型代码。

昨日 BigCoder 宣布推出 155 亿参数开源代码大模型 StarCoder 和 StarCoderBase，它们具有 8k token 的上下文，在 80 多种编程语言的数据上进行训练。StarCoder 在 HumanEval 基准测试中的一次通过率达到了 40.8％，可以充当技术助手。相关论文的作者有 68 位。

[/url]

StarCoder 不仅可以用来聊天，还能帮助用户集成最新 VSCode 插件进行编码。你还能检查当前代码是否在预训练数据集中（按下 CTRL+ESC 即可）。

[/url]

StarCoder 在 JupyterNotebooks 上训练，并且使用推特用户 @JiaLi52524397 提供的 Jupyter 插件，它可以利用以前的代码、markdown 单元格和输出来预测下一个单元格。

英伟达人工智能科学家 Jim Fan 对此表示，「编码的 LLaMA 时刻来了！开源 LLM 社区正以超人的速度前进。」

[url=https://www.msn.cn/zh-cn/news/other/%E6%94%AF%E6%8C%8180-%E7%BC%96%E7%A8%8B%E8%AF%AD%E8%A8%80-%E9%9B%86%E6%88%90vscode-huggingface%E4%BB%A3%E7%A0%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%9D%A5%E4%BA%86/ar-AA1aPhNR?ocid=msedgntp&cvid=a838cfcaaae6485f9ce1073a8f1a3d83&ei=73&fullscreen=true#image=3]

代码大模型 StarCoder 和 StarCoderBase

整体而言，StarCoder 和 StarCoderBase 是在 GitHub 的许可数据上训练的大型代码语言模型（Code LLMs），数据源包括 80 多种编程语言、Git commits、GitHub issues 和 Jupyter notebooks。

与 LLaMA 类似，项目团队首先使用来自 The Stack（具有检查工具和 opt-out 流程的许可 GitHub 库集合）上的 1 万亿个 token 训练了 StarCoderBase。然后在 350 亿个 Python token 上对 StarCoderBase 进行微调，形成了一个新模型 StarCoder。

下表 1 和 2 分别为 StarCoder 的训练数据。

[/url]

研究发现，StarCoderBase 在流行编程基准上优于现有开源代码 LLM，并媲美或超越了一些封闭模型，如 OpenAI 最初的 Codex 模型。

StarCoder 模型上下文长度超过 8000 个 token，可以比其他任何开放 LLM 处理更多的输入，从而实现大量有趣的应用。例如，通过向 StarCoder 模型提示一系列的对话，可以使它们充当技术助手。此外 StarCoder 模型还可以用来自动完成代码，通过指令对代码进行修改，并以自然语言解释一个代码片段。

下表 11 为 StarCoder 的模型架构。

[url=https://www.msn.cn/zh-cn/news/other/%E6%94%AF%E6%8C%8180-%E7%BC%96%E7%A8%8B%E8%AF%AD%E8%A8%80-%E9%9B%86%E6%88%90vscode-huggingface%E4%BB%A3%E7%A0%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%9D%A5%E4%BA%86/ar-AA1aPhNR?ocid=msedgntp&cvid=a838cfcaaae6485f9ce1073a8f1a3d83&ei=73&fullscreen=true#image=5]

基准评估

项目团队全面评估了 StarCoder、几个类似的模型以及各种基准，其中包括流行的 Python 基准 HumanEval（用来测试模型是否可以根据签名和文件串补全函数）。

结果发现，StarCoder 和 StarCoderBase 的表现都超过了一些最大的模型，包括了 PaLM、LaMDA 和 LLaMA。这两个模型的表现也超过了 CodeGen-16B-Mono 和 OpenAI 的 code-cushman-001（12B）模型。

项目团队还发现了模型的一个失败用例即产生代码，这可能是因为这种类型的代码通常是练习的一部分。为了让模型生成实际的解决方案，项目团队选择添加了一个 prompt ，创建了 StarCoder-Prompted 模型，使得 HumanEval 的通过率从 34% 大幅提高到 40% 以上。

[/url]

StarCoder 的一个有趣的方面是支持多语言。项目团队在 MultiPL-E 上对它进行了评估，并观察到 StarCoder 在许多语言上的表现都有过之而无不及。