在人工智能领域,我们深感技术发展的迅速和成就的巨大。其中,法国初创公司MistralAI在这方面尤为令人瞩目。MistralAI成立于2023年5月,由DeepMind和Meta的前科学家创立,被称为“欧洲版OpenAI”。
这是一家创新而富有前景的公司,他们的雄心壮志和成绩让人叹为观止。这家公司以产生开源大型语言模型著称,其中最受人瞩目的是 Mistral 7B 和 Mixtral 8x7B。这些模型在多项基准测试中表现优异,展现了强大的自然语言处理能力和广泛的应用前景。这不仅推动了自然语言处理技术的发展,也为开发者提供了更多的选择和可能性。
而就在今天,MistralAI在其不断壮大的大语言模型(LLM)家族中增添了两名新成员:一位是名为Mathstral的基于数学的模型,另一位是基于其他研究人员去年年底开发的名为Mamba的新架构,供程序员和开发人员提供的代码生成模型。
Codestral Mamba非常适合代码生成,尤其是对于更本地化的编程项目;而Mathstral则是表现出了卓越的数学推理以及模型微调能力。接下来本文将简单介绍一下二者。
“Mamba”架构:大道至简,加强效率
Codestral Mamba 是一种状态空间模型架构,与 transformer架构相比具有显著优势:transformer 推理计算(通常是推理时间)与上下文/序列长度呈二次缩放,而 Mamba 架构呈线性缩放。这就是为什么 Codestral Mamba 能够提供 256k 令牌的上下文窗口,>7 倍 Mistral 7B 的上下文窗口。这也意味着在使用模型时可以更快地进行推理/速度,特别是对于RAG等大型上下文用例。
Mamba架构旨在通过简化注意力机制来提高大多数领先 LLM 使用的 transformer 架构的效率。与更常见的基于 transformer 的模型不同,基于 Mamba 的模型可以具有更快的推理时间和更长的上下文。包括 AI21 在内的其他公司和开发商已经发布了基于它的新 AI 模型。
现在,使用这种新架构,Mistral旗下恰如其名的Codestral Mamba 7B 即便输入较长的文本也能提供快速响应时间。Codestral Mamba 非常适合代码生产力用例,尤其是对于更多本地编码项目。
Mistral 测试了该模型,测试结果显示该模型可以在 Mistral 的 l a Plateforme API上免费使用,可处理多达 256,000 个令牌的输入——是 OpenAI 的 GPT-4o 的两倍。这种高效的模型对编程开发尤其重要,不受输入长度的限制意味着模型可以读取更多代码内容并根据上下文编写更适合的代码、帮助开发者构建更完整的项目。
在基准测试中,Mistral 表明 Codestral Mamba 在 HumanEval 测试中的表现明显优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。
开发人员可以从 GitHub 存储库和 HuggingFace 修改和部署 Codestral Mamba。它将采用开源 Apache 2.0 许可证。
Mistral 声称Codestral 的早期版本优于其他代码生成器,如 CodeLlama 70B 和 DeepSeek Coder 33B。
需要说的是,Codestral Mamba 同样是一个指导模型,开发者可以根据自己的需要使用 mistral-inference 进行微调训练,打造适合自己或特定领域的版本。
代码生成和编码助手已经成为人工智能模型广泛使用的应用程序,其中由 OpenAI 提供支持的GitHub 的 Copilot、亚马逊的 CodeWhisperer和Codenium等平台越来越受欢迎。
“Mathstral”模型:兼顾数学与推理
Mistral 推出的第二款模型是Mathstral 7B,这是一种专为数学推理和科学发现而设计的人工智能模型。Mistral 与 Project Numina 合作开发了 Mathstral。
Mathstral 拥有 32K 上下文窗口,将采用 Apache 2.0 开源许可。Mistral 表示,该模型的表现优于所有为数学推理设计的模型。它可以在具有更多推理时间计算的基准测试中实现“明显更好的结果”。用户可以按原样使用它,也可以对模型进行微调。
Mistral 在一篇博客文章中表示:“Mathstral 是构建特定用途模型时实现的出色性能/速度权衡的另一个例子——这是我们在 la Plateforme 中积极推广的开发理念,尤其是其新的微调功能。”
MistralAI:坚持开源的新兴独角兽
Mistral AI 是一家法国人工智能公司。它于 2023 年 4 月由曾受雇于 Meta 和 Google 的研究人员创建,包括:Arthur Mensch、Timothée Lacroix 和 Guillaume Lample。截至 2023 年 12 月,该公司已融资 6.6 亿美元。2023 年 12 月,该公司的估值超过 20 亿美元,晋身独角兽。
Mistral AI的技术架构建立在数据层、算法层和模型层之上,通过运用深度学习等先进算法,实现对数据的智能分析、处理和应用。
与具有讽刺意味的名字 OpenAI 不同,Mistral AI 产生开源大型语言模型,这意味着这些模型可以免费用于商业用途。开发人员还可以更改、复制或更新源代码,并将其与许可证副本一起分发。正因如此,Mistral AI的成立和发展在法国乃至欧洲都引起了广泛关注。其开源的人工智能大模型在欧洲向封闭的OpenAI发起了挑战,被视为法国挑战美国科技巨头的一个机遇。
官网:https://mistral.ai/
高性价比GPU算力:
https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0717_shemei