近日,AI芯片初创公司Groq推出最快的大模型推理芯片LPU,这是谷歌TPU团队原班人马为大模型推理研发的专用ASIC芯片,基于Groq芯片的推理API也开始向外界开放。
开发者可在公司官网上(https://wow.groq.com/)申请免费试用,也可以在Poe上免费体验Groq:https://poe.com/Mixtral-8x7b-Groq 。
目前提供Llama-70B-4K和Mixtral-8x7B-32K两种超大尺寸的模型供选择,推理API完全兼容OpenAI的API。
令用户惊叹的是,基于Groq LPU的AI推理速度相当炸裂,比如在问答场景中,使用Llama 70B模型,用户从提问到收到回答几乎没有感受不到延迟,首词输出的时延仅有0.2秒,500多个单词在大约一秒的时间内全部生成,而相同数量的内容,ChatGPT需要近10秒才能生成完,首词输出更是以秒计。
具体到吞吐指标,Groq给出一组对比数据,如下图所示,与行业内优秀选手相比,Groq LPU大约领先10倍左右,完全吊打基于英伟达GPU的推理产品。