新手怎么入门大语言模型?

hankozhouzhm · 2024 年5 月 8 日 01:28

LLaMA

LLaMA（Large Language Model Meta AI）：LLaMA是由MetaAI的Facebook人工智能实验室（FAIR）发布的开放使用的预训练语言模型。它在2022年11月到2023年2月之间训练。LLaMA的工作原理类似于其他大型语言模型，它将一连串的单词作为输入，并预测下一个单词，以递归地生成文本。

2023-06-26日上传至github，目前51.3k star

Gemma

Gemma 是由 Google AI 开发的一系列轻量级、最先进的开源模型，基于用于创建 Google Gemini 模型的研究和技术。Gemma 模型具有出色的语言理解和生成能力。它分为两个规模：2B 和 7B 参数。每个规模都包含基础（预训练）和指令微调版本。Gemma 模型可以在各种类型的消费级硬件上运行，甚至无需量化，且上下文长度可达 8K 个标记。

2024-02-13日上传至github，目前5.1k star

Grok

Grok是一个智能学习系统，通过分析大量数据来获取知识并理解复杂的概念。它利用先进的机器学习算法和深度神经网络，可以处理文本、图像和声音等多种类型的数据。

2024-03-17日上传至github，目前45.6k star。短短几天，这成绩可以说是“狂飙”了

DBRX

DBRX是由Databricks的Mosaic Research团队开发的通用大型语言模型（LLM），旨在为每家企业提供数据智能，让组织能够理解和利用其独特数据来构建自己的人工智能系统。相比现有的开源模型，DBRX在语言理解、编程、数学和逻辑等方面表现更优秀，能够击败多个已建立的开源模型。

2024-02-13日上传至github，目前1.1k star。最近发布的说是可以替代GPT4。

Qwen

Qwen模型是一种基于深度学习的自然语言处理模型，利用大规模语料库进行训练，具有强大的语义理解和文本生成能力。它适用于多种场景，如智能客服、文本摘要、机器翻译等。

2023-08-03日上传至github，目前10.2k star，由阿里云发布。

ChatGLM

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。

2023-03-13日上传至github，目前38.8k star，由清华大学支持

完整内容：

feimi · 2024 年5 月 8 日 01:32

初学者不是会用就行？

hankozhouzhm · 2024 年5 月 8 日 01:36

有道理

wren · 2024 年5 月 8 日 02:15

模型介绍？

handsome · 2024 年5 月 8 日 02:16

调用api就行

gzlock · 2024 年5 月 8 日 02:38

docker部署openwebui+ollama运行模型，网络好的话十分钟就完事了

kfdnnlidr · 2024 年5 月 8 日 02:51

学习了。

smooth · 2024 年5 月 8 日 03:17

第一步，打开文档
第二步，关闭文档

user135 · 2024 年5 月 8 日 07:14

使用的话, 就是聊天嘛, 你跟人也是聊天, 跟机器也是聊天,

jacksong · 2024 年5 月 9 日 05:11

他说的一点没错

haopian · 2024 年5 月 9 日 16:12

这篇文章想说啥？

MATRIxWHo · 2024 年5 月 9 日 16:13

会用就行

Superwill · 2024 年5 月 9 日 18:50

水貼到標題黨。屌爆了

906051999 · 2024 年5 月 9 日 19:17

这要入门啥?学架构?学训练?

话题		回复	浏览量
Meta发布了AI语言模型LLAMA的最新版本 llama 3 人工智能	6	420	2024 年4 月 19 日
有大模型微调入门资料么人工智能	4	290	2024 年2 月 5 日
Llama-Chinese API，每分钟可以嫖30次人工智能 Llama-3	21	723	2024 年5 月 10 日
本地copilot! 发现Ollama的Python和JavaScript库，探索令人惊叹的Web项目和强大的IDE插件人工智能 chatgpt , 小工具 , copilot	20	1457	2024 年3 月 12 日
🚀 快来试试来自清华博士王慎执版Llama3 模型，表现不错！人工智能 chatgpt , Llama-3	56	1984	2024 年5 月 6 日