Hugging Face - SegmentFault 思否

【AI 安全探索】AI 流行的时代，我们应该担心什么？

2023-11-28

阅读 1 分钟

113

[链接]是未来危机，还是眼下的问题？🌍Sasha Luccioni 是 Hugging Face 团队的道德和可持续人工智能研究员，被邀请做了 TED 演讲 📢演讲主题也是最近在 AI 伦理道德方面的热门话题：人工智能流行的时代，我们到底应该担心什么？希望本视频可以带你更好地了解人工智能模型、数据集和系统对社会和环境的影响 ❤️

封面图

深入理解 BigBird 的块稀疏注意力

2023-11-24

阅读 12 分钟

207

基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而，$O(n^2)$ 的时间和内存复杂度 (其中 $n$ 是序列长度) 使得在长序列 ($n > 512$) 上应用它们变得非常昂贵，因而大大限制了其应用。最近的几篇论文，如 Longformer 、Performer 、Reformer 、簇状注意力都试图通过对完整注意力矩阵进行近似来解决这...

封面图

使用 LCM LoRA 4 步完成 SDXL 推理

2023-11-20

阅读 8 分钟

520

LCM 模型通过将原始模型蒸馏为另一个需要更少步数 (4 到 8 步，而不是原来的 25 到 50 步) 的版本以减少用 Stable Diffusion (或 SDXL) 生成图像所需的步数。蒸馏是一种训练过程，其主要思想是尝试用一个新模型来复制源模型的输出。蒸馏后的模型要么尺寸更小 (如 DistilBERT 或最近发布的 Distil-Whisper)，要么需要运...

封面图

使用 PPO 算法进行 RLHF 的 N 步实现细节

2023-11-16

阅读 24 分钟

475

当下，RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究，这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库，其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x” 的特性，但 OpenAI 的原始代码库评估和基准测试非常完善，使其成为研究 RLHF 实现工程细...

封面图

个人编程助手: 训练你自己的编码助手

2023-11-15

阅读 12 分钟

167

在编程和软件开发这个不断演变的领域中，对效率和生产力的追求催生了许多卓越的创新。其中一个显著的创新就是代码生成模型的出现，如 Codex、StarCoder 和 Code Llama。这些模型在生成类似人类编写的代码片段方面表现出惊人能力，显示出了作为编程助手的巨大潜力。

封面图

Transformers 中原生支持的量化方案概述

2023-11-13

阅读 6 分钟

128

本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述，以助于读者进行方案选择。目前，量化模型有两个主要的用途:在较小的设备上进行大模型推理对量化模型进行适配器微调到目前为止，transformers 已经集成并原生支持了 bitsandbytes 和 auto-gptq 这两个量化库。请注意，🤗 optimum 还支持更多的量...

封面图

Hugging Face 在法国联合启动人工智能创业项目！

2023-11-10

阅读 1 分钟

253

[链接]Hugging Face、Meta、Scaleway 与法国创业孵化基地 STATION F 合作的人工智能创业项目正式启动 📢🔥 申请截止日期为 12 月 1 日本项目旨在利用开源人工智能的力量来扶持初创公司并推动人工智能创业生态的创新🌪如果你是：👾 一家愿意开发开源模型的人工智能初创企业🇫🇷 已在法国注册，并准备在 2024 年上半年搬迁至 STA...

封面图

开源模型 Zephyr-7B 发布——跨越三大洲的合作

2023-11-09

阅读 1 分钟

180

✨ 就在几个月前，巴黎的一个新团队发布了他们首个模型: Mistral 7B，这个模型体积小巧但性能强劲，在基准测试中的表现超过了所有同类模型。而且这是个开源模型，这意味着大家都可以在此基础上进行开发。

封面图

用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM

2023-11-07

阅读 8 分钟

1.1k

众所周知，LLM 规模庞大，如果在也能消费类硬件中运行或训练它们将是其亲民化的巨大进步。我们之前撰写的 LLM.int8 博文展示了我们是如何将 LLM.int8 论文中的技术通过 bitsandbytes 库集成到 transformers 中的。在此基础上，我们不断努力以不断降低大模型的准入门槛。在此过程中，我们决定再次与 bitsandbytes 联手...

封面图

HF Hub 现已加入存储区域功能

2023-11-06

阅读 1 分钟

107

我们在企业版 Hub 服务方案中推出了存储区域（Storage Regions）功能。通过此功能，用户能够自主决定其组织的模型和数据集的存储地点，这带来两大显著优势，接下来的内容会进行简要介绍：法规和数据合规，此外还能增强数字主权性能提升（下载和上传速度更快，减少延迟）目前，我们支持以下几个存储区域：美国 🇺🇸欧盟...

封面图

发布会回放｜Gradio 4.0 正式发布！

2023-11-02

阅读 1 分钟

332

Gradio 的目标是使机器学习模型的演示更容易定制和访问，以满足不同用户的需求。在 4.0 正式版的发布活动上，Hugging Face 的 Gradio 团队介绍了自己为了提高机器学习模型的可访问性所做的工作，以及如何创建自定义组件。

封面图

实战｜如何低成本训练一个可以超越 70B Llama2 的模型 Zephyr-7B

2023-10-28

阅读 2 分钟

158

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」。快来看看有哪些近期更新吧！ 🎉

封面图

长程 Transformer 模型

2023-10-26

阅读 8 分钟

191

本文由 Teven Le Scao、Patrick Von Platen、Suraj Patil、Yacine Jernite 和 Victor Sanh 共同撰写。

使用 DDPO 在 TRL 中微调 Stable Diffusion 模型

2023-10-23

阅读 5 分钟

257

扩散模型 (如 DALL-E 2、Stable Diffusion) 是一类文生图模型，在生成图像 (尤其是有照片级真实感的图像) 方面取得了广泛成功。然而，这些模型生成的图像可能并不总是符合人类偏好或人类意图。因此出现了对齐问题，即如何确保模型的输出与人类偏好 (如“质感”) 一致，或者与那种难以通过提示来表达的意图一致？这里就有强...

封面图

Hugging Face: 代码生成模型的预训练和微调

2023-10-23

阅读 1 分钟

467

和大家分享我们的机器学习工程师 Loubna Ben Allal 在 10 月上海 KubeCon 大会的主题演讲 📢题目是：代码生成模型的预训练和微调

封面图

不写代码、构建一个开源的 ChatGPT，总共需要几步？｜Hugging News #1020

2023-10-23

阅读 2 分钟

200

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息，快来看看吧！ 🎉

封面图

面向生产的 LLM 优化

2023-10-19

阅读 20 分钟

415

以 GPT3/4、Falcon 以及 LLama 为代表的大语言模型 (Large Language Model，LLM) 在处理以人为中心的任务上能力突飞猛进，俨然已成为现代知识型行业的重要工具。

封面图

Hugging Face 分词器新增聊天模板属性

2023-10-17

阅读 5 分钟

217

现存的聊天模型使用的训练数据格式各各不同，我们需要用这些格式将对话转换为单个字符串并传给分词器。如果我们在微调或推理时使用的格式与模型训练时使用的格式不同，通常会导致严重的、无声的性能下降，因此匹配训练期间使用的格式极其重要！ Hugging Face 分词器新增了 chat_template 属性，可用于保存模型训练时使用...

封面图

我们又组织了一次欧洲最大开源社区活动，Hugging Face 博客欢迎社区成员发帖、Hugging Chat 功能更新！

2023-10-14

阅读 1 分钟

202

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息，快来看看吧！ 🎉

封面图

机器学习即代码的时代已经到来

2023-10-11

阅读 4 分钟

182

译者注: 到底是 AI 会吃掉软件还是软件会吃掉 AI？为了 job security 工程师应该把宝押在哪儿？这篇 2021 年的文章提供的一些视角似乎印证了它现在的流行，有点“运筹于帷幄之中，决胜于数年之后”的意思，颇值得软件架构师和产品经理们内省一番。

封面图

AudioLDM 2，加速！

2023-10-10

阅读 10 分钟

235

AudioLDM 2 由刘濠赫等人在 AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining 一文中提出。 AudioLDM 2 接受文本提示作为输入并输出对应的音频，其可用于生成逼真的声效、人类语音以及音乐。

在 SDXL 上用 T2I-Adapter 实现高效可控的文生图

2023-09-29

阅读 5 分钟

412

T2I-Adapter 是一种高效的即插即用模型，其能对冻结的预训练大型文生图模型提供额外引导。T2I-Adapter 将 T2I 模型中的内部知识与外部控制信号结合起来。我们可以根据不同的情况训练各种适配器，实现丰富的控制和编辑效果。

封面图

Hugging News #0925: 一览近期的新功能发布

2023-09-27

阅读 2 分钟

368

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息，快来看看吧！ 🎉

封面图

使用 FHE 实现加密大语言模型

2023-09-24

阅读 5 分钟

769

尽管 LLM 很有吸引力，但如何保护好输入给这些模型的用户查询中的隐私这一问题仍然存在。一方面，我们想充分利用 LLM 的力量，但另一方面，存在向 LLM 服务提供商泄露敏感信息的风险。在某些领域，例如医疗保健、金融或法律，这种隐私风险甚至有一票否决权。

Hugging News #0918: Hub 加入分类整理功能、科普文本生成中的流式传输

2023-09-24

阅读 2 分钟

604

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息，快来看看吧！ 🎉😍

封面图

如何成功将 API 客户的 transformer 模型推理速度加快 100 倍

2023-09-16

阅读 2 分钟

306

🤗 Transformers 已成为世界各地数据科学家用以探索最先进 NLP 模型、构建新 NLP 模块的默认库。它拥有超过 5000 个预训练和微调的模型，支持 250 多种语言，任君取用。无论你使用哪种框架，都能用得上它。

Hugging News #0912: Hugging Face 2 人入选时代周刊全球百大 AI 人物

2023-09-13

阅读 3 分钟

286

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息，快来看看吧！ 🎉😍

封面图

IDEFICS 简介: 最先进视觉语言模型的开源复现

2023-09-08

阅读 9 分钟

1.1k

Code Llama 是为代码类任务而生的一组最先进的、开放的 Llama 2 模型，我们很高兴能将其集成入 Hugging Face 生态系统！Code Llama 使用与 Llama 2 相同的社区许可证，且可商用。

Code Llama：Llama 2 学会写代码了！

2023-09-07

阅读 9 分钟

1.1k

Code Llama 是为代码类任务而生的一组最先进的、开放的 Llama 2 模型，我们很高兴能将其集成入 Hugging Face 生态系统！Code Llama 使用与 Llama 2 相同的社区许可证，且可商用。

封面图

重磅｜ Falcon 180B 正式在 Hugging Face Hub 上发布！

2023-09-06

阅读 5 分钟

3.8k

我们很高兴地宣布由 Technology Innovation Institute (TII) 训练的开源大模型 Falcon 180B 登陆 Hugging Face！ Falcon 180B 为开源大模型树立了全新的标杆。作为当前最大的开源大模型，有180B 参数并且是在在 3.5 万亿 token 的 TII RefinedWeb 数据集上进行训练，这也是目前开源模型里最长的单波段预训练。

封面图

3

3