PaliGemma 正式发布 — Google 最新发布的前沿开放视觉语言模型

今天 11:03
阅读 9 分钟
9
PaliGemma(Github)是一系列具有视觉和语言处理能力的模型,由 SigLIP-So400m 作为图像编码器和 Gemma-2B 作为文本解码器构成。SigLIP 是一个顶尖的模型,可以同时解析图像和文本。它的工作方式类似于 CLIP,包括图像和文本编码器的联合训练。与 PaLI-3相似,PaliGemma 模型在图像-文本数据上进行预训练后,可轻松针对...
封面图

Idefics2 简介: 为社区而生的强大 8B 视觉语言模型

5 月 15 日
阅读 5 分钟
29
我们很高兴在此发布 Idefics2,这是一个通用的多模态模型,接受任意文本序列和图像序列作为输入,并据此生成文本。它可用于回答图像相关的问题、描述视觉内容、基于多幅图像创作故事、从文档中提取信息以及执行基本的算术运算。
封面图

Hugging Face 与 Wiz Research 合作提高人工智能安全性

5 月 14 日
阅读 3 分钟
12
Wiz 研究人员 与 Hugging Face 就我们平台的安全性进行合作并分享了他们的发现。 Wiz 是一家云安全公司,帮助客户以安全的方式构建和维护软件。 随着这项研究的发布,我们将借此机会重点介绍一些相关的 Hugging Face 安全改进。
封面图

万事通,专精部分领域的多功能 Transformer 智能体

5 月 13 日
阅读 4 分钟
20
我们很高兴分享“万事通”(Jack of All Trades,简称 JAT) 项目,该项目旨在朝着通用智能体的方向发展。该项目最初是作为对 Gato (Reed 等,2022 年) 工作的公开复现启动的,Gato 提出训练一种能够执行视觉与语言以及决策任务的 Transformer。于是我们首先构建了 Gato 数据集的开放版本。随后,我们在此基础上训练了多模态...
封面图

StarCoder2-Instruct: 完全透明和可自我对齐的代码生成

5 月 11 日
阅读 4 分钟
42
指令微调 是一种技术,它能让大语言模型 (LLMs) 更好地理解和遵循人类的指令。但是,在编程任务中,大多数模型的微调都是基于人类编写的指令 (这需要很高的成本) 或者是由大型专有 LLMs 生成的指令 (可能不允许使用)。 我们推出了一个叫做 StarCoder2-15B-Instruct-v0.1 的模型,这是第一个完全自我对齐的大型代码模型,...
封面图

Ryght 在 Hugging Face 专家助力下赋能医疗保健和生命科学之旅

5 月 7 日
阅读 3 分钟
42
当前,生命科学公司不断地从各种不同来源 (实验室数据、电子病历、基因组学、保险索赔、药学、临床等) 收集大量数据,并期望从中获取洞见。但他们分析这些数据的方法已经跟不上数据本身,目前典型的工作模式往往需要一个大型团队来完成从简单查询到开发有用的机器学习模型的所有工作。这一模式已无法满足药物开发、临床...
封面图

在英特尔至强 CPU 上使用 🤗 Optimum Intel 实现超快 SetFit 推理

5 月 6 日
阅读 6 分钟
59
在缺少标注数据场景,SetFit 是解决的建模问题的一个有前途的解决方案,其由 Hugging Face 与 Intel 实验室 以及 UKP Lab 合作共同开发。作为一个高效的框架,SetFit 可用于对 Sentence Transformers 模型进行少样本微调。
封面图

开源医疗大模型排行榜: 健康领域大模型基准测试

4 月 30 日
阅读 5 分钟
43
多年来,大型语言模型 (LLMs) 已经发展成为一项具有巨大潜力,能够彻底改变医疗行业各个方面的开创性技术。这些模型,如 GPT-3,GPT-4 和 Med-PaLM 2,在理解和生成类人文本方面表现出了卓越的能力,使它们成为处理复杂医疗任务和改善病人护理的宝贵工具。它们在多种医疗应用中显示出巨大的前景,如医疗问答 (QA) 、对话...
封面图

视觉语言模型详解

4 月 29 日
阅读 7 分钟
98
视觉语言模型可以同时从图像和文本中学习,因此可用于视觉问答、图像描述等多种任务。本文,我们将带大家一览视觉语言模型领域: 作个概述、了解其工作原理、搞清楚如何找到真命天“模”、如何对其进行推理以及如何使用最新版的 trl 轻松对其进行微调。
封面图

使用 Gradio 的“热重载”模式快速开发 AI 应用

4 月 24 日
阅读 4 分钟
44
在这篇文章中,我将展示如何利用 Gradio 的热重载模式快速构建一个功能齐全的 AI 应用。但在进入正题之前,让我们先了解一下什么是重载模式以及 Gradio 为什么要采用自定义的自动重载逻辑。如果您已熟悉 Gradio 并急于开始构建,请直接跳转到第三部分构建文档分析应用。
封面图

欢迎 Llama 3:Meta 的新一代开源大语言模型

4 月 23 日
阅读 7 分钟
101
Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本,现已在 Hugging Face 平台发布。看到 Meta 持续致力于开放 AI 领域的发展令人振奋,我们也非常高兴地全力支持此次发布,并实现了与 Hugging Face 生态系统的深度集成。
封面图

Hugging Face Transformers 萌新完全指南

4 月 17 日
阅读 6 分钟
58
欢迎阅读《Hugging Face Transformers 萌新完全指南》,本指南面向那些意欲了解有关如何使用开源 ML 的基本知识的人群。我们的目标是揭开 Hugging Face Transformers 的神秘面纱及其工作原理,这么做不是为了把读者变成机器学习从业者,而是让为了让读者更好地理解 transformers 从而能够更好地利用它。同时,我们深知实...
封面图

笔记本电脑上的聊天机器人: 在英特尔 Meteor Lake 上运行 Phi-2

4 月 16 日
阅读 5 分钟
45
对应于其强大的能力,大语言模型 (LLM) 需要强大的算力支撑,而个人计算机上很难满足这一需求。因此,我们别无选择,只能将它们部署至由本地或云端托管的性能强大的定制 AI 服务器上。
封面图

在 Google Cloud 上轻松部署开放大语言模型

4 月 12 日
阅读 3 分钟
47
这是 Hugging Face Hub 上的一个新功能,让开发者可以轻松地将数千个基础模型使用 Vertex AI 或 Google Kubernetes Engine (GKE) 部署到 Google Cloud。
封面图

用于显著提高检索速度和降低成本的二进制和标量嵌入量化

4 月 12 日
阅读 10 分钟
103
我们引入了嵌入量化的概念,并展示了它们对检索速度、内存使用、磁盘空间和成本的影响。我们将讨论理论上和实践中如何对嵌入进行量化,然后介绍一个 演示,展示了 4100 万维基百科文本的真实检索场景。
封面图

Quanto: PyTorch 量化工具包

4 月 9 日
阅读 5 分钟
77
量化技术通过用低精度数据类型 (如 8 位整型 (int8)) 来表示深度学习模型的权重和激活,以减少传统深度学习模型使用 32 位浮点 (float32) 表示权重和激活所带来的计算和内存开销。
封面图

为 Hugging Face 用户带来无服务器 GPU 推理服务

4 月 8 日
阅读 2 分钟
88
今天,我们非常兴奋地宣布 部署到 Cloudflare Workers AI 功能正式上线,这是 Hugging Face Hub 平台上的一项新服务,它使得通过 Cloudflare 边缘数据中心部署的先进 GPU、轻松使用开放模型作为无服务器 API 成为可能。
封面图

利用 🤗 Optimum Intel 和 fastRAG 在 CPU 上优化文本嵌入

4 月 2 日
阅读 8 分钟
87
嵌入模型在很多场合都有广泛应用,如检索、重排、聚类以及分类。近年来,研究界在嵌入模型领域取得了很大的进展,这些进展大大提高了基于语义的应用的竞争力。BGE、GTE 以及 E5 等模型在 MTEB 基准上长期霸榜,在某些情况下甚至优于私有的嵌入服务。 Hugging Face 模型 hub 提供了多种尺寸的嵌入模型,从轻量级 (100-350...
封面图

在 NVIDIA DGX Cloud 上使用 H100 GPU 轻松训练模型

3 月 21 日
阅读 3 分钟
81
今天,我们正式宣布推出 DGX 云端训练 (Train on DGX Cloud) 服务,这是 Hugging Face Hub 上针对企业 Hub 组织的全新服务。
封面图

数据好合: Argilla 和 Hugging Face Spaces 携手赋能社区合力构建更好的数据集

3 月 20 日
阅读 2 分钟
61
最近,Argilla 和 Hugging Face 共同 推出 了 Data is Better Together 计划,旨在凝聚社区力量协力构建一个对提示进行排名的偏好数据集。仅用几天,我们就吸引了:
封面图

TTS 擂台: 文本转语音模型的自由搏击场

3 月 16 日
阅读 2 分钟
56
对文本转语音 (text-to-speech, TTS) 模型的质量进行自动度量非常困难。虽然评估声音的自然度和语调变化对人类来说是一项微不足道的任务,但对人工智能来说要困难得多。为了推进这一领域的发展,我们很高兴推出 TTS 擂台。其灵感来自于 LMSys 为 LLM 提供的 <url-text>Chatbot 擂台</url-text>。借鉴 Chatbo...
封面图

基于英特尔® Gaudi® 2 AI 加速器的文本生成流水线

3 月 13 日
阅读 6 分钟
80
随着生成式人工智能 (Generative AI,GenAI) 革命的全面推进,使用 Llama 2 等开源 transformer 模型生成文本已成为新风尚。人工智能爱好者及开发人员正在寻求利用此类模型的生成能力来赋能不同的场景及应用。本文展示了如何基于 Optimum Habana 以及我们实现的流水线类轻松使用 Llama 2 系列模型 (7b、13b 及 70b) 生成...
封面图

来自 AI Secure 实验室的 LLM 安全排行榜简介

3 月 12 日
阅读 3 分钟
78
近来,LLM 已深入人心,大有燎原之势。但在我们将其应用于千行百业之前,理解其在不同场景下的安全性和潜在风险显得尤为重要。为此,美国白宫发布了关于安全、可靠、可信的人工智能的行政命令; 欧盟人工智能法案也对高风险人工智能系统的设立了专门的强制性要求。在这样的大背景下,我们首先需要确立一个用于定量评估人...
封面图

俄罗斯套娃 (Matryoshka) 嵌入模型概述

3 月 6 日
阅读 6 分钟
147
在这篇博客中,我们将向你介绍俄罗斯套娃嵌入的概念,并解释为什么它们很有用。我们将讨论这些模型在理论上是如何训练的,以及你如何使用 Sentence Transformers 来训练它们。
封面图

合成数据: 利用开源技术节约资金、时间和减少碳排放

3 月 6 日
阅读 15 分钟
85
你应该使用自己的模型,还是使用 LLM API?创建你自己的模型可以让你完全控制,但需要数据收集、训练和部署方面的专业知识。LLM API 使用起来更简单,但会将数据发送给第三方,并对提供商有强烈依赖。这篇博客让你可以将 LLM 的便利性与定制模型的控制性和效率相结合。
封面图

企业场景排行榜简介: 现实世界用例排行榜

3 月 5 日
阅读 5 分钟
83
企业场景排行榜简介: 现实世界用例排行榜今天,Patronus 团队很高兴向社区发布我们与 Hugging Face 合作完成的、基于 Hugging Face 排行榜模板 构建的、新的 企业场景排行榜。本排行榜旨在评估语言模型在企业现实用例中的性能。目前已支持 6 类任务,涵盖: 金融、法律保密、创意写作、客服对话、毒性以及企业 PII。我们...
封面图

开源代码生成模型 StarCoder 2 全新上线!

3 月 5 日
阅读 2 分钟
172
BigCode 正式推出 StarCoder2 —— 一系列新一代的开放源代码大语言模型 (LLMs)。这些模型全部基于一个全新、大规模且高品质的代码数据集 The Stack v2 进行训练。我们不仅公开了所有的模型和数据集,还包括了数据处理和训练代码的详细信息,详情请参阅 相关论文。
封面图

Hugging Face 表情包来啦!

3 月 5 日
阅读 1 分钟
154
作为梦想成为第一家以表情符号上市的公司,以及在社交平台发文 emoji 不离手的 Hugging Face,正式为中国社区成员们带来了一套软萌的 Hugging Face 表情包。还等什么,快来下载跟朋友们聊起来吧!
封面图

人工智能水印技术入门:工具与技巧

2 月 28 日
阅读 4 分钟
405
近几个月来,我们看到了多起关于“深度伪造 (deepfakes)”或人工智能生成内容的新闻报道:从 泰勒·斯威夫特的图片、汤姆·汉克斯的视频 到 美国总统乔·拜登的录音。这些深度伪造内容被用于各种目的,如销售产品、未经授权操纵人物形象、钓鱼获取私人信息,甚至制作误导选民的虚假资料,它们在社交媒体平台的迅速传播,使其...
封面图

使用 Hugging Face 微调 Gemma 模型

2 月 25 日
阅读 5 分钟
490
我们最近宣布了,来自 Google Deepmind 开放权重的语言模型 Gemma现已通过 Hugging Face 面向更广泛的开源社区开放。该模型提供了两个规模的版本:20 亿和 70 亿参数,包括预训练版本和经过指令调优的版本。它在 Hugging Face 平台上提供支持,可在 Vertex Model Garden 和 Google Kubernetes Engine 中轻松部署和微调。
封面图