LLM Serving有效吞吐量的最大化实现

5 月 15 日
阅读 7 分钟
47
如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。

LLM推理入门指南③:剖析模型性能

5 月 10 日
阅读 9 分钟
55
在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理阶段和逐个生成补全词元的多步生成阶段。在上一篇文章《LLM推理入门指南②:深入解析KV Cache》中,深入探讨了KV Cache优化。

终极GPU互联技术探索:消失的内存墙

5 月 7 日
阅读 8 分钟
65
《AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。

生成式AI产业经济学:价值分配与利润结构

4 月 29 日
阅读 5 分钟
37
然而,ChatGPT爆火一年后,GenAI产业还没有形成像当前云服务产业那样的价值结构,后者的上层应用占据价值链中的大部分比例,并获取了大部分利润,基础设施软件层的利润次之,而硬件层分到的“蛋糕”最少。

LLaMA 3:大模型之战的新序幕

4 月 25 日
阅读 6 分钟
52
作者 | 符尧OneFlow编译翻译|杨婷、宛子琳、张雪聃本文要点概览:文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitHub、ArXiv等)已基本被充分利用。尽管如此,通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据,我们仍有望获得新的文本数据,但要实现数据量级的大幅提升...

OneDiff 1.0发布!生产环境稳定加速SD/SVD模型

4 月 25 日
阅读 1 分钟
35
自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户的喜爱。

Stable Diffusion XL优化终极指南

4 月 19 日
阅读 35 分钟
70
如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。

LLM推理的极限速度

4 月 18 日
阅读 6 分钟
36
本文作者Arseny Kapoulkine从零开始开发了语言大模型推理的一种实现方式calm([链接]),旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率,该项目的其中一个关键考虑因素是确定推理的极限速度,并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。

揭示GPU上的批处理策略

4 月 18 日
阅读 4 分钟
34
本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员和工程师可以更有效地利用计算资源,提高模型的推理效率。(本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。本文由OneFlow编译发布,转载...

百万用户通话新风潮:仅需50秒,无界AI让彩铃变身短视频

4 月 18 日
阅读 2 分钟
46
无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容(AIGC)平台 , 专注于人工智能大模型在图像视频领域的生成创造,为用户提供先进且丰富的AIGC工具,满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来,无界AI平台已累计超过400多万C端、B端用户。在无界AI...

Transformer模型的基础演算

2023-05-22
阅读 6 分钟
677
Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是,这些计算公式在自然语言处理(NLP)社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式,并介绍这些公式的来源和重要性。
封面图

《分布式人工智能系统》讲习班开始报名|CCF ADL

2023-05-22
阅读 6 分钟
547
深度学习正以“软件 2.0”的姿态进入到 AIGC、生物制药、新材料以及科学计算等领域。这些领域的模型规模越来越大,尤其以 ChatGPT 为代表的大模型层出不穷,但由于算力增速不足、分布式编程门槛高,分布式人工智能系统成为产学两界共同关注的焦点。
封面图

关于大型语言模型的争论和局限

2023-05-22
阅读 7 分钟
823
以色列巴伊兰大学教授Yoav Goldberg分享了他对大型语言模型的能力和局限性的看法,以及在语言理解方面的立场。(以下内容经授权后由OneFlow编译发布,译文转载请联系OneFlow获得授权。原文:[链接])
封面图

揭秘RLHF;可商用开源LLM列表;领域编译器的前世今生

2023-05-17
阅读 4 分钟
494
那么,从推动这一系列变革的科学家角度,他究竟如何看待当先ChatGPT、GPT-4模型的发展?他对AI的思考和坚定信念从何而来?OpenAI下一步研究方向是什么?他又如何看待AI对社会的影响?

复杂推理:大型语言模型的"北极星"能力

2023-05-17
阅读 8 分钟
619
最近,很多关于较小模型的研究取得了令人振奋的对话能力,这让人们想象,是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说,语言模型具有多维能力,所以模型之间的相互对比较为困难。找到正确的衡量标准对于开发强大的语言模型至关重要。在目前阶段,研究者们急切想知道什么是度量大语言模型潜力的...

为什么ChatGPT用强化学习而非监督学习?

2023-05-09
阅读 5 分钟
508
为什么ChatGPT非得用强化学习,而不直接用监督学习?原因不是那么显而易见。在上周发布的《John Schulman:通往TruthGPT之路》一文中,OpenAI联合创始人、ChatGPT主要负责人John Schulman分享了OpenAI在人类反馈的强化学习(RLHF)方面的进展,分析了监督学习和强化学习各自存在的挑战。

John Schulman:强化学习与真实性,通往TruthGPT之路

2023-05-06
阅读 12 分钟
776
OpenAI团队希望通过改进强化学习反馈步骤“原生地”阻止神经网络产生幻觉,OpenAI首席科学家Ilya Sutskever对此胸有成竹。作为ChatGPT项目的主要负责人以及OpenAI强化学习团队的领导者,John Schulman在最近的Berkeley EECS会议上系统性地分享了OpenAI在人类反馈的强化学习(RLHF)方面所做的工作,以及语言模型的幻觉等亟...

NCCL源码解析③:机器内拓扑分析

2023-04-27
阅读 21 分钟
1.1k
由于GPU机器架构是多种多样的,一台机器上可能有多个网卡,多个GPU卡,卡间连接也各不相同,因此需要对机器内设备连接拓扑进行分析,以使性能在各种拓扑结构下都尽可能好。

向量嵌入:AutoGPT的幻觉解法?

2023-04-25
阅读 5 分钟
776
“一本正经胡说八道”的幻觉问题是ChatGPT等大型语言模型(LLM)亟需解决的通病。虽然通过人类反馈的强化学习(RLHF),可以让模型对错误的输出结果进行调整,但在效率和成本上不占优势,况且仅通过RLHF并不能彻底解决问题,由此也限制了模型的实用性。

OneFlow源码解析:Eager模式下Tensor的存储管理

2023-04-19
阅读 4 分钟
525
Lazy Tensor 的存储是由 Runtime 和 Actor 等对象管理的。静态图完成编译后,需要多少个对象、多少存储空间都是确定的,Runtime 等在初始化时会分配存储,在退出时回收资源。

“ChatGPT们”的淘金时代

2023-03-31
阅读 15 分钟
716
语言(即读写能力)是人类最重要的发明,也是人类与其它物种的最大区别。语言使我们掌握了抽象推理,发展出了复杂思维,学会了与他人沟通交流。可以说,没有语言就不会有现代文明。

GPT-4创造者:第二次改变AI浪潮的方向

2023-03-27
阅读 9 分钟
864
不过,就在ChatGPT问世前,OpenAI在GPT-3发布后的两年多时间里陷入沉寂,甚至开始被人唱衰。实际上,OpenAI在这期间正在潜心打磨GPT-3.5。

OpenAI创始人:GPT-4的研究起源和构建心法

2023-03-20
阅读 9 分钟
788
三十年前,互联网(Web 1.0)时代开启。人们只能在笨重的电脑上用鼠标点击由HTML编写的网页文本,随后开始支持插入图片,可以上传视频,于是有了网络新闻、搜索、电子邮件、短信、网游......互联网带来了全新的商业模式,深刻改变了人们的生产生活。

GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

2023-03-15
阅读 4 分钟
1.4k
GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;可以接受图像作为输入并生成说明文字、分类和分析;能够处理超过 25,000 个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。

NCCL源码解析①:初始化及ncclUniqueId的产生

2023-03-15
阅读 14 分钟
648
作者|KIDGINBROOK更新|潘丽晨NCCL是英伟达开源的GPU通信库,支持集合通信和点对点通信。看下官方给的一个demo: {代码...} 在上边的示例中,rank0会执行ncclGetUniqueId获取Id,然后通过mpi广播给其他rank,接下来看下UniqueId是怎么产生的。 {代码...} 然后看下ncclInit。首先执行initEnv,设置环境变量。然后执行ini...

GPT-3/ChatGPT复现的经验教训

2023-03-06
阅读 12 分钟
589
作者:杨靖锋,现任亚马逊科学家,本科毕业于北大,硕士毕业于佐治亚理工学院,师从 Stanford 杨笛一教授。译文由杨昊桐翻译,王骁修订。感谢靳弘业对第一版稿件的建议,感谢陈三星,符尧的讨论和建议。(本文经授权后由OneFlow发布。原文:[链接])

一块GPU搞定ChatGPT;ML系统入坑指南;理解GPU底层架构

2023-02-27
阅读 4 分钟
541
在发展技术,让大模型掌握更多能力的同时,也有人在尝试降低AI所需的算力资源。最近,一种名为FlexGen的技术因为「一块RTX 3090跑ChatGPT体量模型」而获得了人们的关注。

ChatGPT背后:从0到1,OpenAI的创立之路

2023-02-21
阅读 12 分钟
542
ChatGPT一出,OpenAI名声大震,CEO Sam Altman([链接])也成为聚光灯下的C位主角,有些报道甚至开始了对他的“造神”运动。年少成名,他不到30岁就成为YC总裁,从2019年GPT-3开始,他开始主导OpenAI的运营事务,并取得了如今的非凡成就。他擅长将企业发展从1放大到1000,但自OpenAI创立到GPT-2的发布期间,但自OpenAI创立...

开源ChatGPT要来了;软件2.0智能革命;GLM、Diffusion模型大加速

2023-02-11
阅读 4 分钟
956
新年伊始,大模型的话题热度不减。ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级“物种”的推出意味着什么。

OneFlow v0.9.0正式发布

2023-01-25
阅读 3 分钟
641
今天是 OneFlow 开源的第 903 天,OneFlow v0.9.0 正式发布。本次更新包含 640 个 commit,完整更新列表请查看链接:[链接],欢迎下载体验新版本,期待你的反馈。