快捷搜索:  

不依赖token,字节级模子来了,直接统治二进制数据

"不依赖token,字节级模子来了,直接统治二进制数据,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作不依赖token,字节级模型来了,直接处理二进制数据量子位·2024-03-11 16:17关注预测下一个byte

最新GPT,不预测token了。

微软亚研院等发布bGPT,仍旧基于Transformer,但是模型预测的是下一个字节(byte)。

通过直接处理原生二进制数据,bGPT将所有输入内容都视为字节序列,从而可以不受限于任何特定的格式可能任务。

能预测CPU行为,准确率超过99.99%;还能直接模拟MIDI——一种音乐(Music)传输和存储的标准格式。

研究团队认为,传统的深度学习往往忽视了字节——数字世界的构建基石。

不论是信息的形式还是操作,都是通过二进制格式编码和处理的。字节构成了所有数据、设备和软件的基础,从计算机处理器到我们(We)日常使用的电子产品中的操作系统。

这篇论文的标题清晰地指出了其目标:

超越语言模型:将字节模型作为数字世界的模拟器。

模拟CPU行为准确率超99.99%

bGPT通过字节级处理,不仅能够应用于常规的AI生成和理解任务,还能处理更多非传统应用。

例如,它能够直接模拟MIDI——一种音乐(Music)传输和存储的标准格式,之前的研究由于MIDI的二进制本质而避免了直接对这类数据的建模。

但bGPT天生适合此类任务。它能够准确模拟符号音乐(Music)数据转换算法,在将ABC记谱法转换为MIDI格式时,达到极低的错误率(0.0011 BPB)。

在模拟CPU行为方面,bGPT展现出超过99.99%的准确率。这些实验显示了bGPT在处理原生二进制数据方面的强大能力和可扩展性。

bGPT还展示了在处理诸如文本、图像和音频传统媒体文件的生成/分类任务上的潜力,而且不需要任何针对特定模态的定制。

研究团队训练了一个大约有100M参数的bGPT,根据论文中的实验结果(Result),bGPT可以与同样规模的文本模型(GPT-2)、视觉模型(ViT)和音频模型(AST)在各自的模态下有着可比的性能。

字节到块策略:拓展序列建模长度

在处理数字数据时,bGPT代表了一次重要的进步。

因为字节的粒度非常细,处理的字节序列通常较长,这对基于Transformer的传统模型来说是一个挑战。由于自注意机制的复杂度是二次方的,处理长序列的效率和可扩展性受到了限制。

bGPT的研发团队此前在音乐(Music)AI领域推出了CLaMP项目,并因此在ISMIR 2023上获得了最佳学生(Students)论文奖。

基于这项成果,bGPT采取了一种“字节到块(patch)”的转化方法。这个方法不仅极大提升了数据处理效率,还让长序列数据的处理和扩展变得更加简便。

bGPT包含三个关键组成部分:

线性投影层:通过线性投影将每个字节块转化为密集向量表示,既保留了关键信息,又降低了维度。

块级解码器:顺序处理块的embeddings以预测下一个块的特征,使用自回归机制学习字节序列的整体结构。

字节级解码器:根据块级解码器的预测特征来预测每个块内的字节序列,这一过程独立于每个块进行(Carry Out),依据当前块的特征表示。

bGPT提供了一种有前景的解决方案来应对传统模型在处理字节级数据时面临的挑战,显著提高了处理大规模数字数据序列的效率和可扩展性。

拓宽边界:bGPT与将来数字世界的无限潜力

尽管bGPT展现出巨大的潜力,但其也存在一定的局限性和改进空间。

目前(Currently),bGPT只能处理不超过8KB的数据序列,对于需要生成大量数据的现代应用来说,这一容量显然不够。这一局限主要由于训练和部署这类模型需要巨大的计算资源需求。

为了推进bGPT的实用性和适用范围,将来的研究将专注于开发更高效的算法和利用(Use)硬件进步以降低计算成本,使bGPT能够更加经济(Economy)高效地处理更大规模的数据序列,从而拓宽其应用前景。

在探讨字节模型将来的话题中,来自世界各地的网友们已经提出了一系列脑洞。

他们(They)探讨了在裸机上运行纯粹的神经网站,以取代操作系统执行命令的前景,可能者利用(Use)网站修剪和自我学习来优化连接,使得超大规模网站具备自我重构的能力。

虽然达成这些目标需要时间,但bGPT有望达成将所有数据以字节形式输入,通过超大规模自我重构网站处理后再以字节形式输出的终极目标。

可能许,在探索bGPT能力的边界时,想象力才是唯一的限制。

长期来看,bGPT展示的字节模型在推动人工智能进步方面展现了两大巨大潜能。

首先,它有望达成一个统一模型,将计算机中的所有数据整合起来,为达成真正的通用人工智能(AGI)迈出关键一步。

其次,bGPT推动了将AI作为操作系统(LLM OS)的概念,即利用(Use)这种字节模型作为核心,直接与文件、软件及底层硬件数据进行(Carry Out)深度交互。

这不仅与Andrej Karpathy的AI愿景不谋而合,更重要的是,它开启了使用AI模拟数字世界各种层面的可能性——从精确模拟CPU操作到系统级软件的行为模拟,bGPT的能力远超传统界限。通过这种方式,bGPT有望成为数字世界的全面模拟器,探索和理解从基础硬件到复杂系统级软件操作的每一个角落。

单凭对计算机文本数据的深入建模,我们(We)已经见证了ChatGPT如何引发社会(Society)的广泛关注。

然而,文本数据在数字世界中海量数据的宏观图景里,不过只是冰山一角而已。想象一下,如果我们(We)能够利用(Use)计算机中存储的所有形式的数据——无论是文本、图像、音频,还包括更复杂的二进制数据,乃至软件、操作系统和硬件本身的信息——来训练模型,能否创造出一个更加深入理解和精确模拟数字世界各个层面的模型?

bGPT的代码和模型已开源,如果你对探索字节级模型感兴趣,可以尝试在自己的数据集上使用bGPT进行(Carry Out)训练,大胆探索它的潜能。

论文:https://arxiv.org/abs/2402.19155

代码:https://github.com/sanderwood/bgpt

模型:https://huggingface.co/sander-wood/bgpt

项目主页:https://byte-gpt.github.io

本文来自微信公众号“量子位”(ID:QbitAI),作者:数字游民 ,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+119

好文章,需要你的鼓励

量子位特邀作者2收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章目标3-6个月赶超Sora,「爱诗科技(Technology)」获达晨亿级A1轮融资 | 36氪首发特斯拉、英伟达投身其中,人形机器人能借AI风口起飞吗?李彦宏“程序员将不再存在”言论被周鸿祎驳斥,网友怒怼:先把百度程序员都开除了华人CV宗师黄煦涛高徒离职特斯拉,加入OpenAI,专攻多模态模型研究傅盛打入“晋级赛”Meta 首席科学家 Yann LeCun:AI 毁灭人类的概率为零对话:理解Sora,复现Sora奥特曼老黄齐预测:AGI五年内降临,代替95%工作,但马斯克断言AGI将被电力卡脖子前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作最新文章推荐目标3-6个月赶超Sora,「爱诗科技(Technology)」获达晨亿级A1轮融资 | 36氪首发哪吒汽车(Car):销量不多,“谣言”不少特斯拉、英伟达投身其中,人形机器人能借AI风口起飞吗?奥乐齐将来五年开800家新店;Gap扭亏为盈;711回复门店停售农夫山泉 | 品牌日报(Daily)3年前喝的“西北风”,今天(Today)变成了巧克力棒快递新规“冲击波”,为何打不通“最后一公里”?刚刚,李想发声:MEGA遭遇有组织抹黑,余承东何小鹏力挺读懂马斯克下云,就读懂私有云为什么崛起?李彦宏“程序员将不再存在”言论被周鸿祎驳斥,网友怒怼:先把百度程序员都开除了用Vision Pro实时训练机器狗,MIT博士生开源项目火了量子位特邀作者

作者有点忙,还没写简介

发表文章2084篇最近内容用Vision Pro实时训练机器狗,MIT博士生开源项目火了59分钟前不依赖token,字节级模型来了,直接处理二进制数据1小时前Pika放大招:今天(Today)起,视频和音效可以“一锅出”了昨天(Yesterday)阅读更多内容,狠戳这里下一篇3000亿PE,要设祖国办公室了

投向亚洲。

1小时前

热门标签唐晓敏环保行业熟人社会(Society)实时渲染基础体温测定嘉义融资成本张进运动器材房价收入比房价泡沫ktv加盟祖国nextnext王玮达内胡健qq音速mems传感器番剧金坷垃孙琦淘宝头条edc私募证券投资基金华尔街见闻招聘广告常温奶巴氏奶赵杰关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

不依赖token,字节级模型来了,直接处理二进制数据

您可能还会对下面的文章感兴趣:

赞(213) 踩(78) 阅读数(3779) 最新评论 查看所有评论
加载中......
发表评论