实时更新服务缓存

实时更新服务缓存 Apr 2, 2024 6:44:56 GMT

Quote

Post by account_disabled on Apr 2, 2024 6:44:56 GMT

下面是图中的原始数据以及图和表中每分钟的最终令牌估计值。图显示了模型的输出时间如何随着输入变化而变化。请注意每个令牌的时间在这些尺度上保持大致恒定。图和下表显示了模型推理速度如何根据其大小而变化。误差线是的置信区间。型号名称每分钟令牌数。人工智能因此接近每分钟个令牌的人类价值而大约快三倍。较小的模型速度要快一个数量级这表明速度可能更高而且未来较大的模型可能会更慢不考虑更好的硬件和优化。实际上随着模型大小的增加速度会呈次线性减慢在模型中将大小增加倍会使推理速度降低大约倍。

未来型号的将如何变化在加速和减速方向上都有推动因素运行大型模型的成本更高特别是当它们具有更多层时更大的宽度可以通过并行化 阿曼数据 来补偿但更大的深度则不能。输出一般会进行更多优化例如早期输出不频繁关注在许多上并行化。或者更好的硬件。这里有很大的回旋余地特别是最后两个参见下面的讨论。人们有强烈的动机让模型足够快以易于使用即比人类阅读速度更快。经过十多个小时查看大量有关模型大小架构等的数据后我总体上得出的结论是我完全不确定模型增长和优化的相反趋势将如何关联。

我的中值估计是我们的模型将明显比人类快倍但我不会对慢倍到快倍之间的任何事情感到惊讶。重要的是这些速度仅在我们需要最大吞吐量时才适用。如果我们愿意牺牲它那么通过将其减少倍对于相当大的值我们可以将输出速度加快倍。因此如果默认模型仅比人类快倍那么它们可以比人类快倍以换取吞吐量减少倍而这还不是限制。最后远离原始速度每分钟单词数并不是人与语言模型之间完全平等的比较。对于初学者来说语言模型不仅会思考还会编写并且在某些情况下编写人类写得慢得多的东西例如带有源链接的代码或参数。

CoC Langer

实时更新服务缓存

Post by account_disabled on Apr 2, 2024 6:44:56 GMT

Quick Reply