百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

强化NPU与异构计算优势 高通开启终端侧生成式AI新体验

bigegpt 2024-08-03 11:27 4 浏览

生成式AI时代已经到了,在手机、PC以及电动汽车上,我们都能看到生成式AI技术的应用,高通全新推出的第三代骁龙8移动平台以及骁龙X Elite平台都更加强调AI的性能与表现。

日前,泡泡网参加了与高通技术公司产品管理高级副总裁 Ziad Asghar的交流活动,期间Ziad Asghar详细介绍了高通在AI方面的优势。

异构计算带来更优秀的生成式AI体验

生成式AI的多样化要求也带来了计算的多样性,无法通过单一的处理器实现,因此异构计算架构成为新的选择,异构计算架构可以发挥多个处理器的优势,CPU擅长顺序控制和即时性,GPU适合并行数据流处理,NPU擅长标量、向量和张量数学运算,可用于核心AI工作负载。

异构计算能够实现更好的应用性能、能效和电池续航,以最大化发挥生成式AI终端用户体验。

针对异构计算架构,高通打造了高通AI引擎,高通Hexagon NPU、高通Adreno GPU、高通Kryo或高通Oryon CPU、高通传感器中枢和内存子系统。高通AI引擎可以跨所有的处理器组件进行选择,从而更好的发挥产品性能表现。

高通AI引擎中,Adreno GPU是高通自主打造,其拥有业界领先的每瓦特性能。Hexagon NPU也有强大的差异化优势和业界领先的AI处理能力。

于此同时,内存的重要性同样不可忽略,在生成式AI用例中,芯片需要通过内存读取大模型并进行处理。第三代骁龙8等高通产品已经支持业界最为领先的LPDDR5x内存,频率高达4.8GHz,能够支持以非常高速的芯片内存读取速度运行百川、Llama 2等大语言模型,实现非常快的token生成速率,带来领先的用户体验。

在具体工作方面,CPU擅长顺序控制,非常适用于需要低时延的应用场景,CPU也适用于相对较小的传统模型,如卷积神经网络模型(CNN),或一些特定的大语言模型(LLM)。而GPU主要擅长面向高精度格式的并行处理,比如对画质要求非常高的图像以及视频处理。

在AI计算当中,NPU扮演了更重要的角色,高通打造的NPU则具备了行业领先的每瓦特性能,特别是在持续型用例中,需要以低功耗实现持续稳定的高峰值性能,NPU可以发挥其最大优势。在基于LLM和大视觉模型(LVM)的不同用例,例如Stable Diffusion或其他扩散模型中,NPU的每瓦特性能表现十分出色。

此外,高通传感器中枢能够以极低功耗运行始终开启的用例。通过将低功耗AI能力集成到芯片子系统中,芯片能够获取大量终端侧的情境信息,为用户带来个性化的生成式AI体验。这也是终端侧AI的优势之一,传感器中枢获取的信息都会被保留在终端上,不会上传云端,既可以针对用户带来个性化的生成式AI体验,同时也确保和用户相关的信息安全。

Hexagon NPU带来领先的大预言模型处理能力

早在2015年,高通就推出了第—代AI引擎,其中NPU集成了标量和向量运算扩展主要面向包括音频和语音处理的卷积神经网络模型(Convolutional Neural Network,CNN)和长短期记忆网络模型(Long Short-Term Memory,LSTM),以便为用户带来优秀的音频/语音体验。

在随后的2016-2022年之间,高通进步增强NPU的能力,在NPU中增加了张量运算核心(Tensor Core),并引入Transformer层处理,让NPU参与到更多的应用场景当中。在音频及语音的基础上,增加了增强影像的能力,例如暗光拍照、去除噪点以及多帧处理技术的支持。

2023年。NPU的能力得到的大幅加强,高通在NPU中增加了Transformer支持,以更好地处理基于Transformer的模型,让Hexagon NPU实现了对LLM和LVM的支持,高通也认为,Transformer架构将继续在即将推出的许多新模型当中延用。

Hexagon NPU可以实现在终端侧运行高达100亿参数的模型,无论是首个token的生成速度还是每秒生成token的速率都处在业界领先水平。高通还引入了微切片推理技术,增加了能够支持所有引擎组件的大共享内存,以实现领先的LLM处理能力。

在Hexagon NPU的帮助下,第三代骁龙8移动平台的AI能力得到了进一步的加强,在MWC2024期间,高通展示了在第三代骁龙8移动平台上运行的首个大语言和视觉助理大模型(LLaVA),其能够基于图像输入解答用户的相关问题。

同时,基于骁龙X Elite,高通也展示了全球首个在终端侧运行的超过70亿参数的大型多模态语言模型(LMM),可接受文本和音频输入(如音乐、交通环境音频等),并基于音频内容生成多轮对话。

在具体性能表现方面,第三代骁龙8和三款Android以及iOS平台竞品的对比。在鲁大师AIMark V4.3基准测试中,第三代骁龙8的总分分别为竞品B的5.7倍和竞品C的7.9倍。在安兔兔AITuTu基准测试中,第三代骁龙8的总分是竞品B的6.3倍。在MLCommon MLPerf推理的不同子项中,例如图像分类、语言理解以及超级分辨率等,表现都保持领先。

PC端AI性能方面,将骁龙X Elite与其他X86架构竞品进行比较,在面向Windows的UL Procyon AI推理基准测试中,骁龙X Elite在ResNet-50、DeeplabV3等测试中都保持着大幅领先,且基准测试总分分别为X86架构竞品A的3.4倍和竞品B的8.6倍。

得益于强大的AI能力,在PC上无论是运行Microsoft Copilot,还是文档摘要、文档撰写等生成式AI应用,骁龙X Elite都能够为用户提供与其它解决方案相比更为出色的体验。

推动AI发展 为开发者提供便利

AI行业的发展离不开开发者的支持,为了能够帮助开发者更好的打造AI相关的应用程序,高通也提供了完善的开发工具,打造了高通AI软件栈(Qualcomm AI Stack)。

高通AI软件栈支持目前所有的主流AI框架,包括TensorFlow、PyTorch、ONNX、Keras;它还支持所有主流的AI runtime,包括DirectML、TFLite、ONNX Runtime、ExecuTorch,以及支持不同的编译器、数学库等AI工具。

基于高通AI软件栈,开发者可以通过一次开发将软件运用到从智能手机到PC、物联网终端、汽车等等高通所有不同的产品线中,提升了开发的效率。

同时,高通在MWC 2024期间也推出了全新的高通AI HUB,这是为开发者打造的获取开发资源的中心,开发者可以基于骁龙或者高通平台打造AI应用。高通AI Hub为开发者提供全面优化的AI模型库,包括传统AI模型和生成式AI模型,能够支持在骁龙和高通平台上进行部署。

在使用高通AI Hub时,开发者可以选择所需的大模型,高通AI Hub将支持超过75个AI模型,包括传统AI模型和生成式AI模型。例如Baichuan-7B,然后可以选择开发应用所使用的框架,例如例如Pytorch、Tensorflow。下一步开发者可以选择对应的目标平台,可以时某一款手机,也可以是特定型号的高通平台。确定以上信息后,高通AI Hub就可以为开发者提供面向其指定应用、指定平台进行优化的模型。开发者只需要几行代码就可以获取模型,并将模型集成进应用程序。

最后

高通技术公司产品管理高级副总裁 Ziad Asghar提到,随着生成式AI用例的扩展,模型规模越来越大,用户规模也会不断增加,云端处理的成本问题会限制生成式AI的发展。而在终端侧运行AI模型则有巨大的成本优势。

终端侧AI还具备重要的可持续性优势。大规模用户访问云端模型将产生大量的能耗。在云端运行这些AI模型,GPU功耗能够达到上百瓦,此外还需要大量水资源进行散热。而在终端侧运行大模型有显著的能效优势。

目前高通的技术能够支持在终端侧以更高效的方式运行AI模型,真正将这些出色的用例带给消费者。

相关推荐

得物可观测平台架构升级:基于GreptimeDB的全新监控体系实践

一、摘要在前端可观测分析场景中,需要实时观测并处理多地、多环境的运行情况,以保障Web应用和移动端的可用性与性能。传统方案往往依赖代理Agent→消息队列→流计算引擎→OLAP存储...

warm-flow新春版:网关直连和流程图重构

本期主要解决了网关直连和流程图重构,可以自此之后可支持各种复杂的网关混合、多网关直连使用。-新增Ruoyi-Vue-Plus优秀开源集成案例更新日志[feat]导入、导出和保存等新增json格式支持...

扣子空间体验报告

在数字化时代,智能工具的应用正不断拓展到我们工作和生活的各个角落。从任务规划到项目执行,再到任务管理,作者深入探讨了这款工具在不同场景下的表现和潜力。通过具体的应用实例,文章展示了扣子空间如何帮助用户...

spider-flow:开源的可视化方式定义爬虫方案

spider-flow简介spider-flow是一个爬虫平台,以可视化推拽方式定义爬取流程,无需代码即可实现一个爬虫服务。spider-flow特性支持css选择器、正则提取支持JSON/XML格式...

solon-flow 你好世界!

solon-flow是一个基础级的流处理引擎(可用于业务规则、决策处理、计算编排、流程审批等......)。提供有“开放式”驱动定制支持,像jdbc有mysql或pgsql等驱动,可...

新一代开源爬虫平台:SpiderFlow

SpiderFlow:新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。-精选真开源,释放新价值。概览Spider-Flow是一个开源的、面向所有用户的Web端爬虫构建平台,它使用Ja...

通过 SQL 训练机器学习模型的引擎

关注薪资待遇的同学应该知道,机器学习相关的岗位工资普遍偏高啊。同时随着各种通用机器学习框架的出现,机器学习的门槛也在逐渐降低,训练一个简单的机器学习模型变得不那么难。但是不得不承认对于一些数据相关的工...

鼠须管输入法rime for Mac

鼠须管输入法forMac是一款十分新颖的跨平台输入法软件,全名是中州韵输入法引擎,鼠须管输入法mac版不仅仅是一个输入法,而是一个输入法算法框架。Rime的基础架构十分精良,一套算法支持了拼音、...

Go语言 1.20 版本正式发布:新版详细介绍

Go1.20简介最新的Go版本1.20在Go1.19发布六个月后发布。它的大部分更改都在工具链、运行时和库的实现中。一如既往,该版本保持了Go1的兼容性承诺。我们期望几乎所...

iOS 10平台SpriteKit新特性之Tile Maps(上)

简介苹果公司在WWDC2016大会上向人们展示了一大批新的好东西。其中之一就是SpriteKitTileEditor。这款工具易于上手,而且看起来速度特别快。在本教程中,你将了解关于TileE...

程序员简历例句—范例Java、Python、C++模板

个人简介通用简介:有良好的代码风格,通过添加注释提高代码可读性,注重代码质量,研读过XXX,XXX等多个开源项目源码从而学习增强代码的健壮性与扩展性。具备良好的代码编程习惯及文档编写能力,参与多个高...

Telerik UI for iOS Q3 2015正式发布

近日,TelerikUIforiOS正式发布了Q32015。新版本新增对XCode7、Swift2.0和iOS9的支持,同时还新增了对数轴、不连续的日期时间轴等;改进TKDataPoin...

ios使用ijkplayer+nginx进行视频直播

上两节,我们讲到使用nginx和ngixn的rtmp模块搭建直播的服务器,接着我们讲解了在Android使用ijkplayer来作为我们的视频直播播放器,整个过程中,需要注意的就是ijlplayer编...

IOS技术分享|iOS快速生成开发文档(一)

前言对于开发人员而言,文档的作用不言而喻。文档不仅可以提高软件开发效率,还能便于以后的软件开发、使用和维护。本文主要讲述Objective-C快速生成开发文档工具appledoc。简介apple...

macOS下配置VS Code C++开发环境

本文介绍在苹果macOS操作系统下,配置VisualStudioCode的C/C++开发环境的过程,本环境使用Clang/LLVM编译器和调试器。一、前置条件本文默认前置条件是,您的开发设备已...