百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

语义图像分割 解密谷歌DeepLab-v3+

bigegpt 2025-05-08 16:52 4 浏览

谷歌的的语义图像分割(Semantic Image Segmentation)模型DeepLab-v3+已开源,而这一技术在Google Pixel 2和2XL手机(包括后续型号)上也得到应用。这项技术可以实现对图像或视频的背景分割,给图像和视频处理APP带来极大便利。今天就让我们来聊聊什么是语义图像分割,以及它的实现原理。

视频抠像,了解谷歌DeepLab-v3+技术

说到抠图,很多朋友想到的是PhotoShop,确实借助PS我们可以精确将人像从复杂的背景图中抠出来。但是如果要将人像从视频画面中“抠”出来,估计很多朋友就没听说过这项技术了。

PS抠图是对静态的照片进行前后景的分离,DeepLab-v3+技术则是对视频抠像,当然也可以对照片进行实时处理。比如之前某视频巨头网站测试的抠像技术(即时去背景),以及Google Pixel 2和Pixel 2XL手机的肖像功能,拍摄照片后可以获得类似单反相机的景深效果。这些技术背后的工程就是DeepLab-v3+技术(图1)。



图1 配备DeepLab-v3+技术的Pixel 2 XL手机

抠像技术的背后,认识谷歌DeepLab-v3+技术原理

如上所述,DeepLab-v3+技术最大的特色就是可以抠像。那么这个抠像的功能是怎样实现的呢?

我们先来简单了解一下PS抠图技术,PS抠图是借助PS组件将照片前景和后景精确区分出来,然后通过提取前景的方法实现抠图(图2)。不过PS的精确抠图显然不是一般人都能胜任,它需要用户长时间学习和精细操作才能完成。DeepLab-v3+的抠像原理与之类似,不过这个学习的过程则是通过人工智能技术完成,作为终端用户则只要按部就班地使用即可。



图2 PS抠图需要长时间学习

那么DeepLab-v3+是在怎么实现这种效果?这主要得益于日渐发展的人工智能技术。首先谷歌会建立DeepLab 模型,通过机器来识别大量的照片和视频,借助改进的卷积神经网络特征萃取器、物体比例塑造模型以及同化前后内容的技术,再加上先进的模型训练过程。这样通过大量的样本学习和训练,同时借助人工智能的自我学习,DeepLab-v3技术可以对图像或者视频画面中的前后景物体进行精确的识别,从而生成一套独特的算法。现在DeepLab-v3+ 在 Tensorflow 上进行,使用部署于服务器端的卷积神经网络(CNN)骨干架构,可以让该技术有更高效处理速度和更精准的识别精度,能够快速对照片或者视频中的各种元素进行精确识别(图3)。



图3 DeepLab-v3技术原理图解

这里以Pixel 2XL人像模式中的合成浅层景深效果为例,在Pixel 2XL手机启用人像模式后,集成DeepLab-v3+处理后台会自动根据照片背后景色进行分析,比如路、天空、树木、人或是狗等物体进行识别,同时为每个像素指定语义标签。这样算法可以根据照片实际环境里显示效果,对指定的语义标签进行处理,比如对人物背后的景物进行模糊处理,从而可以获得类似单反相机的景深效果(图4)。



图4 Pixel 2XL手机启用人像模式后的拍摄效果

对于视频抠像处理类似,在视频画面中,DeepLab-v3+同样会对视频中前后景的元素进行分析,同样为每个像素指定语义标签。借助服务器端的卷积神经网络就可以实现对视频前景人物的精确识别,从而实现视频抠像功能,抠出的活动人物可以叠加到其他视频场景中,从而做出类似绿幕MR特效的影片(图5)。



图5 视频抠图

DeepLab-v3+,接地气的抠像技术

上面我们介绍了DeepLab-v3+技术原理,可以看到这项技术并不像技术本身名称那样“高高在上”,它在我们生活中都有很多的应用。

比如随着手机普及和摄像头分辨率提高,人们越来越希望手机能够拍摄出更高质量,更真实还原实际环境的照片来。但是受限于手机本身的超薄尺寸,仅仅通过手机摄像头本身是无法拍出类似单反相机那样效果的图片(因为手机没有足够景深)。不过随着技术的发展,类似DeepLab-v3+技术借助人工智能,使用机器学习来分离主题,结合定制的深度数据,使得手机也可以拍出类似单反效果的照片,显然会给我们日常拍摄带来更多的便利(图6)。



图6 通过DeepLab-v3+技术模糊照片背景获得单反效果

另一方面,现在短视频流行,也使得越来越多朋友喜欢在手机上欣赏和处理视频数据。DeepLab-v3+支持的抠像技术则可以很好满足大家在手机上对视频的处理,比如借助DeepLab-v3+可以很轻松将自己抠出来,叠加不同视频背景,制作各种有趣的视频。当然该技术在电影特效方面有更多的用处,制作者可以制作出更多特效的影片效果来。

相关推荐

得物可观测平台架构升级:基于GreptimeDB的全新监控体系实践

一、摘要在前端可观测分析场景中,需要实时观测并处理多地、多环境的运行情况,以保障Web应用和移动端的可用性与性能。传统方案往往依赖代理Agent→消息队列→流计算引擎→OLAP存储...

warm-flow新春版:网关直连和流程图重构

本期主要解决了网关直连和流程图重构,可以自此之后可支持各种复杂的网关混合、多网关直连使用。-新增Ruoyi-Vue-Plus优秀开源集成案例更新日志[feat]导入、导出和保存等新增json格式支持...

扣子空间体验报告

在数字化时代,智能工具的应用正不断拓展到我们工作和生活的各个角落。从任务规划到项目执行,再到任务管理,作者深入探讨了这款工具在不同场景下的表现和潜力。通过具体的应用实例,文章展示了扣子空间如何帮助用户...

spider-flow:开源的可视化方式定义爬虫方案

spider-flow简介spider-flow是一个爬虫平台,以可视化推拽方式定义爬取流程,无需代码即可实现一个爬虫服务。spider-flow特性支持css选择器、正则提取支持JSON/XML格式...

solon-flow 你好世界!

solon-flow是一个基础级的流处理引擎(可用于业务规则、决策处理、计算编排、流程审批等......)。提供有“开放式”驱动定制支持,像jdbc有mysql或pgsql等驱动,可...

新一代开源爬虫平台:SpiderFlow

SpiderFlow:新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。-精选真开源,释放新价值。概览Spider-Flow是一个开源的、面向所有用户的Web端爬虫构建平台,它使用Ja...

通过 SQL 训练机器学习模型的引擎

关注薪资待遇的同学应该知道,机器学习相关的岗位工资普遍偏高啊。同时随着各种通用机器学习框架的出现,机器学习的门槛也在逐渐降低,训练一个简单的机器学习模型变得不那么难。但是不得不承认对于一些数据相关的工...

鼠须管输入法rime for Mac

鼠须管输入法forMac是一款十分新颖的跨平台输入法软件,全名是中州韵输入法引擎,鼠须管输入法mac版不仅仅是一个输入法,而是一个输入法算法框架。Rime的基础架构十分精良,一套算法支持了拼音、...

Go语言 1.20 版本正式发布:新版详细介绍

Go1.20简介最新的Go版本1.20在Go1.19发布六个月后发布。它的大部分更改都在工具链、运行时和库的实现中。一如既往,该版本保持了Go1的兼容性承诺。我们期望几乎所...

iOS 10平台SpriteKit新特性之Tile Maps(上)

简介苹果公司在WWDC2016大会上向人们展示了一大批新的好东西。其中之一就是SpriteKitTileEditor。这款工具易于上手,而且看起来速度特别快。在本教程中,你将了解关于TileE...

程序员简历例句—范例Java、Python、C++模板

个人简介通用简介:有良好的代码风格,通过添加注释提高代码可读性,注重代码质量,研读过XXX,XXX等多个开源项目源码从而学习增强代码的健壮性与扩展性。具备良好的代码编程习惯及文档编写能力,参与多个高...

Telerik UI for iOS Q3 2015正式发布

近日,TelerikUIforiOS正式发布了Q32015。新版本新增对XCode7、Swift2.0和iOS9的支持,同时还新增了对数轴、不连续的日期时间轴等;改进TKDataPoin...

ios使用ijkplayer+nginx进行视频直播

上两节,我们讲到使用nginx和ngixn的rtmp模块搭建直播的服务器,接着我们讲解了在Android使用ijkplayer来作为我们的视频直播播放器,整个过程中,需要注意的就是ijlplayer编...

IOS技术分享|iOS快速生成开发文档(一)

前言对于开发人员而言,文档的作用不言而喻。文档不仅可以提高软件开发效率,还能便于以后的软件开发、使用和维护。本文主要讲述Objective-C快速生成开发文档工具appledoc。简介apple...

macOS下配置VS Code C++开发环境

本文介绍在苹果macOS操作系统下,配置VisualStudioCode的C/C++开发环境的过程,本环境使用Clang/LLVM编译器和调试器。一、前置条件本文默认前置条件是,您的开发设备已...