计算机系统应用教程网站

网站首页 > 技术文章 正文

京东利用BigDL构建大规模图像特征提取

btikc 2024-09-17 13:13:09 技术文章 18 ℃ 0 评论

京东利用BigDL构建大规模图像特征提取。

英特尔和京东团队在ApacheSpark和BigDL上使用深度学习构建大规模图像特征提取。在采用BigDL之前,京东团队非常努力地在多图形处理单元(GPU)服务器和GPU集群设置上构建特征提取应用程序。但是方案存在许多缺点:

·1、GPU集群中资源管理和分配非常复杂且容易出错。

·2、在多GPU服务器中,开发人员需要投入大量精力来手动管理数据分区、任务均衡、容错等。

·3、基于GPU解决方案的应用程序具有许多依赖项,例如CUDA,这大大增加了生产部署和运营的复杂性。例如人们经常需要为不同版本的操作系统或不同版本的GNU编译器集合(GCC)重建整个环境。因此在构建GPU应用程序管道时存在许多体系结构和技术挑战。

BigDL是英特尔的开源分布式深度学习框架,在ApacheSpark上提供全面的深度学习算法支持。BigDL建立在高度可扩展的ApacheSpark平台上,可以轻松扩展到数百或数千台服务器。此外BigDL使用英特尔数学核心函数库(英特尔MKL)和并行计算技术,在基于英特尔至强处理器的服务器上实现极高的性能(与主流GPU性能相当)。

BigDL方案在ApacheSpark和BigDL中构建了端到端的图像特征提取管道如下:

·1、从Spark中的分布式数据库中读取数亿张图片作为弹性分布式数据集(RDD)。

·2、在Spark中预处理图像的RDD(包括调整大小、规范化和批处理)。

·3、使用BigDL加载SSD模型,以便在Spark上进行大规模分布式对象检测,这将为图像中检测到的对象生成坐标和分数。

·4、以得分最高的对象为目标,根据对象坐标裁剪原始图片,得到目标图片。

·5、预处理目标镜像的RDD(包括调整大小和批处理)。

·6、使用BigDL加载DeepBit模型,在Spark上对目标图像进行分布式特征提取,生成相应的特征。

·7、将结果(提取的对象特征的RDD)存储在Hadoop分布式文件系统(HDFS)中。

喜欢就请关注哦!百家号。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表