火山引擎还发布并开源了移动端后处理解决方案BMFlite版本。BMFlite支持端侧大模型接入和算子加速,更加轻量、通用。
该方案在充分理解传统编码技术和深度学习压缩技术各自原理的基础上,将二者有机的融合成一体。传统编码框架加入了非对称四叉树划分等创新技术,智能编码模块则引入了基于深度学习的环路滤波、自适应变采样等技术。这种结合极大提升了编解码的效率,该方案在第六届深度学习图像压缩挑战赛的高码率和低马力两个压缩赛道上均取得了主观和客观的双料指标冠军。
BMFlite具有更轻量、更通用、更高效、更前沿等特点,比如它没有第三方依赖,具有轻量化的结构设计、多平台统一的接口形式、Kernel融合方案等,支持端侧大模型接入和算子加速、算法间复用资源。
由于端侧对功耗和内存非常敏感,火山引擎重点建设基于跨平台资源复用的算法包框架设计,整体对外将采用跨平台的数据结构设计,适配安卓、iOS、Web、PC等平台,复用相同的算法实例,不同算法可复用算子及数据资源。这个方案针对点播和直播后处理的场景收益明显。
在模块算法层面,火山引擎此次开源对外输出了超分、降噪、大模型文生图算法能力,选取的模型是开源的,将在一些抖音实际落地的工程优化方案应用到模型加速中。火山引擎也同步开源了基于GPU加速的7种常用基础图像算子能力,并充分扩充了客户端的一些异构能力,包括DSP、NPU、端侧GPU。
在消费端,AIG3D方案使3D构建更便捷;大场景重建方案具有高效渲染速度,支持二次创作,可低成本生成直播布景,使场景重建更真实;6DoF直播方案提供实时3D模型渲染、低延时6DoF并能降低采集成本,让空间体验更沉浸。
例如,火山引擎通过AI生成3D内容和大场景重建方案,为山西高平二郎庙金代戏台和北京正乙祠两座珍贵的历史建筑生成了3D数字资产,并以虚拟直播间的形式应用于抖音戏曲直播场景。
李建男总结道,通过三方模型引入数据场景开放,能够实现垂类深度支持,带动线索转化率提升,从而提升营销效果,这对服务商是一个非常好的机遇,可带动服务商商业价值提升,进而带来更多精准语料,进一步驱动技术进步,实现更好的模型训练效果提升。