和亚利桑那州立大学的研究人员提出,可以设计一个这样的预测模型:用实时运行环境作为输入,使其预测出AI工具适合的运行位置,达到高能效、低时延、高性能的目的。
采用一种轻量级的强化学习技术进行持续学习,可以捕捉和适应随机的环境变化。在运行过程中,AutoScale会观察和收集神经网络的层特征、Wi-Fi信号稳定性、处理器利用率等信息,并据此作出使DNN能效、性能最大化的决策。
Wi-Fi把三款手机连接到服务器。通过Wi-Fi Direct(一种点对点无线网络),三款手机与一台三星Galaxy Tab S6平板电脑连接,用于模拟本地执行(local execution)。用功率计测量智能手机的能效。
AutoScale进行了100次推理训练:使用64000个训练样本;编译或生成10个AI模型,其中包括谷歌机器翻译工具MobileBERT和图像分类器Inception。
、一个non-streaming计算机视觉测试场景,AutoScale模型对手机摄像头拍摄照片功能进行推理;
、一个streaming计算机视觉场景,AutoScale模型对手机摄像头实时拍摄视频功能进行推理;
AutoScale模型的表现都优于基线模型。AutoScale模型的延迟也较低,在non-streaming计算机视觉测试场景中的延迟时间小于50毫秒,在翻译场景中的延迟时间小于100毫秒。同时,AutoScale模型保持了较高的性能,在streaming计算机视觉场景中,每秒可以处理约30帧画面。
AutoScale模型的预测准确率达到了97.9%,其边缘推理的能效可达到基线倍。AutoScale模型占用的内存也较小,仅需0.4MB
是一个可行的解决方案,可以通过DNN实现边缘推理。在未来,AutoScale或可用更好地执行边缘推理任务。”文章来源:VentureBeat,

