Learning-based Practical Smartphone Eavesdropping with Built-in Accelerometer综述
- 取得連結
- X
- 以電子郵件傳送
- 其他應用程式
一、选取文献及其理由
**
1.1选取文献
Zhongjie Ba,Tianhang Zheng,Xinyu Zhang,Zhan Qin,Baochun Li,Xue Liu,Kui Ren. Learning-based Practical Smartphone Eavesdropping with Built-in Accelerometer, Network and Distributed System Security Symposium, January 2020 (DOI 10.14722/ndss.2020.24076) CCF推荐B类会议论文
1.2 文献方向及选取理由
该片文献的研究方向为基于Android系统内置运动传感器的边信道攻击。我选取本文作为综述文献的理由有以下几点:
1、随着智能手机的不断普及,安卓系统已经大量存在于世,作为操作系统中一重要分支存在。同时,由于其功能日益强大,人们现代生活对其依赖度日益加大,这也提供了大量攻击者感兴趣的隐私信息遗留。在这中间,语音信息无疑最为重要的隐私信息之一,如果语音信息(如智能导航,电话会议等)遭到窃取,会给攻击者带来巨大价值。而在此同时,麦克风/摄像机权限也是安卓系统中最为重要,安全等级最高的权限。但是,通过该文中的方法,可以绕过对麦克风的调用而窃取语音信息。
2、边信道攻击是一种难以察觉的攻击方式。与隐藏通道类似,边信道攻击同样没有违反任何安全规则,并成功窃取保密信息。这种攻击存在的原因是操作系统中程序的运行会产生不同的状态结果,这些状态信息可以被无权限/低权限实体读取,并由此获取重要信息,破环文件的保密性。
3、随着机器学习技术的快速发展,对于侧信道泄露信息的恢复和推断变得更加便捷和准确,这会导致未来操作系统安全变得更加困难。
综上,基于以上三点原因,我认为该篇文章具有一定研究价值,故选取其为综述文献
1、随着智能手机的不断普及,安卓系统已经大量存在于世,作为操作系统中一重要分支存在。同时,由于其功能日益强大,人们现代生活对其依赖度日益加大,这也提供了大量攻击者感兴趣的隐私信息遗留。在这中间,语音信息无疑最为重要的隐私信息之一,如果语音信息(如智能导航,电话会议等)遭到窃取,会给攻击者带来巨大价值。而在此同时,麦克风/摄像机权限也是安卓系统中最为重要,安全等级最高的权限。但是,通过该文中的方法,可以绕过对麦克风的调用而窃取语音信息。
2、边信道攻击是一种难以察觉的攻击方式。与隐藏通道类似,边信道攻击同样没有违反任何安全规则,并成功窃取保密信息。这种攻击存在的原因是操作系统中程序的运行会产生不同的状态结果,这些状态信息可以被无权限/低权限实体读取,并由此获取重要信息,破环文件的保密性。
3、随着机器学习技术的快速发展,对于侧信道泄露信息的恢复和推断变得更加便捷和准确,这会导致未来操作系统安全变得更加困难。
综上,基于以上三点原因,我认为该篇文章具有一定研究价值,故选取其为综述文献
二、背景
2.1 研究背景
智能手机已经渗透到我们的日常生活中,成为与世界其他地区联系不可或缺的通信接口。在所有不同的通信方式中,语音通信总是被认为是首选之一。因此,麦克风的安全权限在大多数操作系统下,默认为最高权限之一。大量文献期望通过通信协议的弱点来窃取通信信息。但是,在该篇文章中,其作者期望通过在不需要敏感系统权限的情况下进行侧通道攻击来窃听扬声器发声。具体来说,就是通过同一智能手机上运动传感器的测量来识别和重建智能手机扬声器发出的语音信号。
该攻击方法由以下几点支撑:
1、加速度计和陀螺仪被认为是低风险的,它们通常被设置为零许可传感器,并且可以在没有警告智能手机用户的情况下访问。
2、运动传感器可以响应外部振动,这允许他们接收某些音频信号。
3、人类语音的基本频率与智能手机传感器的采样频率之间存在重叠。
4、运动传感器与手机扬声器位于同一主板,可以捕获扬声器发声产生的震动。
该攻击方法由以下几点支撑:
1、加速度计和陀螺仪被认为是低风险的,它们通常被设置为零许可传感器,并且可以在没有警告智能手机用户的情况下访问。
2、运动传感器可以响应外部振动,这允许他们接收某些音频信号。
3、人类语音的基本频率与智能手机传感器的采样频率之间存在重叠。
4、运动传感器与手机扬声器位于同一主板,可以捕获扬声器发声产生的震动。
2.2威胁模型
在该文献中,假设了受害者拥有一高端智能机(及其运动传感器可以采集率可以达到200Hz)。智能手机播放包含私人信息的语音信号(由数字,字母以及热点词组成),如社保卡号,密码,信用卡号等等。该智能手机可以被放置在桌上或者手持。
对手是一个间谍应用程序,其目标是提取语音信号中包含的私有信息。间谍应用程序不断收集背景中的加速度计测量数据,并试图在智能手机扬声器播放音频信号时(例如,在电话或电话中)提取语音信息。通过检测采集到的加速度计测量的高频分量,可以实现对播放活动的检测。虽然加速度计也会受到日常活动的影响,但这些活动很少影响80Hz以上的频率分量。
为了提取私有信息,该文章作者实现了基于加速度计的语音识别和语音重建,语音识别将加速信号转化为文本。它允许对手从加速度计测量中识别预先训练的数字、字母和热词。语音重建从加速计信号重建语音信号。它允许对手用人耳双重检查识别结果。由于重构模型主要是学习信号之间的映射,而不是语义信息,因此与识别模型相比,它更容易推广到未经训练的单词。
间谍应用程序可以伪装成任何运行在智能手机上的应用程序,由于访问加速度计不需要任何许可。
对手是一个间谍应用程序,其目标是提取语音信号中包含的私有信息。间谍应用程序不断收集背景中的加速度计测量数据,并试图在智能手机扬声器播放音频信号时(例如,在电话或电话中)提取语音信息。通过检测采集到的加速度计测量的高频分量,可以实现对播放活动的检测。虽然加速度计也会受到日常活动的影响,但这些活动很少影响80Hz以上的频率分量。
为了提取私有信息,该文章作者实现了基于加速度计的语音识别和语音重建,语音识别将加速信号转化为文本。它允许对手从加速度计测量中识别预先训练的数字、字母和热词。语音重建从加速计信号重建语音信号。它允许对手用人耳双重检查识别结果。由于重构模型主要是学习信号之间的映射,而不是语义信息,因此与识别模型相比,它更容易推广到未经训练的单词。
间谍应用程序可以伪装成任何运行在智能手机上的应用程序,由于访问加速度计不需要任何许可。
三、具体实现
3.1 预处理
在本片文章中,作者将原始波形图转化为波谱图进行识别,主要为以下几步骤:
1、插值:首先使用线性插值处理加速度计测量的不稳定间隔,由于传感器测量的时间戳具有毫秒精度,解决不稳定间隔的一个自然方法是将加速度计的测量采样到1000Hz。文中使用时间戳来定位所有没有加速度计测量的时间点,并使用线性插值来填充缺失的数据。其主要目的是产生具有固定采样速率的加速度信号。
2、高通滤波:然后使用高通滤波器消除重力、硬件失真(偏移误差)和人类活动引起的显著失真。具体如下:作者首先使用短时傅里叶变换(STFT)将加速度信号沿每个轴转换为频域。接着,将截止频率以下所有频率分量的系数设置为零,并使用逆STFT将信号转换回时域。由于人类声音频率一般超过85HZ,而活动带来的干扰很少超过80HZ,将语音识别的截止频率设置为80Hz,使噪声分量的影响最小化。对于语音重建,截止频率设为20Hz,以此来保留更多语音信息。该步骤后获得的滤波信号主要由目标语音信息和加速度计的自噪声组成。
3、分割:使用主轴(z轴)定位切割点,然后通过获得的切割点将滤波后的加速度信号沿三轴分割。切割点定位方法如下:给定沿主轴的加速度信号,我们首先通过另一轮高通滤波对信号进行去噪,截止频率为160Hz。然后计算信号的幅度(绝对值),并用两轮移动平均值平滑所得到的幅度序列。第一轮和第二轮的滑动窗口分别为200和30。接下来,找到平滑幅度序列的最大值Mmax和最小值Mmin。在此之后,遍历平滑的震级序列,并定位所有震级高于阈值(0.8Mmax+0.2Mmin)的区域。最后,我们利用得到的切割点将滤波后的加速度信号分割成多个短信号,每个短信号对应一个单词。
4、信号到光谱图转换:为了产生单字信号的光谱图,作者首先将信号分成多个短段,具有固定的重叠。段的长度和重叠分别设置为128和120。然后用汉明窗口对每个段进行窗口,并通过STFT计算其频谱,它为每个段生成一系列复系数。沿着每个轴的信号现在被转换成一个STFT矩阵,记录每个时间和频率的大小和相位。最后,通过下式计算2D波谱图。
5、光谱图-图像:为了将光谱图直接输入到计算机视觉任务中使用的神经网络中,文中作者进一步将信号的三个二维光谱图转换为一个PNG格式的RGB图像。首先将三mn谱图拟合为一mn*3张量。然后取张量中所有元素的平方根,并将得到的值映射到0到255之间的整数。最后,我们导出了m×n×3张量作为PNG格式的图像。
1、插值:首先使用线性插值处理加速度计测量的不稳定间隔,由于传感器测量的时间戳具有毫秒精度,解决不稳定间隔的一个自然方法是将加速度计的测量采样到1000Hz。文中使用时间戳来定位所有没有加速度计测量的时间点,并使用线性插值来填充缺失的数据。其主要目的是产生具有固定采样速率的加速度信号。
2、高通滤波:然后使用高通滤波器消除重力、硬件失真(偏移误差)和人类活动引起的显著失真。具体如下:作者首先使用短时傅里叶变换(STFT)将加速度信号沿每个轴转换为频域。接着,将截止频率以下所有频率分量的系数设置为零,并使用逆STFT将信号转换回时域。由于人类声音频率一般超过85HZ,而活动带来的干扰很少超过80HZ,将语音识别的截止频率设置为80Hz,使噪声分量的影响最小化。对于语音重建,截止频率设为20Hz,以此来保留更多语音信息。该步骤后获得的滤波信号主要由目标语音信息和加速度计的自噪声组成。
3、分割:使用主轴(z轴)定位切割点,然后通过获得的切割点将滤波后的加速度信号沿三轴分割。切割点定位方法如下:给定沿主轴的加速度信号,我们首先通过另一轮高通滤波对信号进行去噪,截止频率为160Hz。然后计算信号的幅度(绝对值),并用两轮移动平均值平滑所得到的幅度序列。第一轮和第二轮的滑动窗口分别为200和30。接下来,找到平滑幅度序列的最大值Mmax和最小值Mmin。在此之后,遍历平滑的震级序列,并定位所有震级高于阈值(0.8Mmax+0.2Mmin)的区域。最后,我们利用得到的切割点将滤波后的加速度信号分割成多个短信号,每个短信号对应一个单词。
4、信号到光谱图转换:为了产生单字信号的光谱图,作者首先将信号分成多个短段,具有固定的重叠。段的长度和重叠分别设置为128和120。然后用汉明窗口对每个段进行窗口,并通过STFT计算其频谱,它为每个段生成一系列复系数。沿着每个轴的信号现在被转换成一个STFT矩阵,记录每个时间和频率的大小和相位。最后,通过下式计算2D波谱图。
5、光谱图-图像:为了将光谱图直接输入到计算机视觉任务中使用的神经网络中,文中作者进一步将信号的三个二维光谱图转换为一个PNG格式的RGB图像。首先将三mn谱图拟合为一mn*3张量。然后取张量中所有元素的平方根,并将得到的值映射到0到255之间的整数。最后,我们导出了m×n×3张量作为PNG格式的图像。
3.2 语音识别
识别模块可以分为以下部分:
1、光谱图-图像重新处理:为了将这些光谱图输入标准化的计算机视觉网络,最好将它们调整为n×n×3幅图像。为了保存足够的信息,文中将谱图调整为224×224×3。
2、网络选择:文中选择DenseNet作为我们所有识别任务的基本网络。DenseNet引入了每个层及其前面所有层之间的连接。换句话说,l-th层将特征映射从第0层(输入图像)连接到第(l1)层作为输入。这使其只需较少的节点就能取得和普通网络相似的结果。此外,改进的信息流和梯度在整个网络也减轻了梯度消失,并使密集网更容易训练。
3、训练过程:文中作者利用交叉熵作为训练损失,通过分段动量优化器对模型权重进行优化,学习更通用的特征,并促进收敛。同时,将权重衰减加入训练损失,并将衰减率设为0.3,增加通用性。
1、光谱图-图像重新处理:为了将这些光谱图输入标准化的计算机视觉网络,最好将它们调整为n×n×3幅图像。为了保存足够的信息,文中将谱图调整为224×224×3。
2、网络选择:文中选择DenseNet作为我们所有识别任务的基本网络。DenseNet引入了每个层及其前面所有层之间的连接。换句话说,l-th层将特征映射从第0层(输入图像)连接到第(l1)层作为输入。这使其只需较少的节点就能取得和普通网络相似的结果。此外,改进的信息流和梯度在整个网络也减轻了梯度消失,并使密集网更容易训练。
3、训练过程:文中作者利用交叉熵作为训练损失,通过分段动量优化器对模型权重进行优化,学习更通用的特征,并促进收敛。同时,将权重衰减加入训练损失,并将衰减率设为0.3,增加通用性。
3.3 语音重建
为了实现语音信号重建,本文作者首先通过以下重建网络重建语音频谱图,以加速频谱图为输入。然后利用Griffin-Lim算法从重构的语音谱图中估计语音信号。具体如下:
1、语音重建网络:语音重建网络由三个子网络组成,即编码器、剩余块和解码器。重建网络的输入是一个128×128×3波谱图像,它涵盖20到500Hz的频率分量。 每个通道对应于加速度信号的一个轴。重建网络的输出是384×128灰度图像,它表示相应的语音谱图。
编码器:第一个子网络是编码加速计波谱图图像的编码器。首先是具有32个大小为9×9×3的核的卷积层,用于学习大规模特征。其次是两个分别带有64个3 × 3 × 32的核和128个3 × 3 × 64尺寸核的卷积层,分别用于学习小规模特征。此外,在前两层上施加2的步长进行下采样。
剩余块:在编码器后加5个剩余块,以明确地使特征满足剩余映射H(.),如。其中,F(x,Wi)是卷积层学习的非线性映射。
解码器:最后,语音谱图是由解码器利用从编码器和剩余块中获得的特征得到。解码器包括3个逆卷积层,分别带有64个3 × 3 × 128大小核,32个3 × 3 × 64大小的核以及3个9 × 9 × 32大小的核。在前两层上施加1/2的步长进行上采样。解码器的初始输出是128×128×3矩阵,该矩阵将进一步调整为384×128灰度图像,以表示前面提到的相应的语音谱图。
训练过程:语音重建网络具有不稳定性和计算开销大两个问题。不稳定性的原因是,由于光谱图的稀疏性,导致训练minibatch中存在稀疏的离群点。为了解决该问题,文中使用重建图像与目标图像之间的L1距离作为训练损失。同时,在L1距离上使用权重衰减来增强通用性。为了降低计算成本,通过将基于时间的衰减应用于学习率来加速优化过程。
2、语音信号估计:Griffin-Lim算法是一种用于于频谱图的信号估计的迭代算法。每次迭代包含两个步骤:第一步通过频谱图修改当前信号估计;第二步是用修正的STFT更新当前信号估计。通过迭代这两步,直至收敛。具体如下:
修改STFT:给出语音信号在第i次迭代中的信号估计xi[n]以及重建的幅度||Y (m, w)||。 xi[n]的STFT值Xi(m,w)可修改为:
更新信号估计:为了使修改后的STFT为有效值,需要一个序列xi+1(n),其STFT值Xi+1(m,w)与修改后的值最接近,判断标准是两者间的均方误差。
解决上述最小化问题的方法如下:
为了实现语音信号重建,本文作者首先通过以下重建网络重建语音频谱图,以加速频谱图为输入。然后利用Griffin-Lim算法从重构的语音谱图中估计语音信号。具体如下:
1、语音重建网络:语音重建网络由三个子网络组成,即编码器、剩余块和解码器。重建网络的输入是一个128×128×3波谱图像,它涵盖20到500Hz的频率分量。 每个通道对应于加速度信号的一个轴。重建网络的输出是384×128灰度图像,它表示相应的语音谱图。
编码器:第一个子网络是编码加速计波谱图图像的编码器。首先是具有32个大小为9×9×3的核的卷积层,用于学习大规模特征。其次是两个分别带有64个3 × 3 × 32的核和128个3 × 3 × 64尺寸核的卷积层,分别用于学习小规模特征。此外,在前两层上施加2的步长进行下采样。
剩余块:在编码器后加5个剩余块,以明确地使特征满足剩余映射H(.),如。其中,F(x,Wi)是卷积层学习的非线性映射。
解码器:最后,语音谱图是由解码器利用从编码器和剩余块中获得的特征得到。解码器包括3个逆卷积层,分别带有64个3 × 3 × 128大小核,32个3 × 3 × 64大小的核以及3个9 × 9 × 32大小的核。在前两层上施加1/2的步长进行上采样。解码器的初始输出是128×128×3矩阵,该矩阵将进一步调整为384×128灰度图像,以表示前面提到的相应的语音谱图。
训练过程:语音重建网络具有不稳定性和计算开销大两个问题。不稳定性的原因是,由于光谱图的稀疏性,导致训练minibatch中存在稀疏的离群点。为了解决该问题,文中使用重建图像与目标图像之间的L1距离作为训练损失。同时,在L1距离上使用权重衰减来增强通用性。为了降低计算成本,通过将基于时间的衰减应用于学习率来加速优化过程。
2、语音信号估计:Griffin-Lim算法是一种用于于频谱图的信号估计的迭代算法。每次迭代包含两个步骤:第一步通过频谱图修改当前信号估计;第二步是用修正的STFT更新当前信号估计。通过迭代这两步,直至收敛。具体如下:
修改STFT:给出语音信号在第i次迭代中的信号估计xi[n]以及重建的幅度||Y (m, w)||。 xi[n]的STFT值Xi(m,w)可修改为:
更新信号估计:为了使修改后的STFT为有效值,需要一个序列xi+1(n),其STFT值Xi+1(m,w)与修改后的值最接近,判断标准是两者间的均方误差。
解决上述最小化问题的方法如下:
四、文献评价
4.1 创新点
该篇文献在前人的基础上做出了以下创新:
1、创造性的提出了新的攻击对象。以往的基于运动传感器的侧通道窃听主要是针对外部对象,即用手机上的运动传感器来窃听手机外的声源。由于声波的震动能级较小,要成功完成抓捕便面临大量限制。但是该文献提出的方式没有该方面的困扰,声波近距离内通过估计介质传播完全可以为运动传感器抓捕。
2、关注了此前一直被忽视的运动传感器采集率问题。在此前,由于硬件性能限制,运动传感器的采样率一直被限制在一个较小的范围内,通常被认为低于100Hz,以至于人们认为其无法捕捉音波。但是,作者通过对2017年后新出的手机进行测试,发现其完全能够满足要求。
1、创造性的提出了新的攻击对象。以往的基于运动传感器的侧通道窃听主要是针对外部对象,即用手机上的运动传感器来窃听手机外的声源。由于声波的震动能级较小,要成功完成抓捕便面临大量限制。但是该文献提出的方式没有该方面的困扰,声波近距离内通过估计介质传播完全可以为运动传感器抓捕。
2、关注了此前一直被忽视的运动传感器采集率问题。在此前,由于硬件性能限制,运动传感器的采样率一直被限制在一个较小的范围内,通常被认为低于100Hz,以至于人们认为其无法捕捉音波。但是,作者通过对2017年后新出的手机进行测试,发现其完全能够满足要求。
4.2缺陷
本篇文献最大的问题在于,仅能识别预先设定的短语,以及字母和数字,虽然识别准确率大多在90%以上,但是这依旧在应用范围上存在较大的限制。同时,文中提出的语音重建功能存在两大限制:一是恢复的最大(谐波)频率为1500Hz,可能导致辅音信息丢失。另一个限制来自GL算法,作者认为它可能不是补偿相位信息的最佳选择。
4.3 对于提出的侧通道可能的防御方法
该侧通道的防御方法存在以下几类:
1、从系统层面,提升运动传感器的安全权限,可以解决大部分问题。但是,依旧面临伪装成运动记录软件的威胁程序威胁。
2、通过资源分配上的控制,降低对运动传感器的采样上限,如降低至80Hz,这可以最大限度的降低该漏洞威胁,同时不妨碍正常活动。
1、从系统层面,提升运动传感器的安全权限,可以解决大部分问题。但是,依旧面临伪装成运动记录软件的威胁程序威胁。
2、通过资源分配上的控制,降低对运动传感器的采样上限,如降低至80Hz,这可以最大限度的降低该漏洞威胁,同时不妨碍正常活动。
- 取得連結
- X
- 以電子郵件傳送
- 其他應用程式
留言
張貼留言