
模型反演:一种针对机器学习/深度学习模型的攻击或分析方法,攻击者利用模型的输出(如预测标签、置信度/概率)或梯度信息,反推出训练数据中的敏感信息(例如某个类别的“典型”输入、个人特征,甚至近似重建训练样本)。该术语常见于隐私与模型安全语境中;在某些场景也可指更广义的“从模型行为推回输入/数据分布”的过程。
/mdl nvn/
Model inversion can reveal sensitive information about the training data.
模型反演可能泄露训练数据中的敏感信息。
Even when a service only returns prediction probabilities, attackers may perform model inversion to approximate what a “typical” class example looks like, raising serious privacy concerns.
即使服务只返回预测概率,攻击者也可能进行模型反演来近似推断某一类别“典型样本”的样子,从而引发严重的隐私担忧。
model(模型)源自拉丁语 modulus(“尺度、标准”之意的“小量”);inversion(反演/倒置)源自拉丁语 invertere(in- “向内/改变” + vertere “转”),意为“把方向翻转”。合在一起,“model inversion”字面即“把模型的映射方向倒过来”,从输出/行为推回输入或数据特征。