-
(Last revised 2 Apr 2020) Real-world adversarial attack on MTCNN face detection system
実環境における誤認識誘発攻撃。
医療用フェイスマスクや頬等に特殊な柄のパッチを貼り付けることで、MTCNNベースの顔検出器による顔検知を回避する手法。デジタルドメインのみならず、実環境でも利用可能。
検証コード:Real-world attack on MTCNN face detection system -
(Submitted on 1 Apr 2020) Evading Deepfake-Image Detectors with White- and Black-Box Attacks
ホワイトボックス/ブラックボックス設定の誤認識誘発攻撃。
DeepFakes検知器を攻撃する手法。1pixelの反転、全体の1%に摂動を加える等、ホワイトボックスとブラックボックス設定の攻撃手法を提案している。 -
(Submitted on 31 Mar 2020) Adversarial Attacks on Multivariate Time Series
TBA. -
(Submitted on 31 Mar 2020) Inverting Gradients -- How easy is it to break privacy in federated learning?
勾配ベースのデータ窃取攻撃。
Federated learningにおいて、勾配を共有する仕組みが安全ではない事を示した研究。共有される勾配から高解像度の入力画像を復元し、DNNのプライバシー侵害が可能であることを実証している。 -
(Submitted on 30 Mar 2020) DeepHammer: Depleting the Intelligence of Deep Neural Networks through Targeted Chain of Bit Flips
ハードウェアレベルの誤認識誘発攻撃。
Row hammerの脆弱性を利用し、DNNモデルの重みビットを反転させることで、DNNモデルの推論精度を低下させる。 -
(Submitted on 28 Mar 2020) DaST: Data-free Substitute Training for Adversarial Attacks
ブラックボックス設定の誤認識誘発攻撃。
既存のブラックボックス誤認識誘発攻撃は、攻撃対象モデルの学習データに近似したデータを用いて(Adversarial Examplesを作成するための)代替モデルを作成しているが、本手法は生成モデル(GAN)で生成したデータを用いるとのこと。本手法で作成したAdversarial ExamplesをMicrosoft Azure上の機械学習モデルに分類させたところ、攻撃成功率は98.35%であったとのこと。実データを使用しないブラックボックス誤認識誘発攻撃はあまり例がない。
関連研究:Adversarial Imitation Attack -
(Submitted on 28 Mar 2020) Policy Teaching via Environment Poisoning: Training-time Adversarial Attacks against Reinforcement Learning
強化学習(以下、RL)に対する報酬汚染攻撃。 -
(Submitted on 27 Mar 2020) Adaptive Reward-Poisoning Attacks against Reinforcement Learning
強化学習(以下、RL)に対する報酬汚染攻撃。
各学習のエポックにおいて、報酬rt
に細工を加えた汚染報酬rt+δt
を作成し、RLエージェントに悪意のあるPolicyを学習させる。
-
(Last revised 20 Aug 2019) Targeted Adversarial Examples for Black Box Audio Systems
音声の誤認識誘発攻撃。
オリジナル音声にノイズを入れて音声アシスタントを騙す手法。遺伝的アルゴリズムし、効率よくAdversarial exampleを生成。
検証コード: rtaori/Black-Box-Audio -
(Llast revised 1 Jul 2019) GenAttack: Practical Black-box Attacks with Gradient-Free Optimization
誤認識誘発攻撃。
遺伝的アルゴリズムを使用し、効率良くAdversarial exampleを生成。少ないクエリ数で攻撃可能。 -
(Last revised 28 Jun 2019) Black-box Adversarial Attacks on Video Recognition Models
リアルタイム物体認識に対する誤認識誘発攻撃。
ブラックボックス設定で攻撃が可能。 -
(Last revised 8 Jun 2019) Adversarial camera stickers: A Physical Camera Attack on Deep Learning Classifier
実環境における誤認識誘発攻撃。
カメラのレンズに特殊な模様を付けたステッカーを貼り付けることで、物体認識モデルの判断を誤らせる手法。
デモ動画:Adversarial Camera Sticker fooling ResNet-50 model -
(Submitted on 16 May 2019) Data Poisoning Attacks on Stochastic Bandits
強化学習(以下、RL)に対する報酬汚染攻撃。 -
(Submitted on 18 Apr 2019) Fooling automated surveillance cameras: adversarial patches to attack person detection
リアルタイム物体認識に対する誤認識誘発攻撃。
特殊な柄のパッチを人間が身に着けることで、物体認識器から人間を秘匿する手法。
検証コード: adversarial-yolo -
(Submitted on 8 Apr 2019) Adversarial Audio: A New Information Hiding Method and Backdoor for DNN-based Speech Recognition Models
音声の誤認識誘発攻撃。
オリジナル音声に人間には聞こえない別音声を埋め込む。細工音声を訓練した音声認識システムは埋め込み音声を認識できるが、他の音声認識システムは認識できない。バックドア攻撃にも転用できる可能性がある。 -
(Last revised 4 Apr 2019) Discrete Attacks and Submodular Optimization with Applications to Text Classification
テキスト分類器に対する誤認識誘発攻撃。 -
(Submitted on 27 Mar 2019) Rallying Adversarial Techniques against Deep Learning for Network Security
侵入検知システムに対する誤認識誘発攻撃。
-
(Last revised 10 Nov 2018) Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks
データ汚染攻撃。
学習データに少量の汚染データを紛れ込ませることで、決定境界を意図した方向に操作する手法。Webやメールボックスから定期的にデータを収集して再学習するモデルを標的にしている。
検証コード: ashafahi/inceptionv3-transferLearn-poison -
(Last revised 30 Oct 2018) Adversarial Attacks Against Automatic Speech Recognition Systems via Psychoacoustic Hiding
音声の誤認識誘発攻撃。
音声に高周波数のノイズを加えることで、音声アシスタントを騙す手法。 -
(Last revised 24 Aug 2018) Data Poisoning Attacks in Contextual Bandits
強化学習(以下、RL)の報酬汚染攻撃。
RLエージェントの報酬を細工することで、攻撃者が意図した行動をRLエージェントに学習させる手法。 -
(Submitted on 18 Jul 2018) Gradient Band-based Adversarial Training for Generalized Attack Immunity of A3C Path Finding
強化学習(以下、RL)の環境汚染攻撃。
RLエージェントが参照する地図データを細工することで、エージェントの経路選択を誤らせる手法。 -
(Last revised 11 Jul 2018) Black-box Adversarial Attacks with Limited Queries and Information
ブラックボックス設定の誤認識誘発攻撃。
少ないクエリアクセスでAdversarial Examplesを作成し、Google Cloud Vision APIを騙すことが可能。
検証コード: labsix/limited-blackbox-attacks -
(Last revised 7 Jun 2018) Synthesizing Robust Adversarial Examples
実環境における誤認識誘発攻撃。
ノイズ・歪み・アフィン変換に頑健性のある2次元のAdversarial Examples画像を複雑な3次元物体に適用し、リアルタイムカメラを騙すAdversarial Examplesを作成。 -
(Last revised 10 Apr 2018) Robust Physical-World Attacks on Deep Learning Models
実環境における誤認識誘発攻撃。
自動運転自動車を念頭に、実環境にAdversarial exampleを適用した研究。道路標識に細工を加えることで、画像認識システムの判断を誤らせる手法。
参考情報: 標識にシールを貼って自動運転カーを混乱に陥れるハッキング技術「Robust Physical Perturbations(RP2)」 -
(Submitted on 1 Apr 2018) Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning
線形回帰モデルに対するデータ汚染攻撃。
学習データに少量の汚染データを加えることで、モデルの予測結果を意図した方向に操作する。
- (Submitted on 23 May 2017) Black-Box Attacks against RNN based Malware Detection Algorithms
アンチマルウエアに対する誤認識誘発攻撃。
RNNベースのアンチマルウエアを騙す手法。
- (Submitted on 19 Dec 2016) Simple Black-Box Adversarial Perturbations for Deep Networks
誤認識誘発攻撃。
Convolutional Neural Network(以下、CNN)への入力画像を微小に細工することでCNNの判断を誤らせる。画素数が小さい画像では1pixel、大きな画像でも数pixelの細工で誤分類させることが可能。
検証ブログ: Convolutional Neural Networkに対する攻撃手法 -誤分類の誘発-
-
Membership Inference Attacks against Machine Learning Models
攻撃対象モデルの学習データを取得する手法。
攻撃対象モデルの入力・出力から独自のモデルを作成し、学習済みのデータと未学習のデータの使用して攻撃対象モデルの挙動を確認する。本論文では、GoogleやAmazonなどの商用サービスで作成されたモデルを使用して本手法を評価している。 -
Stealing Machine Learning Models via Prediction APIs
MLモデルへの入出力をブラックボックスアクセスで観測し、MLモデルの内部ロジックを復元する手法。
2項ロジスティック回帰や多項ロジスティック回帰、多層パーセプトロン、決定木等、多数のMLモデルを標的にしている。
検証コードはこちら
一部検証済み: 機械学習モデルに対する攻撃手法 -Equation-Solving Attacks- -
Machine Learning with Membership Privacy using Adversarial Regularization
TBA. -
Deep Leakage from Gradients
学習時に使用される勾配を基に学習データを復元する手法。
マルチノードで分散学習するMLにおいては、MLモデル間で勾配を共有する事がある。そのようなケースを想定し、他MLから共有された勾配から学習データを復元する。 -
Neural Trojans
TBA. -
DeepLocker - Concealing Targeted Attacks with AI Locksmithing
Deep Neural Network(以下、DNN)を利用した標的型マルウエア。
平時はビデオアプリ等として動作し、(顔画像や音声等で)標的を認識するとランサムウエア化する。
ランサムウエアのペイロードを暗号化(ロック)しておき、DNNで標的を認識するとその復号鍵を生成して動作するため、既存のアンチマルウエアでは検知が難しいとの事。 -
Programmable Neural Network Trojan for Pre-Trained Feature Extractor
TBA -
Trojaning Attack on Neural Networks
トリガとなるデータを既存モデルに入力することで、モデルに意図した出力を行わせる手法。
既存モデルの訓練データにアクセスする必要は無く、既存モデルをリバースエンジニアして作成したTorojan Triggerと再訓練用の学習データを組み合わせることで、トリガデータを効率良く作成可能。攻撃の成功率も非常に高い。
検証コード:PurduePAML/TrojanNN -
PoTrojan: powerful neural-level trojan designs in deep learning models
ネットワークの隠れ層にTriggerノードとPayloadノードを挿入し、モデルに意図した出力を行わせる手法。
殆どの入力データをモデルは正しく分類する事が可能だが、ある特定のデータに対してのみ(攻撃者が意図した)誤った出力をするため、ステルス性が高い。 -
Backdooring Convolutional Neural Networks via Targeted Weight Perturbations
CNNにTrojanを仕込む手法。 -
STRIP: A Defence Against Trojan Attacks on Deep Neural Networks
TBA -
Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering
TBA -
TrojDRL: Trojan Attacks on Deep Reinforcement Learning Agents
TBA -
A backdoor attack against LSTM-based text classification systems
LSTMベースの文書分類器にTrojanを仕込む方法。 -
Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks
スライド:Neural Cleanse -
Transferable Clean-Label Poisoning Attacks on Deep Neural Nets
正しくラベル付けされたポイズニング画像が注入された学習データで学習を行うことで、画像認識モデルにバックドアを仕込む手法。
対象モデルの出力、ネットワーク構造、学習データにアクセスせずに攻撃を行うことが可能。 -
Summoning Demons: The Pursuit of Exploitable Bugs in Machine Learning
OpenCVやScikit-Learn等の脆弱性を利用してDoSやBoF等を引き起こす手法。 -
Security Risks in Deep Learning Implementations
TensorFlowやCaffe等が利用しているライブラリの脆弱性を利用してDoSやBoF等を引き起こす手法。 -
StuxNNet:Practical Live Memory Attacks on Machine Learning Systems
実行中のNeural Network(以下、NN)の判断を誤らせる手法。
NN実行中のメモリに展開されたNNの重みやバイアスを直接操作し、NNに誤判断を引き起こさせる。
検証コード:https://github.com/bryankim96/stux-DNN -
Practical Fault Attack on Deep Neural Networks
組み込み機器にビルドインされたDNNの判断を誤らせる手法。
機器にレーザを照射し、DNNの隠れ層の計算結果に誤りを生じさせる。
-
CleverHans
誤認識誘発攻撃に対する耐性を評価するツール。 -
Foolbox
誤認識誘発攻撃に対する耐性を評価するツール。 -
AutoZOOM: Autoencoder-based Zeroth Order Optimization Method for Attacking Black-box Neural Networks
誤認識誘発攻撃に対する耐性を評価するツール。 -
Adversarial Robustness Toolbox for Machine Learning Models
誤認識誘発攻撃に対する耐性を評価するツール。 -
MLSploit: Resilient ML Platform - Advanced Deep Learning Analytic Platform Made Easy for Every Security Researcher
誤認識誘発攻撃に対する耐性を評価するツール。
検証コード: intel/Resilient-ML-Research-Platform -
ADAGIO: Interactive Experimentation with Adversarial Attack and Defense for Audio
音声の誤認識誘発攻撃に対する耐性を評価するツール。 -
Deep Pwning
機械学習版のMetasploit。
更新は止まっている。
検証コード: cchio/deep-pwning -
DeepSec
誤認識誘発攻撃に対する耐性を評価するツール。 -
Comprehensive Privacy Analysis of Deep Learning
AIからの情報漏えいをチェックする手法。
参考情報: Comprehensive Privacy Analysis of Deep Learning
- ADVERSARIAL MACHINE LEARNING TUTORIAL
Adversarial攻撃のチュートリアル。防御手法も掲載されている。
情報提供:@icoxfog417 氏
以上