알파고가 보면 죽는 사진: 적대적 공격(adversarial attack)에 대해 알아보자 > 읽을거리/과학

본문 바로가기
사이트 내 전체검색

읽을거리

과학 알파고가 보면 죽는 사진: 적대적 공격(adversarial attack)에 대해 알아보자

페이지 정보

  • 목록

본문

 

blit.jpg

데이비드 랭포드의 SF 소설에 등장하는 "블릿(BLIT)." 프랙탈 구조를 띄고 있는 이 이미지는 설정상 인간이 맨눈으로 보게 되면 뇌에 과부하가 일어나 죽는다.

 

"보면 죽는 사진," "들으면 죽는 단어," "보면 미쳐버리는 괴물" 같은 설정들은 SF나 코스믹 호러 장르를 좋아하는 친구들이면 익숙한 설정이야. 아무것도 모른채 있다가 알아차리는 것만으로도 무력하게 죽어버린다는게 무서운 포인트지. 넷플릭스의 "버드 박스"나 유명한 일본의 "쿠네쿠네" 괴담같이 말이야.

 

그런데 과연 현실적으로 이런 인지만으로도 사람을 죽이는 물건이나 괴물을 만드는게 가능할까?

 

놀랍게도 인간을 죽이는건 없지만, 인간의 신경망을 러프하게 본뜬 인공신경망 기반 기계학습 모델은 실제로 입력값에 사람은 눈치채지도 못할만한 값을 절묘하게 집어넣는거만으로도 완전히 망가뜨릴수 있어.

 

이게 지금부터 소개할 적대적 공격(adversarial attack) 이라는 기계학습 AI를 상대로 한 해킹기법이야. 이름 참 더럽게 비직관적이지? 얼마나 인지도가 없으면 한국 공식 번역명조차 없어. 이해가 안가... 이렇게 재밌는 개념이 왜 안알려져있지?

 

예시

AA1.png

 

왼쪽 사진을 보면 인공지능이 사진에 있는게 돼지라는걸 인식하지만, 중간에 있는 노이즈(처럼 보이지만 아닌) 픽셀값들을 더해서 나온 결과물을 다시 집어넣으면 엉뚱하게도 "여객기"라고 인식하는걸 볼수있어. 사람 눈에는 전혀 구별이 안되는데 말이야.

 

fooled_featured.png

이건 2017년에 개발된 one pixel attack 이라는건데... 보는거와 같이 픽셀 딱 하나의 값을 의도적으로 바꾼것만으로 인공지능을 완전히 곱창내버리는걸 볼수있어.

 

lang1.png

 

이번엔 보면 죽는 이미지가 아니라 들으면 미치는 단어야. 리뷰를 분석해서 긍정적인 반응인지 부정적인 반응인지를 판단하는 AI 가 있는데, 긍정적인 형용사와 미사여구로 떡칠되어있는 영어 문장에 "zoning tapping fiennes" 를 어두에 삽입하자 바로 부정적인 리뷰라고 인지하는걸 볼수 있어(positive=>negative).

 

"근데 이거 그냥 난수 무작위생성해서 끼워넣으면 이렇게 되는거 아님? AI 좃밥이네ㅋㅋ" 라고 할수 있는데 절대 아님. 딥러닝 모델 해킹한답시고 아무생각없이 무작위 난수 집어넣으면 100% 막힘. 대부분의 딥러닝 AI는 개발자가 개병신처럼 데이터를 쓰레기장에서 주워왔거나 산업스파이가 아닌이상 앵간한 노이즈는 무시할줄 알아. 애초에 딥러닝의 수많은 개발목적중 하나가 이런 노이즈 면역도 있었음(Robustness). 그러면 이 개발자들은 어떻게 저 픽셀값이 이미지 인식을 망가트리고 저 세 단어가 결과값을 완전히 뒤집는다는걸 알았을까?

 

원리(비전공자 ver.)

답은 바로 기계학습 AI를 해킹하는 기계학습 AI를 만들고 학습시키는거야. 이 글에서는 대부분의 실사례처럼 타겟 AI의 내부구조를 전혀 모르고(black-box), 타겟 AI에 대한 무제한 접근이 허용되어있다고 가정하고 갈게. 알고리즘은 요약하자면 다음과 같아.

 

1. 입력값(배열, 이미지, 문장, 기타등등..)에 약간의 변동(픽셀값 추가, 단어 추가, etc..)을 줘서 오염시킨다

2. 오염된 값을 타겟 AI한테 먹여본다

3. 타겟 AI가 뱉어낸 답이 정답보다 최대한 멀어지게 변동을 주도록 학습시킨다

4. 어느정도 성능이 확보되면 학습을 멈추고 실전투입

 

설명이 이게 다냐고? 응 이게 다야

어차피 여기서 더 뇌절하면 뒤로가기 누를꺼잖아

디테일적으로 궁금한거 있으면 댓글에 ㄱㄱ 하고

일단 넘어갈게

 

의의/시사점

 

그래서 이걸 어따 써먹냐고?

 

app1.png

 

 

 

위에서 말한 데이비드 랭포드의 SF 소설에서는 BLIT 개발로 인해 테러리스트의 무기도 총에서 스텐실판과 스프레이 깡통으로 바뀌었다고 하는데, 이런 소설이 미래에서는 현실이 될수 있어. 자율주행자동차가 대중화되었을때 만약에 어떤 미친놈이 반투명 셀로판지에 저걸 프린트해서 표지판에 붙히고 다닌다면? 상상도 못할 규모의 추돌사고가 일어나겠지.

 

audio.jpg

완전한 사물인터넷 시대가 도래하고 이제 집문마저 음성인식으로 열리는 시대가 됐다고 하자. 강도가 위와 같은 음성파일을 녹음기에 틀고 문앞에서 대화를 유도하지. 그리고 어쩔줄 몰라 아무 생각없이 던진 "How are you?" 한마디가 "open the door"로 인식이 되어 집문이 열려버리고... 

 

그 유명한 유튜브 알고리즘도 사실 wide-and-deep 기법을 쓴 딥러닝 모델이기 때문에 썸네일에 미세한 변동을 줘서 추천동영상에 뜨게 만드는것도 가능하지 않을까?

 

더 무서운 응용방법은 투자은행이나 헤지펀드들의 기업/주가 분석 AI에 adversarial attack을 거는거야. 사람이 보기엔 다 뒤져가는 기업인데 기계가 보기엔 1년내에 개떡상하는 기업이라고 판단하게 만들어 버리면 이게 4차산업시대의 네오-금융사기가 아니고 뭐겠어?

 

미래에는 인간이 알파고를 상대로 바둑에서 승리하는 유일한 방법은 이것밖에 안남을지도 몰라. 수싸움에서 이기는게 아니라 신경망에 버그를 내는 수를 둬서 이기는거지. 사실 이세돌의 신의 한수 78수는 adversarial attack이 아니였을까?

 

싸이버펑크 2077에 adversarial attack 있었으면 좋겠다.

이 글을 쓰게 된 계기는 ㄹㅇ 이거였음.

 

사이버펑크 2077에 구현되어있었으면 좋겠다. 만약에 진짜로 되어있으면 뭘 할수있을까? 막 주인공이 프린트된 사진을 CCTV에 쓰윽 들이밀어서 고장낸다거나 기계 뇌를 달고있는 적들한테 단어 몇마디 날려서 죽이는것도 될텐데...

 

이런 생각이 꼬리에 꼬리를 물고 늘어지다 보니 은근히 재밌어서 이 글까지 쓰게 됐음.

 

그리고 굳이 전공자급 지식이 필요한 개념이 아닌데도 불구하고 이렇게 묻혀있는게 너무 억울해서 써봄

 

만약에 데이터과학/머신러닝쪽을 파고있는 개붕이들이라면 adversarial attack에 관심을 가져보는건 어떨까? 아는 사람이 없어서 논문 쓸거리도 많아!

 

 

 

개드립 - 알파고가 보면 죽는 사진: 적대적 공격(adversarial attack)에 대해 알아보자 ( https://www.dogdrip.net/275929351 )
추천1 비추천0
URL 복사
댓글 0

댓글목록

등록된 댓글이 없습니다.

Total 52건 3 페이지
  • RSS
읽을거리 목록
번호 제목 글쓴이 날짜 추천 조회
12 유니신느 쪽지보내기 마이페이지 아이디로 검색 10-21 1 532
11 진크화이트 쪽지보내기 마이페이지 아이디로 검색 10-16 1 430
10 크롬 쪽지보내기 마이페이지 아이디로 검색 10-16 1 1969
9 귀큰놈들시발 쪽지보내기 마이페이지 아이디로 검색 10-14 1 792
8 진크화이트 쪽지보내기 마이페이지 아이디로 검색 09-16 1 471
7 건들이 쪽지보내기 마이페이지 아이디로 검색 09-15 1 524
6 건들이 쪽지보내기 마이페이지 아이디로 검색 09-15 1 583
5 크롬 쪽지보내기 마이페이지 아이디로 검색 09-12 1 587
4 폴리시아 쪽지보내기 마이페이지 아이디로 검색 09-02 1 467
3 폴리시아 쪽지보내기 마이페이지 아이디로 검색 09-02 1 562
2 건들이 쪽지보내기 마이페이지 아이디로 검색 09-01 1 537
열람중 폴리시아 쪽지보내기 마이페이지 아이디로 검색 08-21 1 562

검색


회원로그인

회원가입

사이트 정보

회사명 : YEAH 커뮤니티 / 대표 : 이성재 / 개인정보관리책임자 : 이성재

Copyright © YE-AH.NET All rights reserved.