ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 합성 데이터를 사용하는 이유
    정보기술 2020. 7. 3. 06:10

    알고리즘이 더 많은 데이터로 작동할수록 그 결과는 더 좋아질 것이다. 그러나 모든 기업이 인공지능이 귀중한 통찰력을 추출할 수 있는 충분한 데이터에 접근할 수 있는 것은 아니다.

     

    AI(인공지능): 상상할 수 있는 모든 사업 문제를 해결할 수 있는 것은 "마법"이다.  그럴 수 없을 때를 제외하고는 말이다.  종종, 심지어 AI 시스템이 제공할 수 있는 곳조차도. 만약 여러분의 AI가 데이터로부터 배우게 된다면, 어떻게 그것이 적절한 양의 데이터를 가지고 있고 여러분이 합법적인 문제가 많은 곳으로 곧장 가지 않고도 사용할 수 있는 데이터인지 확인할 수 있는가? 이것이 바로 데이터 합성이 이루어지는 곳이다.

    기업들이 AI 시스템을 구축하기 위해 데이터 합성 방법에 점점 더 눈을 돌리는 한 가지 이유는 주로 합성 데이터가 생성되기 쉽기 때문이다.  자율주행차를 직접 운전하는 소프트웨어의 예를 들어보자.  실제 데이터에서 학습 모델을 구축하면 실제 자동차를 수백만 마일을 주행해야 하며, 심지어 자동차가 필요로 하는 모든 상황을 마주하지 않을 수도 있고, 원하지 않을 수도 있다.  예를 들어, 여러분은 진짜 아기가 그 앞에서 뛰쳐나오는 것에 대한 실제 자동차의 반응을 시험하고 싶지 않을 것이다.

    이를 해결하기 위한 한 가지 해결책은 비디오 게임에서처럼 가상 환경을 주행하는 가상 자동차의 이미지에 대해 머신러닝 알고리즘을 실행하여 시뮬레이션 데이터를 이용한 네트워크를 훈련시키는 것이다.  예를 들어 그랜드 데프트 오토는 2017년 인텔과 독일 대학이 운영하는 연구에서 놀라울 정도로 효과적인 시뮬레이션 도구로 밝혀졌다.  실시간 스테이징 할 필요 없이 실제 자동차가 마주칠 수 있는 엄청나게 다양한 상황의 데이터 세트를 빠르게 구축할 수 있다.

     


    큰 비용이 들지 않는 빅데이터

    데이터 합성 방법을 사용하여 여러분의 데이터 말뭉치를 빠르게 확장하는 것은 더 확립된 경쟁자들과 경쟁하려는 스타트업들에게도 유용할 수 있다.  분명한 이유로, 소규모의 새로운 회사가 모일 기회가 적어졌다. 그리고 현실적인 합성 데이터는 시장을 혼란에 빠뜨릴 수 있는 더 나은 기회와 함께 그들을 따라잡을 기회를 준다.

    예를 들어 의료 또는 금융과 같은 실제 데이터에 대한 개인 정보 보호 문제가 있는 경우 합성 데이터를 사용할 수 있다.  연구자들은 기계 학습을 사용하여 다양한 의학적 상태를 보여주는 X선을 생성했으며, 이는 학습 모델을 훈련하는 데 사용되었다.  데이터가 합성되어 있기 때문에 환자의 사생활에 대한 걱정 없이 사용할 수 있는 훨씬 더 큰 훈련 세트를 만들 수 있다.  유사한 선에서, 부정행위 탐지 시스템은 실제 금융 데이터를 노출할 염려 없이 데이터 합성 방법을 사용하여 훈련될 수 있다.

    그러나 합성 데이터는 실제 세계에 대해 새로운 것을 배우려고 할 때 매우 제한적이다. 그 결과는 데이터를 생성한 세계의 모델에 대해서만 말해줄 것이기 때문이다.  현실은 종종 가장 현명한 예측 분석조차도 설명했던 것보다 훨씬 더 복잡한 것으로 판명될 수 있다.

    그리고 확립된 원칙을 시험할 때에도, 합성 데이터는 항상 주의 깊게 사용되어야 한다.  예를 들어, 당신의 영리한 신경 네트워크는 너무 통계적으로 드물기 때문에 실험해야 할 에지 케이스들을 의도치 않게 제거했는가? 의도치 않게 실제 데이터의 편향을 합성 데이터로 전파하셨습니까?

    데이터 합성 방법은 AI 시스템을 보다 빠르고 비용 효율적으로 구축하는 데 도움이 될 수 있지만, 한계와 리스크를 파악하는 것이 중요하다. 궁극적으로는 실물이 없이는 결코 혁신을 이룰 수 없을 것이다.

    댓글

Designed by Tistory.