인사이트

Recent Posts
  • 실무에서의 데이터분석 분야는, 산업별, 고객별, 상황별로 몇가지로 딱 나눠보기가 힘들다. 웨이퍼 Anomaly 예측, 공항의 수요 예측, 공휴일의 제품 예측, 텍스트 분석을 통한 고객 분류, 고객 군집화 등. 그러나 무언가를 예측해야 하는 작업을 알고리즘적으로 적용해보면, 크게 두세개의 메인스트림이 있다고 할수 있을것같다. 딥러닝이 쓰이는 이미지류기존의 전통적인 방법이 주가 되는 테이블류의 데이터 딥러닝은 [더보기]

  • 모델 시각화 이제 회귀분석을 이용하여, 신종 코로나 수를 확진하는 모델을 만들어 볼것이다. 다른 전염병과 정확히 얼마나 예상에 맞춰 움직이고 있는지에 따른 분석 모델을 만들 예정이다. 일단 초기단계부터 ~25일까지의 그래프는 다음과 같다. 확실히 신종 코로나 바이러스가 표가 기계로 그린것처럼 매끄럽기는 하다. 코로나 바이러스는 25일치가 전부이므로, 나머지 전염병과의 50일치를 비교 가능하다. 선형 [더보기]

  • 신종 코로나 사태로 온 세계가 시끄러운 상태에, 확진자 수와 사망자 수가 기계처럼 늘어서 무언가 있나 하고 시끄러운 상태이다. 특히 서울대생 커뮤니티에서 먼저 제기된, 2차함수에 피팅했더니 설명계수(R스퀘어) 값이 1에 가까워서 현실에는 있을수 없는 일이다라는 말이 나오고 있다. “내일 사망자수 알수 있다?” …중국 신종 코로나 확진자 수 조작 주장 세기 따라서 이 [더보기]

  • BiFPN은 FPN에서 레이어마다 가중치를 주어 좀더 각각의 층에 대한 해상도 정보가 잘 녹아낼수 있도록 하는 장치이며, 2020년 1월 Object Detection SOTA인 EfficientDet에 등장하는 개념이다. 예를들어, 컨볼루션 네트워크는 각각의 단계마다 다른 특징을 추출하게 되는데 FPN은 여러 해상도를 가지는 특징들 전부를 예측에 이용함으로써 정확도를 높였다. 찬찬히 원래 존재하던 CNN의 개념부터 살펴보면, 대충 [더보기]

  • colab notebook 에 흥미로운 주제가 있어 소개한다. 관련한 주제는 2019년을 강타한 EfficientNet이다. https://colab.research.google.com/github/rwightman/pytorch-image-models/blob/master/notebooks/EffResNetComparison.ipynb#scrollTo=7AUmKc2yMHz0해당 저자는 직접 pytorch로 구현을 하다가 이상한점을 발견하였는데, 논문에서 주장하는것만큼 EfficientNet이 그다지 효율적이지 않다는 것이다. EfficientNet (반전) 벤치마킹 아래는 EfficientNet의 순수 정확도를 기준으로 기존의 방법론들과 비교를 한 결과이다. B0~B3까지 존재를 하는데 조금더 나은 버전인 B4~B7이 없으므로 일단은 성능이 [더보기]

  • lightGBM에는 무수히 많은 파라미터가 있다. 다만 기억할것은 정답이 없다는것이다. 생각보다 하이퍼파라미터 튜닝에 시간을 많이 쏟지는 않는 이유는, 어차피 ensemble형식이기 때문에 구조자체가 파라미터에 맞게 큰그림에서는 맞춰질것이라, 그다지 정확도면에서 차이가 없을수 있다. lightGBM / XGBoost 파라미터 이름순으로 정렬했다. 파라미터가 너무 많아서 어떤 파라미터를 만져야 하는지 우선순위가 있어야 해서 아래처럼 표기했다. 언급되지 않는 [더보기]

  • xgboost의 논문은 생각보다 양이 많고 읽기가 쉽지는 않다. https://www.kdd.org/kdd2016/papers/files/rfp0697-chenAemb.pdf 시작하기전에, XGBoost논문에서는 부스팅에 관한 친절한 설명이 먼저 되어있다. 따라서 이를 좀더 쫓아가서 XGBoost를 이해하기전에 GBDT에 대해 더 이해해본다. GBDT 기본 이해 부스팅은 여러 트리를 합치는 방식(Additive)으로, 계속해서 발전해나가는 방식을 쓰고는 한다. 어떻게 발전시키는지에 대해서는 바로 다음과 같은 목적함수을 최소화하는데, 시그마로 보아하면 [더보기]

  • 데이터분석 방법을 크게 두가지로 나눠보자. 음성, 이미지, 텍스트처럼 딱 떨어지는 데이터가 아니여서 중요한 feature를 추출하는 작업이 필요할때. 기업 DB의 테이블처럼 tabular형태로 저장되어있는 정형화된 데이터 형태.하나하나의 컬럼이 정확한 의미를 지니고 있음. 첫번째의 경우는 딥러닝이다. 이미지 인식과 같은 경우는 훈련을 시키려면 feature가 있어야 하는데, 예전같으면 HOG, SIFT와 같이 그림의 움직임이나 특성에 대해 [더보기]

  • 전통적으로 AMD그래픽카드는 딥러닝을 학습하는데 있어 CUDA의 부재로 Tensorflow등의 라이브러리를 실행시키기 어려웠습니다. 이렇게 몇년이 흘러도, AMD에서는 이 시장은 큰 시장이 아니라고 판단했는지 Ryzen CPU 가 대히트를 치고 Intel의 점유율을 역전하는 역사를 세우고서도 별로 그들의 그래픽카드에 딥러닝 기능을 잘 심는것을 그다지 중요하게 생각하지 않은 것 같습니다. 리사수는 외계인을 고문하느라 바쁩니다. 다만 2019년에 [더보기]

  • 출처 : http://zhanpengfang.github.io/418home.html GBDT방법은 무조건 순차적으로 모델을 개선해나가는 부스팅 방법이 핵심이다. 하지만 XGBoost는 병렬로 처리되는것을 알수있다. 위의 그림은 하나의 모델을 훈련하는 사진으로써, 비교적 고르게 Core를 모두 쓰는것을 알수있다. 모두가 100% 풀로 돌고 있지는 않지만, 이정도면 훌륭했기 때문에 그 당시에는 시대를 풍미하는 알고리즘이 될수 있었다. 그렇다면 대체 어떻게 병렬처리가 가능한것일까? 가능성 [더보기]

  • Faster RCNN에서 Masking을 하는 레이어가 하나 추가된 형태로, 오브젝트 디텍션 뿐만아니라 Instance Segmentation까지 다루는 Two Shot Detector.2019년에도, 각 Competition에서 Instance Segment 제일 선호되는 방법 현재 기술 발전상황은 하루가 멀다하고 새로운 논문이 바로 직전 State Of The Art를 갈아치우면서 발전을 하고있는 거듭하고 있는 상황이다. 예전에는 적당히 바운딩 박스와 물체를 구별해주면 되었는데, [더보기]

  • 이미지 분류 문제에는 다양한것들이 존재한다. 사진에서 어떠한 물체가 있음을 탐지함에 있어서는 Object Detection, 사진안에 명확한 물체를 마스킹하고 싶다면 Instance Segmentation정도로 부르는것으로 학계에서 통일이 된것으로 보인다. 첫번째 작업은 분류 작업으로, 이미지가 물체를 포함하고 있다는것을 가정한 상태에서 그냥 분류만 하면 된다.두번째는 지역화(Localization)이 포함된 개념으로 물체에 바운딩 박스를 그려준다. 물체 탐지 (Object Detection)은 [더보기]

  • 이글의 최종적인 목적은 BERT의 이해에 있습니다. 요즘 텍스트분야도 또한 발전이 빠르고, 구글놈 아니 구글분들을 비롯하여 똑똑이들의 경연장이 된것 같습니다. 그 와중에, 한국말과 같은 다양한 언어까지 지원할수 있도록 여러 언어에 대해서 미리 훈련된 모델(Pretrained Model)을 구글분들이 만들어놓으셨으니, 참 이로운 세상이지요. Seq2Seq Model Seq2Seq모델은, 문장을 순서대로 처리합니다. 문장은 단어의 순차적인 조합에 의해 [더보기]

  • 시작하며.. 실무에서 데이터분석 필드에 있다보면, 많은 사람들을 고객이나 동료로 일하게 됩니다. 데이터분석이 요즘에는 그나마 많은 사람들이 공부하고 있지만 이 분야야 말로 많은 경험과 분석방법론, 그리고 최신방법론, 도메인 이해능력, 전달능력, 장표작성 능력까지 올라운드로 일을 하지 않으면 안되는 분야입니다. 그래서 그런지는 몰라도, 내게 주어진 역할을 하다보면 뭔가 몇개는 포기하게 됩니다. 육아, 설거지, [더보기]