분류 전체보기
-
논문 리뷰 : Generate model based on SMOTEPaper 2023. 2. 8. 16:06
Dablain, D., Krawczyk , B., & Chawla, N. V. (2022). DeepSMOTE : Fusing deep learning and SMOTE for imbalanced data. IEEE Transactions on Neural Networks and Learning Systems. 1. Data Imbalance를 Generator로 해결해볼까? 2. AutoEncoder와 SMOTE의 결합 학부 때 처음 접한 SMOTE 기법에 대해서, 최근에 SMOTE를 응용하는 연구가 있을까? 하며 찾아보다가 DeepSMOTE를 발견하였다. 비교적 간단한 아이디어로 고차원 데이터의 불균형 문제를 연구한 논문인 것 같아, 자세한 수식이나 디테일한 부분을 제외하고 아이디어 위주로 소개해보려..
-
논문 리뷰 : MC dropout을 통한 Pseudo labeling의 개선Paper 2022. 12. 27. 18:21
Rizve, M. N., Duarte, K., Rawat, Y. S., & Shah, M. (2021). In defense of pseudo-labeling: An uncertainty-aware pseudo-label selection framework for semi-supervised learning. arXiv preprint arXiv:2101.06329. 1. Uncertainty를 왜 구해야 하는가? 2. MC-Dropout를 통한 Uncertainty의 정량화 3. 정량화된 Uncertainty를 통한 Pseudo Labeling의 개선 1. Uncertainty를 왜 구해야 하는가? 이야기에 앞서, 강아지, 고양이, 햄스터를 분류하는 어떤 모델이 있다고 하자. 이 모델이 잘 훈련됐다면,..
-
Edwith _ 최성준님의 Bayesian Deep Learning (일부 수강)Statistics 2022. 1. 25. 00:00
Gal, Y., & Ghahramani, Z. (2016, June). Dropout as a bayesian approximation: Representing model uncertainty in deep learning. In international conference on machine learning (pp. 1050-1059). PMLR. 이미지에 대한 준지도 학습에 대해서 공부하던 중, 준지도 학습, 특히 self training에서 unlabeled 데이터를 어떻게 학습시킬까에 대한 고민을 하게 되었다. 무식하게 다 때려 박아서 재학습을 진행하는 것보다는, 재학습 시 모델이 잘 알 수 있는 자료에 가까운 것들부터 배우는 것이 맞을 것이다. true label과 최대한 동일해야 하기 때문이다..
-
[DGU_탐색적자료분석] 지하철 승하차 인구 분석 및 보조 배터리 대여 서비스 장소 선정My practice 2021. 12. 25. 00:00
2020년 탐색적자료분석 기말고사 프로젝트 정리 1. 데이터 수집 및 가공 2. 군집분석 3. 모델링 4. 결과 분석 1. 데이터 수집 및 가공 선행 연구 분석과, 현실적으로 수집할 수 있는 자료의 타협 내에서 자료를 수집하여 분석에 활용함. (가) 2015-2019 서울교통공사 일별 역별 시간대별 승하차 인원(1~8호선 지하철) 서울 열린데이터 광장 제공; 지하철 역의 승하차 인원을 분석하는 데에 있어서 종속변수가 되는 중요한 변수이다. 역명 표기가 제각각인 경우가 많아 수작업으로 고치거나, 지하철역 코드를 활용해서 일괄적으로 통일되도록 수정하였음. 이하의 자료들을 2019년에 한하여 수집하였으므로 2019년의 승하차 인원 수만 사용 (나) 지역 거주 및 근로 인구수, 지역 연령대 통계 공공데이터포털 ..
-
[Dacon_운동동작분류] 1D CNN을 이용한 예측 모델 만들기 (private 11th, 수상)My practice 2021. 2. 27. 00:00
dacon.io/competitions/official/235689/codeshare/2385?page=3&dtype=recent&ptype=pub 운동 동작 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 말이 11등이지 점수 차이는 어마어마하다. colab : 드라이브 마운트 In [ ]: from google.colab import drive drive.mount('/content/drive') In [ ]: import tensorflow as tf from keras import optimizers from keras.models import Sequential from keras.layers import Dense, LSTM, BatchN..
-
Hyperparameter optimization _ 하이퍼파라미터 최적화Statistics 2021. 2. 25. 00:00
1. Hyperparameter 2. Grid Search와 Random Search 3. Bayesian Optimization 4. Genetic Algorithm 5. 그 외의 것들 1. Hyperparameter 흔히 통계를 배울 때, Parameter라는 말을 정말 많이 듣게 된다. 관심을 갖는 모집단의 특징, 예를 들어 모집단의 평균이나, 표준편차, 또는 선형회귀의 회귀 계수 등을 보통 Parameter라고 하는데 이와 다르게 예측 모델 등에 있어서의 Hyperparameter란 n_estimator나 learning_rate 등과 같이 사용자가 학습에 앞서 세팅해주는 값이다. 한마디로, Parameter는 모델이 알아서 정하는 값 혹은 자동적으로 얻어지는 값이고, Hyperparameter는..
-
논문 리뷰 : CNN을 이용한 운동 데이터 분류Paper 2021. 2. 4. 00:00
Um, T. T., Babakeshizadeh, V., & Kulić, D. (2017, September). Exercise motion classification from large-scale wearable sensor data using convolutional neural networks. In 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (pp. 2385-2390). IEEE. 1. 서론 2. 관련 연구 3. 웨어러블 장치의 데이터를 이용한 CNN 모델 4. Experiment 5. 결론 1. 서론 논문 「Exercise motion classification from large-scale wea..
-
[Kaggle_titanic] R의 Naive Bayes로 생존자 분류해보기My practice 2021. 1. 19. 00:00
library(dplyr) library(ggplot2) library(e1071) library(caret) library(Biocomb) library(FSelector) test=read.csv('test.csv') train=read.csv('train.csv') head(train) head(test) #Pclass(티켓등급), Sibsp(형제자매배우자), Parch(부모님) #Fare(여객운임), Cabin(객실번호), Embarked(승선항) #Name, Ticket는 제외 : 과연 의미가 있을까? #Cabin 제외 : 결측 너무 많음 train=select(train,-c("Name","Ticket","Cabin")) test=select(test,-c("Name","Ticket","Cab..