음성 신호와 MFCC | Speech Signal and Spectral Features
음성 신호의 개념과 MFCC 기법을 자세히 알아봅시다. Speech Emotion Recognition (SER)과 같은 task를 위해 머신러닝/딥러닝 모델을 개발하는 경우에, 일반적으로 음성 데이터를 MFCC와 같은 Feature로 변환하여 활용합니다. 이는 음성 내용을 식별하는데 적합한 오디오 구성 요소를 강조하고 배경 소음과 같은...
음성 신호의 개념과 MFCC 기법을 자세히 알아봅시다. Speech Emotion Recognition (SER)과 같은 task를 위해 머신러닝/딥러닝 모델을 개발하는 경우에, 일반적으로 음성 데이터를 MFCC와 같은 Feature로 변환하여 활용합니다. 이는 음성 내용을 식별하는데 적합한 오디오 구성 요소를 강조하고 배경 소음과 같은...
파이썬의 부작용을 알아봅시다. 파이썬의 부작용은 함수가 값을 리턴하는 대신 외부 세계의 어떤 state를 수정하거나 상호작용을 할 때 발생합니다. 이런 변화는 코드를 이해하기 어렵게 만들고 버그의 발생 가능성을 높일 수도 있습니다. Side Effect in Python 리턴 값, 함수의 state, global pr...
정형 데이터에 딥러닝이 적절하지 않은 이유와 Tree 기반 모델의 장점을 알아봅시다. 이미지나 텍스트와 같은 비정형 데이터에는 CNN, RNN, Transformer, … 과 같은 딥러닝 모델이 다양하게 활용되고 있으며 이들은 강력한 성능을 보입니다. 하지만 여러 AI 대회나 논문에서 알 수 있듯, Tabular 데이터 (표 형태 데이터...
GPU 환경에서 Tensorflow 가속기를 활용하는 방법들을 정리합니다. TensorFlow는 기본적으로 CPU를 사용하여 수치 연산을 처리하지만 대규모 데이터나 복잡한 모델을 다룰 때는 GPU, TPU와 같은 가속기를 활용하여 연산을 가속할 수 있습니다. Distributed Training tf.distribute.St...
Vision Transformer (ViT) 의 기본 원리와 구조, 수식을 소개합니다. 여러 ViT 기반 모델들 (BEIT, CCT, CvT, DeiT, MobileViT, PvT, Swin Transformer, T2T-VIT, Deformable ViT)에 대한 내용을 포함합니다. Original Paper Review | An i...