멀티미디어 - Sound 소리 요약 정리 (waveform, digitization, sound processing, compression, speech recognition)

$e i ω t = cos (ω t) + i sin (ω t) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>e</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>ω</mi><mi>t</mi></mrow></msup><mo>=</mo><mi>cos</mi><mo data-mjx-texclass="NONE"></mo><mo stretchy="false">(</mo><mi>ω</mi><mi>t</mi><mo stretchy="false">)</mo><mo>+</mo><mi>i</mi><mi>sin</mi><mo data-mjx-texclass="NONE"></mo><mo stretchy="false">(</mo><mi>ω</mi><mi>t</mi><mo stretchy="false">)</mo></math>$

위 푸리에 변환에서 t의 계수가 커지면 진폭이 달라지고, 주기(frequency)가 커진다

input signal $x n <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>x</mi><mi>n</mi></msub></math>$ 을 많이 더할 수록 high frequency의 퀄리티가 구체화된다

t가 작은 부분은 low frequency component

t가 큰 부분은 high frequency component

filtering

filtering으로 특정 부분을 제외하는 방법이 있는데

low pass filter는 low frequency만 통과시키고 high frequency는 block한다

(전반적인 큰 모양만 유지)

반대로 high pass filter는 low frequency를 block한다

(큰 모양은 잃고 자잘한 소리가 남음)

특정 frequency component만을 block하는 filter

band reject filter

특정 frequency component만을 pass

band pass filter

Compression

자연의 오디오 데이터는 복잡하고 예측하기 힘들기 때문에

데이터 퀄리티를 떨어뜨린 손실 압축 방법이 필요하다

소리와 이미지는 인식하는 방법이 다르므로, 이미지 압축과는 압축방법이 다르다

Speech Compression

quantized value는 사람이 인지하는 감도의 정도이다

비선형 그래프로 그려지는데

이는 소리가 작으면 작은 변화에 대한 감도가 크고

소리가 크면 변화에 둔감해진다

압축을 하게 되면 연속적인 비선형 그래프에서

주어진 bit 만큼의 quantization level로 value가 줄여져서 용량을 아낀다

소리가 크면 quantization level에 따라 signal value 간격이 멀리 떨어져있어서 압축시 티가 안나지만

소리가 작으면 quantization level에 따른 signal value 간격이 가까워서 압축시 변화가 느껴진다

Differential Pulse Code Modulation (DPCM)

video inter-frame 압축과 비슷

다음 샘플의 예측 값을 계산하고, 예측 값과 실제 값 간 차이를 저장한다

DPCM은 차이가 sampling보다 적은 bit수로 저장될 수 있는 경우에 효과적인 압축 방법이다

Adaptive Differential Pulse Code Modulation (ADPCM)

quantized difference를 저장하는데 사용되는 step size를 동적으로 변화시킨다

Perceptually-Based Compression

지각에 영향을 미치지 않는 신호 데이터를 식별해서 제거한다

사람의 귀와 뇌는 소리 파동에 단순히 반응하지 않으므로 청각 심리 모델이 필요하다

hearing threshold는 너무 조용해서 들리지 않는 소리로 한다

주파수 소리가 너무 낮거나 높은 경우는 사람이 더 잘 인지하지 못하므로 더 커야한다

threshold 아래의 소리는 유지하지 않는다

더 큰 소리는 더 작은 소리를 가릴 수 있다

더 큰 소리는 그 주변의 약간의 범위의 소리도 가려질 수 있다

masking은 큰 소리 영역에서 threshold of hearing 곡선을 수정해서 적용한다

masking sound는 quantize를 거칠게 한다

Compression Algorithm

filter를 사용해서 신호를 여러 주파수 대역으로 분할한다 (보통은 32개의 대역 사용)

각 대역의 평균 값과 청각심리 모델을 기반으로 masking level을 계산한다

각 대역에 대해 단일 값으로 masking 곡선을 근사한다

신호가 masking level 보다 낮으면 제거한다

아니면 quantization noise를 masking할 최소한의 bit를 사용해서 quantize한다

MP3

MP3는 MPEG-1, Layer 3를 줄인 말이다

MPEG-1, MPEG-2에는 세 가지 layer의 오디오 압축이 있다

MPEG-3은 존재하지 않는다

layer 1~3에서 인코딩 과정이 복잡해지면 동일 품질 데이터 속도는 감소한다

높은 품질에서는 10:1의 압축 비율을 가진다

Variable Bit Rate coding(VBR)로 bit rate를 변경한다

Advanced Audio Coding (AAC)

MPEG-2 표준에 정의되어서 확장 후 MPEG-4에 포함되었다

이전 표준과의 하위 호환성은 없다

MP3보다 높은 압축 비율과 낮은 bit rate를 가진다

동일한 bit rate에서는 MP3보다는 품질이 낫다

Speech Recognition

speech recognition(음성 인식)은 음향 신호를 단어 문자열로 매핑하는 작업이다

speech under standing(음성 이해)은 음향 신호를 발음해서 의미를 매핑하는 작업

어떤 소리를 발음했는지

소리가 어떤 단어를 표현하는지

단어로 어떤 의미를 표현하려 했는지

~를 아는 것이다

What's hard about that

말하기의 ambiguity 문제들

Digitization : 아날로그 신호를 디지털 표현으로 변환

Signal processing : 배경 소음에서 음성을 분리

Phonetics : 음성학. 음간 음성의 변이성

Phonology : 음운론. 개별 소리 구별 인식

Lexicology and syntax : 어휘론 구문론. 동음이의어를 구별하고 연속 음성의 특징을 구분

Syntax and pragmatics : 구문론 화용론. 운율적 특징 해석

Pragmatics : 화용론. 발음 오류(비유창성) 필터링

Formants

acoustic resonance(음향 공명)

spectrogram을 사용해서 frequency spectrum에서 peak로 측정된다

F1, F2등 위치는 모음에 따라 다르다

★ Speech Recognition Architecture

노이즈 채널 모델 구현의 문제

어떤 문장의 의미가 맞는지 확률에 따라서 결정하거나 A* 알고리즘을 사용한다

현재 음성 인식기

잠재적인 원본 문장의 방대한 공간을 탐색한다
해당 문장을 생성할 확률이 가장 높은 문장을 선택한다
그래서 단어의 확률을 표현하는 모델을 사용한다
N-gram과 HMM 모델을 적용한다

목표 : 주어진 음향 입력 O에 대해 언어 L의 모든 문장에서

가장 가능성이 높은 문장은?

구하려는 W는 word sequence 즉 문장으로,

위 식은 발음된 O에 대해 주어진 입력이 의미하는 문장이 매핑될 수 있는 확률이다

여기에 Bayes' rule을 이용하여 표현한다

$P (W | O) <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>P</mi><mo stretchy="false">(</mo><mi>W</mi><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mi>O</mi><mo stretchy="false">)</mo></math>$ 는 발음 이후 확률 posterior probability

$P (O | W) <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>P</mi><mo stretchy="false">(</mo><mi>O</mi><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mi>W</mi><mo stretchy="false">)</mo></math>$ 는 같은 단어 W에 대한 발음 acoustic model

정확하지 않은 Observation이라서 likelihood

$P (W) <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>P</mi><mo stretchy="false">(</mo><mi>W</mi><mo stretchy="false">)</mo></math>$ 는 language model에서 단어가 나올 발음 이전 확률 prior probability

Speech Recognition System의 세 단계

1. 신호 처리 특징 추출 단계

waveform을 프레임으로 나눈다

waveform을 spectral feature로 바꾼다

2. subword 나 phone 인식 단계

개별 음성을 인식한다

3. decoding 단계

입력을 생성할 가능성이 가장 높은 단어 문장을 찾는다

728x90

저작자표시 비영리 변경금지

'개발 · 컴퓨터공학' 카테고리의 다른 글

멀티미디어 - Linear Filtering 선형 필터링 (convolution, blurring, average filter, gaussian smoothing, laplacian filter, median filter) (1)	2024.06.08
멀티미디어 - Image Processing 이미지 프로세싱 (Image Acquisition and Digitization, CCD Camera, Isopreference Curves, Intensity Transformations, Geometric Transformation, Interpolation) (2)	2024.06.07
NAFNet 학습환경 세팅 - torch distributed package 문제 해결 (image denoise, deblur, restoration, StereoSR) (0)	2024.06.05
ziplib 사용하기 - input stream없이 entry 생성하기 (0)	2024.06.03
NAFNet github 학습환경 세팅하기 (image denoise, deblur, restoration, StereoSR, torch distributed package) (0)	2024.05.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

멀티미디어 - Sound 소리 요약 정리 (waveform, digitization, sound processing, compression, speech recognition)

Waveforms

Digitization

Sampling

Quantization

Sound Processing

Discrete Fourier Transform