음성언어의 구조 - (2) 말소리의 생성 과정

Sound

소리

공기의 입자가 있는데, 우리가 밖으로 말을 하면 wave 가 우리 앞의 공기 입자를 건드림.
내 입에서 나온 air pressure 의 변화에 따라 내 앞의 공기 입자가 변화하게 되고 그러면서 전파됨.
공기의 입자들이 계속 전달이 되면서 압력을 형성하고 그 압력의 패턴이 계속 달라짐.
계속해서 변하는 압력을 밖으로 전달해주고, 그 소리들이 고막을 두드림.

고막에는 얇은 막이 있음.
소리를 모아 놓으면 air pressure 이 고막을 진동시키고, 고막이 진동하면 막에 연결된 연골(부드러운 뼈; 추골, 침골)들이 진동함. 고막에 연결된 추골이 먼저 진동하고, 그 후 침골이 진동함.
가운데 귀 - 고막 -연골 들은 밖에서 들려오는 입력인 소리들의 압력 변화를 mechanical vibration으로 변환시키고, 공기 압력의 변화를 뼈의 진동으로 바꾸는 것임.
그렇게 해서 달팽이관(속귀에 있는 달팽이 모양으로 생긴 기관)으로도 진동을 전달해줌.
가운데 귀에 있는 연골이 달팽이관에 연결되는데, 고막을 통해 달팽이관 막으로 연결이 되면 고막이 진동함. 추골, 침골 연골이 진동하면 달팽이관의 센싱 부분이 진동을 하게 됨.

달팽이관은 세바퀴 반이 돌려져 있는데, 이 달팽이관을 쭉 피면 위와 같은 그림.
달팽이관 가운데에 막이 있고, 그 막으로 위 아래 두개로 분리가 ㅚ어 있음.
위와 아래는 다른 성분들로 차 있고 출렁출렁함.
가운데 귀 연골들의 진동이 달팽이관의 입력을 받는 부위인 stapes에 연결이 됨.
stapes가 기계적인 진동을 하게 되면, 이 진동의 파형과 압력의 변화가 달팽이관을 따라서 전달됨.
그러면서 가운데에 있는 막이 출렁출렁하게 되고, 달팽이관의 가운데의 기저막인 Basilar membrane 이 진동하게 됨.
귓바퀴에서 소리가 모아지고 고막으로 공기의 압력이 전달되고 고막이 진동하면, 연골을 통해 달팽이관 센싱 부위를 진동시켜 달팽이관으로 mechanical vibration을 전달시키는 것임.
자세히 말하면, 달팽이관의 가운데에 위치하는 basilar membrane 막을 진동시키는 것임.
뇌로 연결되는 청각신경들은 달팽이관의 가운데 막에 또 연결되어 있음.
mechanical vibration이 달팽이관 가운데에 있는 basilar membrane을 진동시키고, 여기에 청각신경(auditory nerve)이 달팽이관의 기저막의 진동을 센싱해 뇌로 전달해줌.

정리해보면, acoustic pressure signal 이 들어오게 되면, 달팽이관 가운데 기저막인 basilar membrane에서 mechanical vibration pattern 으로 변환이 되고, 이것이 청각신경을 통해 뇌로 전달되는 것임.해서 뇌로 전달이 됨.

달팽이관에 청각신경이 위 그림과 같이 연결되어 있음.

달팽이관에 전달되는 vibration 이 어떤 pattern 을 가지게 되는데 ...

여기보면 달팽이관 있는데에 전달이 되는데,

달팽이관의 기저막. 기저막 쪽 있는데에 청각신경이 연결이 되어있다고 했는데, 재밌는게 청각신경 여러 파들이 중첩이 되어서 기저막을 출렁출렁하는데. high frequency 로 움직이는 파는 달팽이관의 앞부분에서 더많이 출렁거리고, 저주파로 들어오는 air pressure 의 변화는 달팽이관의 끝부분에 있는데에서 더 low frequency 성분의 영향이 더 커지게 됨. 다시 말하면 달팽이관의 앞부분의 기저막은 말소리의 고주파 성분을 탐지하는 센서 역할을 해주고, 달팽이관의 끝부분은 말소리의 저주파 성분을 탐지하는 그런 센서 역할을 해줌. 고주파에서 저주파까지 사람의 가청 주파수가 20~22000 Hz 인데 22000 Hz 에 가까운 소리들은 달팽이관의 앞부분에서 센싱이 되고, 20Hz 까지 내려가는 저주파 성분들은 달팽이관의 끝부분에서 센싱이 됨.

청각신경이 달팽이관에 붙어있으면 달팽이관의 기저막이 센싱하는역할이고, 이걸 필터라고 함. 모든 성분의 신호를 받아서 이 끝부분은 저주파 성분을 필터링. 추출해가지고서 뇌로 전달해주고. 달팽이관의 앞부분은 고주파 성분을 필터링.추출해서 뇌로 전달해주는..

그래서 그림을 이렇게 그릴 때 달팽이관의 앞부분은 20000Hz 성분.. 갈수록 7000 5000 3000 낮아짐.

이런식으로 달팽이관의 기저막 어느 부위에서 어떤 주파수에 민감하게 반응하는가 하는것들을 실제로 측정한게 되는 것. 이건 linear scale 이 아니라 log scale 로 되어있음.

재밌는 것은 주파수가 어떤 특성을 가지고 있는지 .. 20-22000 Hz 가 우리가 들을 수 있는 가청주파수. 22000 Hz 넘어서면 초음파임.

사람의 말소리는 핸드폰 통해서 친구목소리 들을 때, 면대면으로 앞에서 들을 때와 다름. 전화기 통해서 들으면 무슨 말을 하는지는 알아듣고 누군지는 알아듣지만 미미한 성분들은 다름. 직접 대면해서 들을 때와는 조금 다름. 그 이유가 스마트폰이나 디지털 통신. 음성 통신하는데에 있어서 데이터를 압축해서 보내야하기 때문에 모든 정보를 보낼 수는 없음. 음성통신을 하는데에 전화기를 통해서 들을 때와 직접과 다른데, 전화기 통해서가 음성 통신하는데에 잇어서 best quality 임. 유선 전화 - 아날로그 통신. 집집마다 깔려있는 전화기. 유선전화 통해서 전화하면 어떻게 되냐면 전화기 유선으로 연결되어있는. 집집마다 연결되어있는 전화선들 아래에 케이블이 깔려잇음. 우리동네 젤 가까운 전화국으로 연결이 됨. 그 전화국에서 다른 전화국으로 또 땅밑에 잇는 케이블 통해서 전달 전달 해서 친구집으로 들어가는 케이블로 연결되는 것임. 이 케이블이 어떤 특성을 가지고 있냐면 4000 Hz 이상의 정보를 저장못함. 소리는 고주파, 저주파 성분이 잇는데 4000 이상의 고주파성분은 손실되어버림. 음성통신할 때 유선전화기는 4000 Hz 이하의 말소리 성분만 전달해주는 것임. 이게 우리가 듣는 전화기 통한 친구의 목소리임. 유선전화의 음질을 유지하면서 데이터 양을 줄이려고 하는게 디지털 통신의 목표임. 핸드폰 통해서 디지털 통신으로 전화할 때는 유선전화로 전달되는 것보다 데이터 양은 적게 전달하는데 음질은 유선전화보다 높게 하려는 걸 목표로 개발함.

대면해서 얘기하면 22000 까지 모두 들을 수 있으니 전화선, 케이블을 통과하면서 전달되지 않는 고주파 성분들을 들을 수 있기 때문에 소리가 다른 것임. 그렇다고 22000 까지 사람의 말소리가 분포되어있는 건 아님. 8000 정도까지 분포되어있음. 따라서 전화기 통해서 음성통신 할 때 어떤 내용인지, 누가말했는지 정도만 파악되면 충분하니까 4000 까지 보내고, 친구와 대면해서 얘기할 때는 8000 까지 다 들을 수 있는 것임.

8000-22000 에 해당하는건 그럼 사람의 말소리에는 없는 고주파 성분들이 되는것인데, 이건 왜 필요할까?

(이 글은 서울대학교 정민화 교수님 '언어와정보처리' 과목에서 '음성언어의 구조' 수업 내용을 정리한 글입니다.)

'Spoken Language Processing' 카테고리의 다른 글

음성언어처리, 인간의 청지각과정, 베이즈정리, HMM 에 대하여 (0)	2022.03.10
한국어 음성인식에 대해서 (0)	2022.03.10
음성인식(Speech recognition) 이란? (0)	2022.03.04
Fairseq로 기계번역기 만들기 (0)	2022.01.13
음성언어의 구조 - (1) 말소리의 생성 과정 (0)	2021.12.15

nongdevlog

음성언어의 구조 - (2) 말소리의 생성 과정

Sound

'Spoken Language Processing' 카테고리의 다른 글

댓글

티스토리툴바

음성언어의 구조 - (2) 말소리의 생성 과정

Sound

'Spoken Language Processing' 카테고리의 다른 글

관련글

댓글

티스토리툴바