python已經(jīng)支持WAV格式的書寫,而實(shí)時(shí)的聲音輸入輸出需要安裝pyAudio。最后我們還將使用pyMedia進(jìn)行Mp3的解碼和播放。
音頻信號(hào)是模擬信號(hào),我們需要將其保存為數(shù)字信號(hào),才能對語音進(jìn)行算法操作,WAV是Microsoft開發(fā)的一種聲音文件格式,通常被用來保存未壓縮的聲音數(shù)據(jù)。
語音信號(hào)有四個(gè)重要的參數(shù):聲道數(shù)、采樣頻率、量化位數(shù)(位深)和比特率。
聲道數(shù):可以是單聲道、雙聲道...
采樣頻率(Samplerate):每秒內(nèi)對聲音信號(hào)采樣樣本的總數(shù)目,44100Hz采樣頻率意味著每秒鐘信號(hào)被分解成44100份。換句話說,每隔144100秒就會(huì)存儲(chǔ)一次,如果采樣率高,那么媒體播放音頻時(shí)會(huì)感覺信號(hào)是連續(xù)的。
量化位數(shù)(Bitdepth):也稱為“位深”,每個(gè)采樣點(diǎn)中信息的比特(bit)數(shù)。1byte等于8bit。通常有8bit、16bit、24bit、32bit...
比特率(Bitrate):每秒處理多少個(gè)Bit。比如一個(gè)單聲道,用44.1KHz/16Bit的配置來說,它的比特率就為44100*16*1=705600,單位是bit/s(或者bps),因?yàn)橥ǔS?jì)算出來的數(shù)字都比較大,大家就用kbit/s了,也就是705.6kbit/s。在對音頻進(jìn)行壓縮時(shí),比特率就成為了我們的一個(gè)要選的選項(xiàng)了,越高的比特率,其音質(zhì)也就越好。一些常用的比特率有:
32kbit/s:一般只適用于語音
96kbit/s:一般用于語音或低質(zhì)量流媒體
128或160kbit/s:中等比特率質(zhì)量
192kbit/s:中等質(zhì)量比特率
256kbit/s:常用的高質(zhì)量比特率
320kbit/s:MP3標(biāo)準(zhǔn)支持的最高水平
如果你需要自己錄制和編輯聲音文件,推薦使用Audacity,它是一款開源的、跨平臺(tái)、多聲道的錄音編輯軟件。在我的工作中經(jīng)常使用Audacity進(jìn)行聲音信號(hào)的錄制,然后再輸出成WAV文件供Python程序處理。
如果想要快速看語音波形和語譜圖,推薦使用AdobeAudition,他是Adobe公司開發(fā)專門處理音頻的專業(yè)軟件,微博關(guān)注vposy,下載地址見置頂。他破解了很多adobe公司的軟件,包括PS、PR...
以上內(nèi)容為大家介紹了python音頻信號(hào),希望對大家有所幫助,如果想要了解更多Python相關(guān)知識(shí),請關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。