打印

[音响] 借四张图说说音频采样与还原

jjx01

魔神至尊

帖子: 23117
精华: 1
积分: 36777
激骚: 1017 度
爱车
主机
相机
手机
注册时间: 2001-8-13

发短消息
加为好友
当前离线

1^# 大中小发表于 2018-9-19 09:55 显示全部帖子

https://www.bilibili.com/video/av6062953

这个视频没翻译的我贴过一次，523贴过一次，有翻译的我也贴过一次，现在至少四次了，借里面的图说一下音频处理过程：

第一步，对源波形采样，保证每个周期至少2个采样点：

说明：1.视频里用的波形是方波，选它做代表的原因是因为它最能说明傅立叶变换的特性，如果随便找两三个乐器叠加的波形让傅立叶变换去还原，一下子就输出了源波形，看不到输入和输出的差别，说明不了音频还原的特点。
2.认为“采样是不连续的，输出的波形是阶梯状”的人是不是从来就没有想过：如果输出的波形真是阶梯状的，那么方波应该是最容易还原的————这玩意一开始就是个阶梯？实际上现实里方波是无法完美还原的，不过人耳听不出差别，下面会讲解。

第二步，将采样点输入，用傅立叶变换计算得到函数y(t):

说明：1.无论在第一步里采样的是每周期2个点，还是每周期4个点，还是每周期8个点，输入之后用傅立叶变换得到的函数y(t)都是相同的，采样定理保证这个函数只有唯一解。
2.这个y(t)包含了无限多项，只有把这无限多项全部加起来，得到的才是标准的方波。
3.无限多个连续函数相加能得到不连续函数这个问题可以请问你们大学数学老师。
4.基本物理常识，简谐振动产生的都是正弦波（即y(t)的项），所以在现实里，用无限个不同频率的物体同时振动（频率也要一直提高到无限），出来的声音就是标准方波。
5.现实里做不到“无限个不同频率的物体同时振动”，所以标准的方波在现实里用任何乐器都演奏不出来，人也唱不出来，音乐里你也听不到这玩意。

第三步，去掉y(t)里包含人耳听不到的频率的项，得到函数y(t1)，这里是剩下前10项，波形变得不再是标准方波：

说明：1.有限多个连续函数相加得到的仍然是连续函数，不懂的问大学数学老师，所以y(t1)的图像是连续不断的，不含任何“阶梯”。
2.不论源波形是什么样的，只要经过一、二、三步处理，得到的都是连续不断的唯一函数y(t1)。
3.y(t1)可以用演奏出来，只要让10个喇叭对应y(t1)的每一项来振动就行，所以这玩意现实里能听到。

第四步，输出y(t1)

说明：因为在第三步里去掉的是y(t)里包含人耳听不到的频率的项，所以你听到的y(t1)的声音，和y(t)的声音无任何区别，也就是10个喇叭，分别发出1khz、3khz、……、19khz的声音叠加，和无限个喇叭分别发出1khz、3khz、……、19khz、21khz、23khz、……来叠加，人耳听起来毫无差别————前提是能找到完美振动在这10个频率的喇叭，让它们同时振动，这是就是为什么现实里声音不能完美还原，也是hifi的理论起点。然而跟音频信号采样率提升半点关系都没有。

总结：当源波形包含人耳不能听到的频率的项时，还原的时候波形未必相同，但人耳听起来相同，并且永远不会出现阶梯状波形。
当源波形包含的频率人耳都能听到，还原的时候波形完全相同，但现实里的放大器、喇叭未必能100%演奏出这个完全相同的波形。

[ 本帖最后由 jjx01 于 2018-9-19 13:20 编辑 ]

附件: 您所在的用户组无法下载或查看附件

本帖最近评分记录

mushroom 激骚 +2 恭喜发财 2018-9-19 12:12

TOP

jjx01

魔神至尊

帖子: 23117
精华: 1
积分: 36777
激骚: 1017 度
爱车
主机
相机
手机
注册时间: 2001-8-13

发短消息
加为好友
当前离线

2^# 大中小发表于 2018-9-19 13:28 显示全部帖子

引用:

原帖由 甲级战犯他祖宗 于 2018-9-19 11:08 发表
posted by wap, platform: iPad
这用来解释傅里叶变换是正确的，但用来解释音频采样还原我认为不合适
方波无论在采样前还是采样后都是频域连续的。就好比一条直线上有无穷个点，截一条线段上面还是有无穷个点
这文章用频域采样（注意和时域采样的区别）截取10个正弦函数来解释傅里叶变换没问题，但在实际音频处理中这么做还原出来是有失真的，因为会导致可听见频率的信息丢失

首先，频域是类似这样的：

方波的频域视频里没出现
然后就没有然后了

附件: 您所在的用户组无法下载或查看附件

TOP

jjx01

魔神至尊

帖子: 23117
精华: 1
积分: 36777
激骚: 1017 度
爱车
主机
相机
手机
注册时间: 2001-8-13

发短消息
加为好友
当前离线

3^# 大中小发表于 2018-9-19 13:30 显示全部帖子

引用:

原帖由 jinye2001 于 2018-9-19 12:23 发表
出差了两天原来还在讨论这东西
你这个理论来解释规则信号是没有问题的
但是实际的不管什么信号，都是随时随机在变化的，永远是很多不同信号的叠加，需要应对这个情况才需要提高DA的采样率
就你那贴非要说2点决定一 ...

随时随机变化，这好像是噪音和音乐的区别

TOP

jjx01

魔神至尊

帖子: 23117
精华: 1
积分: 36777
激骚: 1017 度
爱车
主机
相机
手机
注册时间: 2001-8-13

发短消息
加为好友
当前离线

4^# 大中小发表于 2018-9-19 13:32 显示全部帖子

引用:

原帖由 flyingchaos 于 2018-9-19 10:48 发表
posted by wap, platform: Samsung
翔尼是不是说通过模型学习对截断的频谱图进行高频区域插值，试图恢复缺失的高频信息。虽然我不知道这可不可行。

可行，然而是测试智商
首先人唱不到那个高频，其次乐器发不出那个高频，最后人耳听不到那个高频，算出来给蝙蝠听差不多

[ 本帖最后由 jjx01 于 2018-9-19 13:33 编辑 ]

TOP

jjx01

魔神至尊

帖子: 23117
精华: 1
积分: 36777
激骚: 1017 度
爱车
主机
相机
手机
注册时间: 2001-8-13

发短消息
加为好友
当前离线

5^# 大中小发表于 2018-9-19 15:15 显示全部帖子

引用:

原帖由 甲级战犯他祖宗 于 2018-9-19 14:25 发表
posted by wap, platform: iPad
这种频域离散的声音只能是人造的。任何自然界存在的声音频域永远是连续的。你该不会认为12khz的声音不存在吧

一般声音的频谱如图
https://www.researchgate.net/profile/Achmad_R ...

你要消去噪音，留下有效信号……
12khz的声音就是由12khz项及它的整数倍频率项叠加，不会有其它的频率

当然如果源声音不仅有12khz，还有11khz，那就会出现11khz项和它的整数倍频率项

这是看你源声音有几个频率
如果用连续频率的声音叠加呢，就会得到噪音，我们要进入基本乐理知识阶段了：

引用:

和弦（chord）源自希腊文χορδή，原意是指弦线。在音乐理论里，是指组合在一起的两个或更多不同音高的音。在欧洲古典音乐及受其影响的音乐风格里，更多时候是指三个或以上的音高组合，而两个音高的组合则以音程来描述。和弦的组成音，可分开演奏，亦可同时演奏。分开演奏的，我们称为分解和弦〔或分散和弦〕。和弦有三度叠置及非三度叠置之分，在西方传统和声中的和弦，均按照三度叠置的原则构成。

这玩意用起来是有讲究的，频率必须是某个频率的整数倍，不然声音就很难听

引用:

https://read.muzikair.com/tw/new ... %E8%AB%96-7414.html
弦樂器的每個音，按的位置和琴弦的弦長之間都有特定的比例關係，而最早發現這個現象的人就是畢達哥拉斯。
據說，有一次畢達哥拉斯路過一間打鐵舖，舖裡發出各式鎚子敲打鐵塊的聲音。畢達哥拉斯當時注意到，當不同鎚子同時敲打時，有時發出的是吵雜不堪的噪音，有時卻能發出和諧的聲響。畢達哥拉斯發揮追根究柢的研究精神，他對鎚子進行分析後發現，那些敲打時能發出和諧聲音的鎚子，彼此的質量都成一種簡單的整數比，比方1：2、1：3或2：3等等。

畢達哥拉斯認為，這樣的道理在琴弦上應該也適用，於是在琴弦上試驗數次，發現將琴橋上下移動，會使兩邊弦的音高改變。當琴橋在弦的中間時，兩邊的音高相同；若是琴橋把琴弦分成3：2，則會產生悅耳的和弦，因此不同的弦長比例會導致不同的音高，若是比例不對，則會形成不和諧的和弦聲。

最後他得到一個結論，所有的和諧音，都是基於一種簡單的整數比造成的。

现实世界里你录歌会录到非整数倍的比例的频谱，那是因为有背景噪音，那玩意在频域里看起来纵坐标不高，就是顶楼视频里的白噪音，这玩意不去研究它的还原没什么问题吧？

找个midi音乐加载效果器放到频谱仪里应该就看不到这些东西了

[ 本帖最后由 jjx01 于 2018-9-19 15:24 编辑 ]

附件: 您所在的用户组无法下载或查看附件

TOP

jjx01

魔神至尊

帖子: 23117
精华: 1
积分: 36777
激骚: 1017 度
爱车
主机
相机
手机
注册时间: 2001-8-13

发短消息
加为好友
当前离线

6^# 大中小发表于 2018-9-19 19:00 显示全部帖子

引用:

原帖由 甲级战犯他祖宗 于 2018-9-19 15:32 发表
posted by wap, platform: iPad
。。。。。看不懂你想说啥
噪声和非噪声不过人为定义，说到底都是声音
自然界的任何声音在频域都是连续的
你给的图里面频域离散，12khz处强度是0。这种声音只能由特殊仪器制造出来 ...

引用:

自然的声音比如人说话或者音乐，12khz处都不会是0的，强度高低不同罢了。同理11.99khz处也不会是零，11.9999khz处也不会是零，类推

没错，只能说音调是离散的，实际上为了体现音色，会有很多频率叠加进去，但是不是连续的我还是有疑问
如何知道频谱图里一些频谱，不是录音的时候顺带录进去的背景噪音，而是发音设备发出的声音？
比如我什么话都没说，用话筒录音：

这玩意可以说是频谱连续吗？可以的话，如果我说话和这个背景噪音叠加，那当然是连续的频谱了，但不能以此证明我的说话就是连续频谱

最后补上人声频谱拉开了看的效果图，离散的

[ 本帖最后由 jjx01 于 2018-9-22 09:04 编辑 ]

附件: 您所在的用户组无法下载或查看附件

TOP

jjx01

魔神至尊

帖子: 23117
精华: 1
积分: 36777
激骚: 1017 度
爱车
主机
相机
手机
注册时间: 2001-8-13

发短消息
加为好友
当前离线

7^# 大中小发表于 2018-9-19 22:19 显示全部帖子

引用:

原帖由 jinye2001 于 2018-9-19 14:37 发表
posted by wap, platform: iPhone
音乐本来就是随时随机变化的组合，难道你还能保证某人忽然来一敲一声锣正好是你采样的时刻？

只要你能听见锣声，它就是20khz以内的频率，用44.1khz采样就能在一个周期内采样两个点以上

TOP

jjx01

魔神至尊

帖子: 23117
精华: 1
积分: 36777
激骚: 1017 度
爱车
主机
相机
手机
注册时间: 2001-8-13

发短消息
加为好友
当前离线

8^# 大中小发表于 2018-9-19 23:21 显示全部帖子

引用:

原帖由 jinye2001 于 2018-9-19 23:13 发表
posted by wap, platform: iPhone
2点你并不能表征这个信号，为什么视频中数字示波器和模拟示波器有区别，模拟示波器可以很好的还原波形是因为数字输出他没有用滤波器，而模拟输出那个盒子输出级是有一个20KH低通滤波 ...

降低噪音那是音频录制，编辑时候的事情，用的是高位深
等到音频都处理完了，拿出来卖钱的时候，噪音已经处理掉了，16bit已够

TOP