TGFC Lifestyle - Powered by Discuz! Board

标题: [音响] 借四张图说说音频采样与还原 [打印本页]

作者: jjx01 时间: 2018-9-19 09:55 标题: 借四张图说说音频采样与还原

https://www.bilibili.com/video/av6062953
[flash=644,515]https://player.bilibili.com/player.html?aid=2593302&cid=4050086&page=1[/flash]
这个视频没翻译的我贴过一次，523贴过一次，有翻译的我也贴过一次，现在至少四次了，借里面的图说一下音频处理过程：

第一步，对源波形采样，保证每个周期至少2个采样点：
[attach]1024737[/attach]
说明：1.视频里用的波形是方波，选它做代表的原因是因为它最能说明傅立叶变换的特性，如果随便找两三个乐器叠加的波形让傅立叶变换去还原，一下子就输出了源波形，看不到输入和输出的差别，说明不了音频还原的特点。
2.认为“采样是不连续的，输出的波形是阶梯状”的人是不是从来就没有想过：如果输出的波形真是阶梯状的，那么方波应该是最容易还原的————这玩意一开始就是个阶梯？实际上现实里方波是无法完美还原的，不过人耳听不出差别，下面会讲解。

第二步，将采样点输入，用傅立叶变换计算得到函数y(t):
[attach]1024738[/attach]
说明：1.无论在第一步里采样的是每周期2个点，还是每周期4个点，还是每周期8个点，输入之后用傅立叶变换得到的函数y(t)都是相同的，采样定理保证这个函数只有唯一解。
2.这个y(t)包含了无限多项，只有把这无限多项全部加起来，得到的才是标准的方波。
3.无限多个连续函数相加能得到不连续函数这个问题可以请问你们大学数学老师。
4.基本物理常识，简谐振动产生的都是正弦波（即y(t)的项），所以在现实里，用无限个不同频率的物体同时振动（频率也要一直提高到无限），出来的声音就是标准方波。
5.现实里做不到“无限个不同频率的物体同时振动”，所以标准的方波在现实里用任何乐器都演奏不出来，人也唱不出来，音乐里你也听不到这玩意。

第三步，去掉y(t)里包含人耳听不到的频率的项，得到函数y(t1)，这里是剩下前10项，波形变得不再是标准方波：
[attach]1024739[/attach]
说明：1.有限多个连续函数相加得到的仍然是连续函数，不懂的问大学数学老师，所以y(t1)的图像是连续不断的，不含任何“阶梯”。
2.不论源波形是什么样的，只要经过一、二、三步处理，得到的都是连续不断的唯一函数y(t1)。
3.y(t1)可以用演奏出来，只要让10个喇叭对应y(t1)的每一项来振动就行，所以这玩意现实里能听到。

第四步，输出y(t1)
[attach]1024740[/attach]
说明：因为在第三步里去掉的是y(t)里包含人耳听不到的频率的项，所以你听到的y(t1)的声音，和y(t)的声音无任何区别，也就是10个喇叭，分别发出1khz、3khz、……、19khz的声音叠加，和无限个喇叭分别发出1khz、3khz、……、19khz、21khz、23khz、……来叠加，人耳听起来毫无差别————前提是能找到完美振动在这10个频率的喇叭，让它们同时振动，这是就是为什么现实里声音不能完美还原，也是hifi的理论起点。然而跟音频信号采样率提升半点关系都没有。

总结：当源波形包含人耳不能听到的频率的项时，还原的时候波形未必相同，但人耳听起来相同，并且永远不会出现阶梯状波形。
当源波形包含的频率人耳都能听到，还原的时候波形完全相同，但现实里的放大器、喇叭未必能100%演奏出这个完全相同的波形。

[ 本帖最后由 jjx01 于 2018-9-19 13:20 编辑 ]

作者: ff_cactus 时间: 2018-9-19 09:59

posted by wap, platform: iPhone
有线爱好者不是说有线肯定比蓝牙更好吗？

作者: flyingchaos 时间: 2018-9-19 10:48

posted by wap, platform: Samsung
翔尼是不是说通过模型学习对截断的频谱图进行高频区域插值，试图恢复缺失的高频信息。虽然我不知道这可不可行。

作者: LionHeart 时间: 2018-9-19 11:05

posted by wap, platform: Android
力挺楼主

作者: 甲级战犯他祖宗 时间: 2018-9-19 11:08

posted by wap, platform: iPad
这用来解释傅里叶变换是正确的，但用来解释音频采样还原我认为不合适
方波无论在采样前还是采样后都是频域连续的。就好比一条直线上有无穷个点，截一条线段上面还是有无穷个点
这文章用频域采样（注意和时域采样的区别）截取10个正弦函数来解释傅里叶变换没问题，但在实际音频处理中这么做还原出来是有失真的，因为会导致可听见频率的信息丢失

作者: 532 时间: 2018-9-19 11:53

原来我有个失散多年的兄弟叫523，看来比我小9号

作者: mushroom 时间: 2018-9-19 12:11

nice video

作者: jinye2001 时间: 2018-9-19 12:23

出差了两天原来还在讨论这东西
你这个理论来解释规则信号是没有问题的
但是实际的不管什么信号，都是随时随机在变化的，永远是很多不同信号的叠加，需要应对这个情况才需要提高DA的采样率
就你那贴非要说2点决定一个圆，你两点决定的圆是在限定平面限定他一定是圆的情况下，实际这东西可能是个鸡蛋，你两点怎么还原？
另外那贴里我也说了，sony写文案的家伙翻译的有问题，升频提高采样率提高的是信号的准确度，但是对没有的高频信号肯定是无能为力的

作者: jjx01 时间: 2018-9-19 13:28

引用:

原帖由 甲级战犯他祖宗 于 2018-9-19 11:08 发表
posted by wap, platform: iPad
这用来解释傅里叶变换是正确的，但用来解释音频采样还原我认为不合适
方波无论在采样前还是采样后都是频域连续的。就好比一条直线上有无穷个点，截一条线段上面还是有无穷个点
这文章用频域采样（注意和时域采样的区别）截取10个正弦函数来解释傅里叶变换没问题，但在实际音频处理中这么做还原出来是有失真的，因为会导致可听见频率的信息丢失

首先，频域是类似这样的：
[attach]1024798[/attach]
方波的频域视频里没出现
然后就没有然后了

作者: jjx01 时间: 2018-9-19 13:30

引用:

原帖由 jinye2001 于 2018-9-19 12:23 发表
出差了两天原来还在讨论这东西
你这个理论来解释规则信号是没有问题的
但是实际的不管什么信号，都是随时随机在变化的，永远是很多不同信号的叠加，需要应对这个情况才需要提高DA的采样率
就你那贴非要说2点决定一 ...

随时随机变化，这好像是噪音和音乐的区别

作者: jjx01 时间: 2018-9-19 13:32

引用:

原帖由 flyingchaos 于 2018-9-19 10:48 发表
posted by wap, platform: Samsung
翔尼是不是说通过模型学习对截断的频谱图进行高频区域插值，试图恢复缺失的高频信息。虽然我不知道这可不可行。

可行，然而是测试智商
首先人唱不到那个高频，其次乐器发不出那个高频，最后人耳听不到那个高频，算出来给蝙蝠听差不多

[ 本帖最后由 jjx01 于 2018-9-19 13:33 编辑 ]

作者: 532 时间: 2018-9-19 13:44

引用:

原帖由 jinye2001 于 2018-9-19 12:23 发表
出差了两天原来还在讨论这东西
你这个理论来解释规则信号是没有问题的
但是实际的不管什么信号，都是随时随机在变化的，永远是很多不同信号的叠加，需要应对这个情况才需要提高DA的采样率
就你那贴非要说2点决定一 ...

索尼那种玄学就算了吧

一般人家里的石英钟，无源晶振跑起来就那么几万hz

你往石英钟里面塞个100m有源恒温晶振，每年比上面的搓逼货准0.5秒，有意义么

作者: 甲级战犯他祖宗 时间: 2018-9-19 14:25

posted by wap, platform: iPad

引用:

原帖由 @jjx01 于 2018-9-19 13:28 发表
首先，频域是类似这样的：
1024798
方波的频域视频里没出现
然后就没有然后了

这种频域离散的声音只能是人造的。任何自然界存在的声音频域永远是连续的。你该不会认为12khz的声音不存在吧

一般声音的频谱如图

作者: jinye2001 时间: 2018-9-19 14:37

posted by wap, platform: iPhone

引用:

原帖由 @jjx01 于 2018-9-19 13:30 发表
随时随机变化，这好像是噪音和音乐的区别

音乐本来就是随时随机变化的组合，难道你还能保证某人忽然来一敲一声锣正好是你采样的时刻？这个时刻过了就是过了，你再也采不到了，也就无法还原了
而且即便是完美的正弦信号，你采样不是整周期一样不能准确还原信号

作者: yangjuniori 时间: 2018-9-19 14:41

还是模拟直接录最高？

作者: jjx01 时间: 2018-9-19 15:15

引用:

原帖由 甲级战犯他祖宗 于 2018-9-19 14:25 发表
posted by wap, platform: iPad
这种频域离散的声音只能是人造的。任何自然界存在的声音频域永远是连续的。你该不会认为12khz的声音不存在吧

一般声音的频谱如图
https://www.researchgate.net/profile/Achmad_R ...

你要消去噪音，留下有效信号……
12khz的声音就是由12khz项及它的整数倍频率项叠加，不会有其它的频率

当然如果源声音不仅有12khz，还有11khz，那就会出现11khz项和它的整数倍频率项

这是看你源声音有几个频率
如果用连续频率的声音叠加呢，就会得到噪音，我们要进入基本乐理知识阶段了：

引用:

和弦（chord）源自希腊文χορδή，原意是指弦线。在音乐理论里，是指组合在一起的两个或更多不同音高的音。在欧洲古典音乐及受其影响的音乐风格里，更多时候是指三个或以上的音高组合，而两个音高的组合则以音程来描述。和弦的组成音，可分开演奏，亦可同时演奏。分开演奏的，我们称为分解和弦〔或分散和弦〕。和弦有三度叠置及非三度叠置之分，在西方传统和声中的和弦，均按照三度叠置的原则构成。

这玩意用起来是有讲究的，频率必须是某个频率的整数倍，不然声音就很难听

引用:

https://read.muzikair.com/tw/new ... %E8%AB%96-7414.html
弦樂器的每個音，按的位置和琴弦的弦長之間都有特定的比例關係，而最早發現這個現象的人就是畢達哥拉斯。
據說，有一次畢達哥拉斯路過一間打鐵舖，舖裡發出各式鎚子敲打鐵塊的聲音。畢達哥拉斯當時注意到，當不同鎚子同時敲打時，有時發出的是吵雜不堪的噪音，有時卻能發出和諧的聲響。畢達哥拉斯發揮追根究柢的研究精神，他對鎚子進行分析後發現，那些敲打時能發出和諧聲音的鎚子，彼此的質量都成一種簡單的整數比，比方1：2、1：3或2：3等等。

畢達哥拉斯認為，這樣的道理在琴弦上應該也適用，於是在琴弦上試驗數次，發現將琴橋上下移動，會使兩邊弦的音高改變。當琴橋在弦的中間時，兩邊的音高相同；若是琴橋把琴弦分成3：2，則會產生悅耳的和弦，因此不同的弦長比例會導致不同的音高，若是比例不對，則會形成不和諧的和弦聲。

最後他得到一個結論，所有的和諧音，都是基於一種簡單的整數比造成的。

现实世界里你录歌会录到非整数倍的比例的频谱，那是因为有背景噪音，那玩意在频域里看起来纵坐标不高，就是顶楼视频里的白噪音，这玩意不去研究它的还原没什么问题吧？
[attach]1024817[/attach]
找个midi音乐加载效果器放到频谱仪里应该就看不到这些东西了

[ 本帖最后由 jjx01 于 2018-9-19 15:24 编辑 ]

作者: 甲级战犯他祖宗 时间: 2018-9-19 15:32

posted by wap, platform: iPad

引用:

原帖由 @jjx01 于 2018-9-19 15:15 发表
你要消去噪音，留下有效信号……
12khz的声音就是由12khz项及它的整数倍频率项叠加，不会有其它的频率

当然如果源声音不仅有12khz，还有11khz，那就会出现11khz项和它的整数倍频率项

这是看你源声音有几个频率
如果用连续频率的声音叠加呢，就会得到噪音，我们要进入基本乐理知识阶段了：

这玩意用起来是有讲究的，频率必须是某个频率的整数倍，不然声音就很难听

现实世界里你录歌会录到非整数倍的比例的频谱，那是因为有背景噪音，那玩意在频域里看起来纵坐标不高，就是顶楼视频里的白噪音，这玩意不去研究它的还原没什么问题吧？
1024817
找个midi音乐加载效果器放到频谱仪里应该就看不到这些东西了

。。。。。看不懂你想说啥
噪声和非噪声不过人为定义，说到底都是声音
自然界的任何声音在频域都是连续的
你给的图里面频域离散，12khz处强度是0。这种声音只能由特殊仪器制造出来，自然界是不可能存在的。自然的声音比如人说话或者音乐，12khz处都不会是0的，强度高低不同罢了。同理11.99khz处也不会是零，11.9999khz处也不会是零，类推

作者: 甲级战犯他祖宗 时间: 2018-9-19 15:54

posted by wap, platform: iPad
真实声音的时域和频域展开：

图里只展开到4000hz。实际上任何自然声音在频域上都是无穷延展，在任何频段都是无限连续的
消除或者保持某个特定频段，需要用到滤波器。而且只有理想滤波器能将不需要的频段衰减到零——这个“理想”的同义词是“不存在”
再贴一次

本帖最后由甲级战犯他祖宗于 2018-9-19 16:13 通过手机版编辑

作者: mushroom 时间: 2018-9-19 16:12

引用:

原帖由 甲级战犯他祖宗 于 2018-9-19 15:32 发表
posted by wap, platform: iPad
。。。。。看不懂你想说啥
噪声和非噪声不过人为定义，说到底都是声音
自然界的任何声音在频域都是连续的
你给的图里面频域离散，12khz处强度是0。这种声音只能由特殊仪器制造出来 ...

声音是震动产生的对吧。
人说话的时候12khz的震动源是啥？

作者: 甲级战犯他祖宗 时间: 2018-9-19 16:20

posted by wap, platform: iPad

引用:

原帖由 @mushroom 于 2018-9-19 16:12 发表
声音是震动产生的对吧。
人说话的时候12khz的震动源是啥？

你说话的声音震动源是啥？你的声带啊。只是人声在12khz的强度会非常非常低（但不会是零）
任何声音，无论什么东西发出来，无论高低强弱，在频域都是无穷延展，往无穷大的频率上看强度会趋向无穷小

作者: mushroom 时间: 2018-9-19 16:26

引用:

原帖由 甲级战犯他祖宗 于 2018-9-19 15:54 发表
posted by wap, platform: iPad
真实声音的时域和频域展开：
https://zh.wikipedia.org/wiki/%E ... rm_and_spectrum.png
图里只展开到4000hz。实际上任何自然声音在频域上都 ...

https://www.youtube.com/watch?v=5xjD6SRY8Pg
钢琴的频谱，并不是连续的

作者: 甲级战犯他祖宗 时间: 2018-9-19 16:32

posted by wap, platform: iPad

引用:

原帖由 @mushroom 于 2018-9-19 16:26 发表
https://www.youtube.com/watch?v=5xjD6SRY8Pg
钢琴的频谱，并不是连续的

肯定是连续的。在某些频段特别小，小到无法检测或者可以忽略罢了
就算你截取那小小的一个锋尖儿进行傅里叶级数展开也将是无穷多项
如果是理想单一频率或者几个频率的组合，在频谱上的表现将会是一根或者几根垂直的直线，高度=强度，宽度=无穷小。同样，理想=不存在

作者: jjx01 时间: 2018-9-19 19:00

引用:

原帖由 甲级战犯他祖宗 于 2018-9-19 15:32 发表
posted by wap, platform: iPad
。。。。。看不懂你想说啥
噪声和非噪声不过人为定义，说到底都是声音
自然界的任何声音在频域都是连续的
你给的图里面频域离散，12khz处强度是0。这种声音只能由特殊仪器制造出来 ...

引用:

自然的声音比如人说话或者音乐，12khz处都不会是0的，强度高低不同罢了。同理11.99khz处也不会是零，11.9999khz处也不会是零，类推

没错，只能说音调是离散的，实际上为了体现音色，会有很多频率叠加进去，但是不是连续的我还是有疑问
如何知道频谱图里一些频谱，不是录音的时候顺带录进去的背景噪音，而是发音设备发出的声音？
比如我什么话都没说，用话筒录音：
[attach]1024915[/attach]
这玩意可以说是频谱连续吗？可以的话，如果我说话和这个背景噪音叠加，那当然是连续的频谱了，但不能以此证明我的说话就是连续频谱

最后补上人声频谱拉开了看的效果图，离散的

[ 本帖最后由 jjx01 于 2018-9-22 09:04 编辑 ]

作者: jinye2001 时间: 2018-9-19 21:47

posted by wap, platform: iPhone
晚上有时间看了下视频，发现这视频我看过，这视频用模拟示波器得到完整的正弦波有一个问题，他没考虑到带宽，模拟示波器因为带宽低才会有这个情况
比方一个极端情况，dcdc输出是方波，通过lc低通之后，带宽足够低的情况下，是个平滑的直流
明天上班有时间找一台可以调带宽的示波器，可以演示下
忽然想到dcdc举例还不够典型，sony的数字功放就是通过低通滤波器将不同占空比的方波转化为正弦波

本帖最后由 jinye2001 于 2018-9-19 21:59 通过手机版编辑

作者: jjx01 时间: 2018-9-19 22:19

引用:

原帖由 jinye2001 于 2018-9-19 14:37 发表
posted by wap, platform: iPhone
音乐本来就是随时随机变化的组合，难道你还能保证某人忽然来一敲一声锣正好是你采样的时刻？

只要你能听见锣声，它就是20khz以内的频率，用44.1khz采样就能在一个周期内采样两个点以上

作者: jinye2001 时间: 2018-9-19 23:13

posted by wap, platform: iPhone

引用:

原帖由 @jjx01 于 2018-9-19 22:19 发表
只要你能听见锣声，它就是20khz以内的频率，用44.1khz采样就能在一个周期内采样两个点以上

2点你并不能表征这个信号，为什么视频中数字示波器和模拟示波器有区别，模拟示波器可以很好的还原波形是因为数字输出他没有用滤波器，而模拟输出那个盒子输出级是有一个20KH低通滤波器的，如果这个盒子没有滤波器用的d类功放的话，你直接接示波器看到的还是个方波
他后面的抖动其实也是通过滤波将噪声能量转移到人听不到的频段，d类功放也是用的差不多的原理
并且他的实验也说明了，高分辨率有助于降低噪声

本帖最后由 jinye2001 于 2018-9-19 23:16 通过手机版编辑

作者: jjx01 时间: 2018-9-19 23:21

引用:

原帖由 jinye2001 于 2018-9-19 23:13 发表
posted by wap, platform: iPhone
2点你并不能表征这个信号，为什么视频中数字示波器和模拟示波器有区别，模拟示波器可以很好的还原波形是因为数字输出他没有用滤波器，而模拟输出那个盒子输出级是有一个20KH低通滤波 ...

降低噪音那是音频录制，编辑时候的事情，用的是高位深
等到音频都处理完了，拿出来卖钱的时候，噪音已经处理掉了，16bit已够

作者: jinye2001 时间: 2018-9-20 00:11

posted by wap, platform: iPhone

引用:

原帖由 @jjx01 于 2018-9-19 23:21 发表
降低噪音那是音频录制，编辑时候的事情，用的是高位深
等到音频都处理完了，拿出来卖钱的时候，噪音已经处理掉了，16bit已够

固定的采样率对应不同的频率进行采样，必然会出现非整周期采样，非整周期采样一定会频谱泄漏造成噪声，解决这个问题的方式要么加窗，要么提高采样率，不同频率对应的窗不一样，对于实际应用那就是能是提高采样率了

作者: amm 时间: 2018-9-20 02:46

posted by wap, platform: iPhone
又来操心别人花钱了

欢迎光临 TGFC Lifestyle (http://club.tgfcer.com/)