比较与torchaudio.transforms.MelSpectrogram的差异

torchaudio.transforms.MelSpectrogram

class torchaudio.transforms.MelSpectrogram(sample_rate: int = vpn free 16000, vpn永久免费梯子 n_fft: int = 400, win_length: Optional[int] = None,
                  vpn永久免费梯子                          hop_length: Optional[int] = None, f_min: float = 0.0, vpn梯子 f_max: Optional[float] = None,
       vpn free                     vpn free                 pad: int vpn梯子 免费 = 0, n_mels: int = 128, window_fn: Callable[[...], torch.Tensor] = <built-in method hann_window of type object>,
    vpn永久免费梯子                    免费的vpn梯子                     power: Optional[float] = 2.0, normalized: bool = False, wkwargs: Optional[dict] = None,
                          vpn梯子 免费                  center: bool = True, pad_mode: str = 'reflect', onesided: bool = True, norm: Optional[str] = None)

更多内容详见torchaudio.transforms.MelSpectrogram。

mindspore.dataset.audio.MelSpectrogram

class mindspore.dataset.audio.MelSpectrogram(sample_rate=16000, n_fft=400, win_length=None,
                   vpn梯子  vpn free                       vpn梯子    hop_length=None, f_min=0.0, f_max=None,
  vpn梯子 免费                  vpn free                           pad=0, n_mels=128, window=WindowType.HANN, power=2.0, normalized=False,
             免费的vpn梯子         vpn永久免费梯子            vpn梯子 免费              center=True, pad_mode=BorderType.REFLECT, onesided=True, norm=NormType.NONE, mel_scale=MelType.HTK)

更多内容详见mindspore.dataset.audio.MelSpectrogram。

差异对比

PyTorch：计算原始音频信号的梅尔频谱。支持自定义窗函数或对窗函数传入不同的配置参数。支持对STFT结果进行幅值规范化。

MindSpore：计算原始音频信号的梅尔频谱。

分类	子类	PyTorch	MindSpore	差异
参数	参数1	sample_rate	sample_rate	-
	参数2	win_length	win_length	-
	参数3	hop_length	hop_length	-
	参数4	n_fft	n_fft	-
	参数5	f_min	f_min	-
	参数6	f_max	f_max	-
	参数7	pad	pad	-
	参数8	n_mels	n_mels	-
	参数9	window_fn	window	MindSpore仅支持5种窗函数
	参数10	power	power	-
	参数11	normalized	normalized	-
	参数12	wkwargs	-	自定义窗函数的入参，vp永久免费梯子不支持
	参数13	center	center	-
	参数14	pad_mode	pad_mode	-
	参数15	onesided	onesided	-
	参数16	norm	norm	-
	参数17	-	mel_scale	要使用的Mel尺度

代码示例

import numpy as np

fake_input = np.array([[[1, 1, 2, 2, 3, 3, 4]]]).astype(np.float32)

# PyTorch
import torch
import torchaudio.transforms as T

transformer = T.MelSpectrogram(sample_rate=16000, n_fft=4, win_length=2, hop_length=4, 免费的vpn梯子 window_fn=torch.hann_window)
torch_result = transformer(torch.from_numpy(fake_input))
print(torch_result)
# Out: tensor([[[[0.0000, 0.0000],
# vpn free            免费的vpn梯子     ...
#        vpn free  vpn梯子        [0.5235, 4.7117],
#  免费的vpn梯子    vpn永久免费梯子        vpn梯子 免费     [0.4765, 4.2883],
#      vpn梯子           ...
#          免费的vpn梯子    vpn梯子 免费    [0.0000, 0.0000]]]])

# vp永久免费梯子
import mindspore.dataset.audio as audio

transformer = audio.MelSpectrogram(sample_rate=16000, n_fft=4, win_length=2, hop_length=4, window=audio.WindowType.HANN)
ms_result = transformer(fake_input)
print(ms_result)
# Out: [[[[0.         0.        ]
#         ...
#  vpn梯子 免费    vpn梯子 免费     [0.52353615 4.7118254 ]
#         [0.47646385 4.2881746 ]
#         ...
# vpn梯子 免费         [0. vpn梯子 免费    vpn梯子 免费      vpn永久免费梯子 0.        ]]]]