MATLAB画图 发表于 2024-9-12 20:24:00

如何利用Whisper与ChatGPT打破语言障碍,掌握全球电子技术知识

在当今这个信息爆炸的时代,全球电子行业的技术知识正以前所未有的速度增长,特别是有了像YouTube、Linkedin、EDI CON Online、ZOOM这样的网络平台之后,人们可以很方便地跨越地理位置限制进行知识的传播分享。除了我们中国地区,世界各地的电子技术爱好者和行业专家每天也都在通过视频分享他们的发现和创新以及工作上的心得。
互联网打破了地域上的限制,然而,语言的障碍则成了一个巨大的挑战。比如老wu所关注的Keysight、Zuken、Rohde&Schwarz等原厂的账号,他们都是跨国性的公司,所以他们的技术分享视频或者网络研讨会的回放录像,就包括了多种语言、有英语、德语、日语或者韩语等等。
在以前,对于非中文及英文的视频,老wu也就只能通过视频里的PPT看图猜意

。而现在,随着AI技术的发展,我们可以使用先进的技术工具来帮助我们跨越语言障碍。Whisper,由OpenAI开发的一款强大的语音识别系统,能够将这些视频的语音内容转换成文字,并且支持多达99种语言的识别和翻译。这意味着,无论视频的原始语言是什么,我们都能够通过Whisper生成准确的字幕。
生成字幕后,我们可以进一步利用像ChatGPT这样的人工智能翻译服务,将这些多语言的字幕翻译成中文。这样,我们就能够跨越语言上的障碍,更容易地理解外语视频中的内容,从而学习到全球的电子技术分享知识。
在ChatGPT进化到ChatGPT 4o大语言模型之后,对于视频里给出的PPT或者其他信息,我们也可以直接截屏,然后把截图直接扔给ChatGPT 4o提取其中的文字并整理翻译为中文。甚至还可以更懒一点,可以先让ChatGPT去YouTube里对视频做中文的总结,如果觉得视频内容合适,再进行全面的字幕提取并进行字幕的翻译和回放,有了中文字幕,甚至可以将视频和中文字幕扔到剪映软件里,再选一个你喜欢的萝莉音进行中文配音,转换成中文萝莉音视频内容


如果你有一块性能不错的CUDA显卡,Whisper结合GPU进行实时字幕转译也是可以的,这样即使是参加国外的实时网络研讨会或者在线课程也不成问题了。
什么是 WhisperWhisper 是由 OpenAI 开发的一款先进的语音识别系统,它不仅能够进行语音转写,还能在多种语言之间进行翻译。这款模型以其高准确率和多语言支持而著称,特别擅长处理不同口音和复杂嘈杂的音频环境。Whisper 模型采用了编码器-解码器结构的 Transformer 模型,通过大量多语言和多任务的监督数据进行训练,使其在英语语音识别上达到了接近人类水平的鲁棒性和准确性。
Whisper 模型的训练数据集非常庞大,包含了68万小时的多语言音频,涵盖了98种不同的语言。这种大规模的训练数据使得 Whisper 能够很好地应对口音、背景噪音和技术术语等挑战。此外,Whisper 还具备多任务处理能力,除了语音识别,还能执行语音翻译和语言识别等任务。
如何在 Windows 上安装并使用 GPU加速的 WhisperWhisper 模型是基于深度神经网络的,而深度学习模型训练和推理需要处理大量的矩阵计算。GPU 擅长进行大规模的并行计算,能够同时处理大量的计算任务,相比于 CPU 的串行处理方式,GPU 可以大幅加速模型的推理速度。在使用Whisper 的大型模型(如 Whisper 的 large 语言模型)时,这种并行计算优势尤为明显。
在老wu的I9 9900K+A4000显卡配置的电脑上,同一份视频,使用Whisper 的 Large V3模型的情况下,GPU会比使用CPU快上5倍左右。所以,如果你有一张显存在12GB( Large V3需要10GB左右的显存)以上的N卡,建议使用GPU来加速Whisper。
如果你已经可以访问ChatGPT 4o大语言模型了,那你就直接问ChatGPT:“如何在windows系统中安装Whisper并启用CUDA GPU进行语音识别”,老wu下边的安装方法也是在ChatGPT 4o上问来的( ̄▽ ̄)”,老wu在自己的电脑上亲测过没有问题,下边附上相关操作步骤:
1. 安装Python环境确保你的系统上安装了Python 3.8或更高版本。如果没有,请从Python官方网站:https://www.python.org/downloads/下载安装。
安装后在命令行中运行以下命令检查是否正确安装了Python:
python --version
2. 创建虚拟环境建议为Whisper创建一个虚拟环境,方便管理依赖库。
打开命令提示符,运行以下命令来创建并激活虚拟环境:
python -m venv whisper_env
whisper_env\Scripts\activate
3. 安装CUDA和cuDNN要启用GPU支持,你需要确保系统已安装NVIDIA的CUDA Toolkit和cuDNN库。
3.1 安装CUDA Toolkit从NVIDIA官方CUDA下载页面 https://developer.nvidia.com/cuda-downloads下载并安装与您的GPU和系统版本匹配的CUDA Toolkit(建议使用11.7或更高版本)。
3.2 安装cuDNN从NVIDIA cuDNN页面 https://developer.nvidia.com/cudnn下载cuDNN库,解压后将 bin, include, lib 文件夹的内容复制到CUDA安装目录中(通常在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.x)。
4. 安装PyTorchWhisper使用PyTorch作为其深度学习框架。要启用CUDA加速,你需要安装支持GPU的PyTorch版本。
在虚拟环境中运行以下命令来安装PyTorch(包括CUDA支持):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
这个命令假设你安装了CUDA 11.7。如果使用其他版本的CUDA,请根据PyTorch的官方安装页面选择相应的命令。
5. 安装Whisper在虚拟环境中运行以下命令来安装Whisper:
pip install git+https://github.com/openai/whisper.git
ps:如果以上的pip命令执行失败,提示网络连接的问题,需要先为windows的控制台设置一下代理,参见老wu博客里的这篇文章:
https://www.mr-wu.cn/windows-cmd-set-http-proxy/
6.安装FFMPEG在Windows系统中安装FFmpeg可以通过以下步骤来完成:
6.1. 下载FFmpeg首先,从FFmpeg的官方网站下载FFmpeg的Windows版本:
访问FFmpeg的官方网站:https://ffmpeg.org/download.html
选择“Windows”部分,点击其中的链接进入FFmpeg Builds页面。
在该页面下,找到“Release builds”部分,下载最新的ffmpeg-release-essentials.zip压缩包。
6.2. 解压FFmpeg下载完成后,将ffmpeg-release-essentials.zip解压缩到你想要存储的目录。推荐将其解压到C:\ffmpeg文件夹中,以方便管理。
6.3. 配置系统环境变量为了在命令行或脚本中全局使用FFmpeg,需要将FFmpeg的路径添加到系统环境变量中。
6.3.1 打开环境变量设置右键单击“此电脑”或“我的电脑”,选择“属性”。
在左侧菜单中选择“高级系统设置”。
点击“环境变量”按钮。
6.3.2 添加FFmpeg到系统路径在“系统变量”部分找到并选择Path,然后点击“编辑”。
在弹出的对话框中点击“新建”,然后添加FFmpeg的bin目录路径。例如:
C:\ffmpeg\bin
6.3.3 保存设置点击“确定”保存所有更改,关闭所有窗口。
6.3.4. 验证安装完成环境变量配置后,打开命令提示符(cmd),并输入以下命令来验证FFmpeg是否已成功安装:
ffmpeg -version
如果安装成功,你将看到FFmpeg的版本信息。
6.3.5. 配合Python使用如果你打算在Python项目中使用FFmpeg,建议安装一个库来方便与FFmpeg进行交互,比如ffmpeg-python。可以使用以下命令安装:
pip install ffmpeg-python
7. 测试CUDA是否工作你可以通过如下代码确认PyTorch是否成功使用了GPU:
打开命令提示符(cmd),然后输入whisper_env\Scripts\activate切换到Whisper虚拟环境,接着输入python,进入python环境
在python环境中输入以下代码:
import torch
import whisper
# 检查CUDA是否可用
device = "cuda" if torch.cuda.is_available() else"cpu"
print(f"Using device: {device}")

如果输出为True,则表明CUDA已成功启用。
通过这些步骤,你应该能够在Windows系统上安装并使用Whisper,同时启用CUDA GPU来加速语音识别任务。
如果你没有合适的N卡,只能用CPU运算的话,可以直接安装使用整个buzz项目的安装包,无需手动配置python环境,对新手更为友好些:
https://github.com/chidiwilliams/buzz/releases
使用ChatGPT翻译为中文字幕Whisper本身是可以将非英文语音内容直接翻译为英文字幕的,但对直接翻译输出为中文语言的字幕支持得不够好,老wu一般都是在Whisper里先生成视频语言对应的字幕,然后再扔给ChatGPT 4o整理翻译为中文字幕。
当然,ChatGPT 4o还可以翻译外文文档资料,使用了一段时间了,老wu觉得对英文、德文、日文、韩文的翻译质量都挺高的。
如何使用ChatGPT可以参考老wu之前的这篇文档:
https://www.mr-wu.cn/how-to-register-for-chatgpt/
ps:距离老wu写的《如何注册OpenAI账号体验ChatGPT》也有一段时间了,目前ChatGPT的ChatGPT 4o mini模型已经可以免费使用,而且不需要境外的手机账号接收短信验证码进行验证了,只需搞定网络访问的问题即可。如果需要ChatGPT 4o 的付费模型,目前国内也有一些不错的ChatGPT Plus共享账户的购买平台,10个人共享一个账号,只需19.99元每月,如果使用频率不高的情况下可以考虑购买这种共享的账号,老wu也用了一段时间了,还是挺稳的,缺点就是多人共享,你的提问会被其他人看到,还有就是会话次数会被别人消耗完而需要等待一个小时的冷却时间。
页: [1]
查看完整版本: 如何利用Whisper与ChatGPT打破语言障碍,掌握全球电子技术知识