当前位置: 首页 > news >正文

LLM多模态开发

图 / 文之间的相互转换、TTS/ASR/OCR

TTS(Text-to-Speech,文本转语音):将文字信息转化为语音输出的技术。

ASR(Automatic Speech Recognition,自动语音识别):将语音信号转化为文字的技术

OCR(Optical Character Recognition,光学字符识别):将图像或扫描件中的文字转化为可编辑的文本的技术。

TTS

OpenAI 的 tts-1 模型,追求的是生成音频的速度:

from openai import OpenAI client = OpenAI() speech_file_path = "AI_speech.mp3" response = client.audio.speech.create( model="tts-1", voice="alloy", input="xxx" ) response.stream_to_file(speech_file_path)

tts-1-hd追求的是声音质量。

ASR

自动语音识别(ASR)是另一个受益于大语言模型发展的领域。

# 导入所需的库 import os import cv2 # 视频处理 import base64 # 编码帧 from moviepy.editor import VideoFileClip # 音频处理 VIDEO_FILE = "Good_Driver.mp4" def extract_frames_and_audio(video_file, interval=2): encoded_frames = [] file_name, _ = os.path.splitext(video_file) video_capture = cv2.VideoCapture(video_file) total_frame_count = int(video_capture.get(cv2.CAP_PROP_FRAME_COUNT)) frame_rate = video_capture.get(cv2.CAP_PROP_FPS) frames_interval = int(frame_rate * interval) current_frame = 0 # 循环遍历视频并以指定的采样率提取帧 while current_frame < total_frame_count - 1: video_capture.set(cv2.CAP_PROP_POS_FRAMES, current_frame) success, frame = video_capture.read() if not success: break _, buffer = cv2.imencode(".jpg", frame) encoded_frames.append(base64.b64encode(buffer).decode("utf-8")) current_frame += frames_interval video_capture.release() # 从视频中提取音频 audio_output = f"{file_name}.mp3" video_clip = VideoFileClip(video_file) video_clip.audio.write_audiofile(audio_output, bitrate="32k") video_clip.audio.close() video_clip.close() print(f"提取了 {len(encoded_frames)} 帧") print(f"音频提取到 {audio_output}") return encoded_frames, audio_output # 每2秒提取1帧(采样率) encoded_frames, audio_output = extract_frames_and_audio(VIDEO_FILE, interval=2)
http://www.jsqmd.com/news/685161/

相关文章:

  • **发散创新:基于Go语言的协同计算框架设计与实践**在现代分布式系统中,*
  • 如何用 blur 与 focusout 区分不冒泡与冒泡的失焦事件
  • **神经编码新视角:用Python实现生物启发的神经信号压缩与解码算法**在人工智能飞速发展的今天,**神经
  • 2026年第三方安全管理员特种设备上岗证/锅炉特种设备上岗证优选公司推荐 - 品牌宣传支持者
  • Navicat重置工具:macOS平台无限试用终极指南
  • mysql如何防止SQL注入攻击_mysql参数化查询与转义
  • 如何实现一个「实时音视频通话」的Web应用?(基于WebRTC)
  • 中国人工智能学会:中国人工智能系列白皮书——具身智能(2026版)
  • 从混淆矩阵到AUC:解读二分类模型评估的核心指标与置信区间
  • 布围挡材质与安装技术分享:适配四川多场景需求 - 优质品牌商家
  • 网络安全学习入门指南-网络攻防方向(2026.1版),安全小白和转行网安入门者必读
  • 联合概率、边缘概率与条件概率的核心概念与应用
  • 测试111111111
  • JSON Prompting:提升大语言模型交互效率的关键技术
  • **生物计算新范式:用Python构建DNA序列的图神经网络预测模型*
  • 2026年3月有名的数控切管卡盘生产厂家推荐,长管材卡盘/薄壁管卡盘/自循环水冷系统,数控切管卡盘公司哪家可靠 - 品牌推荐师
  • 2026 最新版|Java 开发者 AI 大模型学习路线(建议收藏)
  • SpringBoot+Vue中医院问诊系统源码+论文
  • ZooKeeper 连接超时问题
  • 数组及其扩展
  • 测试22222222
  • 智能手机传感器数据建模人类活动的技术与应用
  • Layui弹出层layer如何实现窗口背景的模糊(Blur)滤镜效果
  • 收藏 | 新手程序员必看:掌握大模型记忆系统,让AI Agent更智能!
  • 解决RDK X(ARM架构)板卡Remote-SSH运行Antigravity AI崩溃(SIGILL):Samba网络盘本地挂载方案
  • RT-Thread LVGL开发实战指南
  • 从萌新到大神!CTF 零基础超全入门攻略,收藏这一篇就够了
  • 新手必藏!2026 CTF 零基础入门科普,赛制、题型、解题逻辑全解析
  • 2026年3月礼品盒批发厂家推荐,礼品盒/节庆礼盒/特产礼盒/高档礼盒/手提礼盒/天地盖礼盒,礼品盒门店选哪家 - 品牌推荐师
  • 如何用 childNodes 与 children 区分文本节点与元素子节点