利用 OpenAI 揭秘视觉: 图像识别的 Python 代码解读

余汉波看波涛2024-03-26 17:50:41 87

OpenAI 推出的视觉识别 API 为我们提供了令人惊叹的能力，可以根据图像和文字提示生成文本描述。本文将深入剖析一段 Python 代码，它利用 OpenAI 的视觉识别功能来分析图像并生成文本描述。

代码

import base64import requestsimport os# 调用openai的视觉识别，接受提示和图像路径作为参数，并返回OpenAI API的响应def analyze_image(prompt, image_path): # 从环境变量中获取OpenAI API Key api_key = os.getenv('OPENAI_API_KEY') # 创建一个函数，该函数接受图像路径作为参数，并返回编码后的图像 def encode_image(image_path): with open(image_path, "rb") as image_file: return base64.b64encode(image_file.read).decode('utf-8') # 获取base64字符串 base64_image = encode_image(image_path) headers = { "Content-Type": "application/json", "Authorization": f"Bearer {api_key}" } payload = { "model": "gpt-4-vision-preview", "messages": [ { "role": "user", "content": [ { "type": "text", "text": prompt }, { "type": "image_url", "image_url": { "url": f"data:image/jpeg;base64,{base64_image}" } } ] } ], "max_tokens": 1000 } response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload) return response.json['choices'][0]['message']['content']if __name__ == "__main__": prompt = "生成一段描述这张图片的文字" image_path = r"D:wenjian临时\blob1.jpg" response = analyze_image(prompt, image_path) print(response)

代码结构

提供的代码分为三个主要部分：

analyze_image 函数：接受提示和图像路径作为输入，负责调用 OpenAI API 并返回视觉识别的结果。

encode_image 函数：将图像文件转换为 base64 编码的字符串，以便发送给 OpenAI API。

主程序：调用 analyze_image 函数并打印生成的文本描述。

算法和数据结构

代码中没有特别的算法或数据结构。它主要依赖于 OpenAI API 来执行视觉识别任务。

复杂或不寻常的方面

代码中最复杂的部分是构造 OpenAI API 请求的有效负载。有效负载包含有关提示、图像、模型和最大令牌数量的信息。

潜在限制和改进建议

该代码的一个潜在限制是它依赖于 OpenAI API 的可用性和响应时间。为了提高可靠性，可以考虑使用错误处理机制和重试逻辑。

可以改进代码的一个方面是将图像预处理步骤抽象到一个单独的函数或类中。这将提高代码的可维护性和可读性。

编程语言和库

代码使用 Python 3 和以下库：

base64：用于将图像转换为 base64 编码字符串

requests：用于与 OpenAI API 通信

如何使用代码

要使用提供的代码，需要设置 OpenAI API 凭据并将其存储在环境变量 OPENAI_API_KEY 中。然后，可以按照以下步骤运行代码：

准备图像和提示。

调用 analyze_image 函数，传递提示和图像路径。

打印生成的文本描述。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/76327.html

随机主题

薛思佳: 上海男篮已经重新集结开始备战新赛季科比没有詹姆斯一样强悍的身体天赋, 否则生涯绝对不仅仅是5冠王思聪骂汪峰被吐槽五十步笑百步, 都不长情, 婚恋失败也没损失参展机构增加2419家! 几组数据看深圳文博会蓬勃生机 2024年暑期档，《封神2》缺席，《哪吒2》来袭，成龙对决谢霆锋如何收购一家TikTok美国店铺?俄报告显示: 全球机器人安装量50%位于中国斗罗大陆: 92%神性, 唐三成为封号斗罗, 99级以下没人能将他打败我手拿大炮你门还敢挑衅苹果手机尾插口不好用怎么办？你先别急着换，看完视频再打算！乳企一季度降速后市场开始回暖未来增长依然要靠技术内卷赖清德就任, 日本上蹿下跳, 中方针对琉球? 华春莹: 落实开罗宣言《庆余年2》范闲的底牌上线, 原著中最强卧底!狼派磁白轴上手体验前央视主持离世, 曾解说中国女排夺冠成名, 与郎平魏秋月等是好友重磅! 加拿大启动偏远和法语社区移民试点! 地区扩大到15个中国制造又杀回第一！再次超过美国，成印度第一大贸易伙伴澳洲人懒到什么极致程度? 一张照片刷爆全球, 拿下世界之最最后一招叫什么宝马Skytop概念车视频泄露, 看上去是近年来最漂亮的宝马李彦宏吐槽AI发展速度“太慢了，AGI还要十年以上”，英语流利秒杀一大帮老对手

最新回复(0)