万万没想到，我用文心一言开发了一个儿童小玩具_业界新闻

发布时间:2024-08-03 17:20

阅读量:0

最近关注到一年一度的百度世界大会今年将于10月17日在北京首钢园举办，本期大会的主题是“生成未来（PROMPT THE WORLD）”。会上，李彦宏会做主题为「手把手教你做AI原生应用」的演讲，比较期待 Robin 会怎么展示。据说，大会当天百度还会发布文心4.0版本，估计要炸一波街。

作为一名对人工智能技术深感兴趣的开发者，我相信这次大会将带来各种新颖的想法和独特的观点，激发参会者们探索AI技术更广阔应用场景的热情。也很期待从李彦宏和其他嘉宾的分享中汲取灵感并拓宽视野，进一步认识到AI技术带给我们的巨大机遇。

想法由来

文心大模型覆盖了很多AI应用场景，有NLP大模型、CV大模型、跨模态大模型等等。今年3月，百度发布了大模型服务平台文心千帆，纳入管理包括文心大模型在内的国内外主流大模型，对于除文心大模型之外的第三方大模型，千帆平台不只是简单的接入，还提供中文增强、性能增强、上下文增强等能力。比如，原来要用英文对话效果才好的 Llama2 等国外大模型，现在用中文也一样好。

看到文心提供的强大功能，感觉不做点什么都觉得对不起它。想到最近工作比较忙，没时间陪伴自己的女儿，她现在正是需要益智小游戏的年龄段，于是就有了开发一款适用于婴幼儿的【看图语音识别】小游戏的创意。

实现流程构想

程序弹出小动物的图片；
孩子发出“小动物名字”的语音；
程序识别语音并告知孩子是否回答正确；
正确则切换下一张图片，错误则告知孩子请重新作答；

小游戏应用实现流程

准备工作：SDK安装及使用流程

(1)安装SDK

pip install qianfan

这里需要注意：目前支持 Python >= 3.7版本。且调用SDK前，需确保已完成SDK安装。

(2)调用SDK（具体操作步骤）

步骤一，在百度千帆大模型平台创建应用，获取应用API Key(AK) 和 Secret Key(SK)。
步骤二，初始化AK 和 SK。
步骤三，调用SDK。

第一步，随机展示动物图片

我们先搜集几张不同的动物图片，然后用动物的名字来命名，将它们放在程序的固定路径下。

from PIL import Image import os import random  # 指定图片文件夹路径 img_folder = "path/to/image/folder"  # 获取图片列表 img_list = os.listdir(img_folder)  # 从列表中随机选择一张图片 img_name = random.choice(img_list)  # 打开并显示选中的图片 img_path = os.path.join(img_folder, img_name) img = Image.open(img_path) img.show()

第二步，完成图像识别

首先通过应用的API_KEY和SECRET_KEY 获取应用的 access_token。

def get_access_token():     # 使用 AK，SK 生成鉴权签名（Access Token）     # return: access_token，或是None(如果错误)     url = "https://aip.baidubce.com/oauth/2.0/token"     params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}     return str(requests.post(url, params=params).json().get("access_token"))

然后根据图片获取到对应的base64编码：

def get_file_content_as_base64(path, urlencoded=False):         # 获取文件base64编码     # :param path: 文件路径     # :param urlencoded: 是否对结果进行urlencoded     # :return: base64编码信息        with open(path, "rb") as f:         content = base64.b64encode(f.read()).decode("utf8")         if urlencoded:             content = urllib.parse.quote_plus(content)     return content

最后调用图片识别接口，获取图片识别的动物名称

def get_result():     url = "https://aip.baidubce.com/rest/2.0/image-classify/v1/animal?access_token=" + get_access_token()     # 获取图片的base64编码    payload= get_file_content_as_base64("C://path//to//image//folder//斑马.jpg",True)    headers = {        'Content-Type': 'application/x-www-form-urlencoded',        'Accept': 'application/json'    }     response = requests.request("POST", url, headers=headers, data=payload)     print(response.text)

打印结果如下，返回结果对应不同score,我们取score最高的作为返回结果即“斑马”。

{     "result": [         {             "score": "0.948385",             "name": "斑马"         },         {             "score": "0.0410539",             "name": "平原斑马"         },         {             "score": "0.00519192",             "name": "细纹斑马"         },         {             "score": "0.000554136",             "name": "斑马驴"         },         {             "score": "0.000273289",             "name": "斑驴"         },         {             "score": "0.000155838",             "name": "孟加拉虎"         }     ],     "log_id": "1710925525288202877" }

第三步，识别小朋友的语音

在孩子看到图片之后用语音的方式说出动物的名字，此时我们需要将孩子的语音文件进行 base64 转码处理。

def get_file_content_as_base64(path, urlencoded=False):          # 获取文件base64编码     # :param path: 文件路径     # :param urlencoded: 是否对结果进行urlencoded     # :return: base64编码信息         with open(path, "rb") as f:         content = base64.b64encode(f.read()).decode("utf8")         if urlencoded:             content = urllib.parse.quote_plus(content)     return content

然后需要将该语音文件转化为文本：

def get_text():     url = "https://vop.baidu.com/server_api"     speech = get_file_content_as_base64("C://path//to//image//folder//banma.m4a",False)     payload = json.dumps({         "format": "pcm",         "rate": 16000,         "channel": 1,         "cuid": "0kGgQCWS6F1A7lYR5sBQCVT3Id4TsEY4",         "token": get_access_token(),         "speech": speech,         "len": 36414     })     headers = {         'Content-Type': 'application/json',         'Accept': 'application/json'     }     response = requests.request("POST", url, headers=headers, data=payload)     print(response.text)

打印结果如下，我们根据返回的结果将 result 中的数据取出来，即“斑马”。

{     "corpus_no": "7287496064443398818",     "err_msg": "success.",     "err_no": 0,     "result": [         "斑马"     ],     "sn": "928281938221696752399" }

最后就需要我们把“通过图像识别出来的文字”和“通过语音识别出来的文字”进行比对，如果一致就切换下一张图片，不一致则告知孩子请重新作答。

到这儿，我的创意就全部实现了，虽然只是简单的软件层面的实现，但是我希望以后儿童玩具厂商可以把它来最终落地，毕竟这种AI原生应用小玩具肯定会广受儿童喜欢的。它到底是“斑马”还是“马”呢？让程序告诉小朋友吧。

最后多啰嗦几句，很期待在百度世界大会上看到更多的AI原生应用，包括智能家居、智能医疗、智能零售、智能交通等领域的创新应用。这些应用将有望在未来实现更好的人机交互、智能化的自动化流程、个性化的服务和体验，推动产业升级和社会进步。同时，我们也期待看到更多企业和开发者加入到AI原生应用的创新行列中，共同推动人工智能技术向前发展。