语音交互、及时打断，VIVO看见AI对话模式如何提升效率

你说我道 3878

数码小果酱 等级:6

熬夜修仙。法力无边。我命由我。不由天。

更多操作

跳转楼层

只看楼主

随着2022下半年

ChatGPT

的横空出世，短短两年时间内，各种AI大模型便百花齐放。面对千模百态，人们也从刚开始的惊叹、盲从，逐渐趋于理性，开始更多地审视各种大模型的优劣和特点，从中精选出自己满意的产品。

在视障辅助领域，目前使用最多，知名度较高的，除了“Be My Eyes”，就应该是Vivo看见了。

Vivo看见升级到3.0版本后，在原有综合模式中，增加了

AI对话

模式。在综合模式界面下方中间，会摸到一个定格按钮。点击这个按钮后，就会在定格按钮左边，摸到一个对话按钮。点击对话，就进入了AI识别模式。

Vivo看见选用的是， Vivo自己开发的蓝心大模型。这个模型又有什么优势呢？

图为：用VIVO看见对一幅画进行识别

根据vivo宣传，蓝心大模型在C-Eval、CMMLU、

SuperCLUE

三个榜单中都名列前茅，号称中文能力行业第一。

被社会毒打多次的老鸟们都不会把商家的宣传太当回事。在凰家评测最新一期手机AI能力测试中，vivo X100s、vivo X100 Ultra分别位于前两名。看来蓝星大模型还是有点东西的。

对于我们视障人来说，把识别出来的描述作为重要的参考依据，AI能力越强显然得到的反馈肯定是更好。实际使用中，除细节描述略逊于“Be My Eyes”外，识别准确性能力相差不大。

然而，除了识别信息的准确性，识别速度，同样也是视觉辅助AI，比较重要的衡量指标，毕竟准确率再高，等待时间过长依然是一种煎熬。这也是本文想着重讨论的vivo看见的速度优势。

现今AI工具以在线为主，需要传送至服务器分析，再反馈结果，存在等待时间是难以避免的，但这个时间肯定是越短越好。这方面Vivo蓝星就体现出了本土优势，一般3~5秒就有了回复，基本比“Be My Eyes”快3~4倍。

同样一个回复，vivo5秒以内就能返回，“be my eyes”却要十几秒，有时候可能会更慢，应该跟同时使用人数有关联。但人总是贪心的，总希望能越快越好。Ok，如您所愿，下面就讲讲，如何加快 Vivo看见 AI识别速度的技巧。

1.使用语音对话

与Be My Eyes只有单一文本输入不同， Vivo看见对话模式既可文字输入，也能语音交互。相对于通过输入法进行文字录入，直接下达语音指令，效率肯定更为快捷。当一段场景语音描述完成，软件会提示您下达指令，您就可以直接语音对话，然后等待AI回答。这样，减少了触摸屏幕，找寻对话框，输入文字等步骤，让人机交互更精炼、快速。

曾经看到有朋友使用蓝牙遥控器，控制Be My Eyes拍照进行识别， Vivo看见 AI对话，可以直接通过语音指令，实现同等效果。

当 AI对话描述完毕，若无需再次提问，可直接呼喊重新拍照，这是一个语音指令，软件接收以后，会结束对话，回到 Vivo看见综合模式界面，这个时候听到的又将是综合模式识别语音，这个离线语音库和 AI对话语音存在明显差异，很容易分辨。听到离线语音后，就可以再次呼叫拍照，软件就会自动拍照，然后进入下一轮识别程序。

全程语音，无需手动，无论提问，还是拍照指令，都可随机下达，无限循环，让人机交互更为流畅。

2.及时打断，问我想问

因为AI对话语速较慢，如果是熟悉场景，会发觉整段场景描述有些多余，是在浪费时间。这个时候，我们就可以用软件提供的打断功能，直接中断AI描述，进行针对性提问，快速得到相应答案，这样，就可以将一次问答时间，缩短到十几秒，已基本和问询他人相当。

比较遗憾的是，目前点击打断功能，还需要接触屏幕，摸索到按钮，进行手动干预。势必会耽误时间，让进程变得不那么流畅完美。希望vivo看见能在后续版本更新时，尽量能实现全程语音交互。而且现在AI对话语音描述语速无法调节，如果赶时间，汇集的人上火。也希望能增加调节AI对话语速的选项

以下是利用Vivo看见蓝星AI识别具体应用上述指令功能的视频：

行文至此，也还有话要说，很多人对于AI描述的利用还不太充分，除了我视频中掩饰的描述、查找物品、分辨颜色外，下面我举几个生活场景的应用例子给大家打开一下思路。

1.看指示灯

多数充电宝采用的是，几颗led指示灯显示电量，这对视障者很不友好。选择带语音的款式，既增加了选择难度，又限制了选择品种。但现在可以通过AI识别，解决这个问题。

用手机对着充电宝电量显示 Led灯珠拍张照，直接询问亮灯数量，就可以知晓具体电量。这种方法，适用于所有依靠 Led指示灯变色，或者根据指示灯数量多少，显示状态的设备。

在面对陌生的家用电器时，也可以让 AI按照指令依次描述按键名称和位置，让您能更快熟悉按键布局。

2.描述陌生环境，构建心里地图

走进一个陌生房间，掏出手机通过拍照加反复询问，就能大致知道房间的布局和有什么摆设等。

在外面独立出行的时候，在途经点选择关键位置，先期进行拍照识别，不仅能够了解周围环境，下次走到同样位置还可以对照识别来判断是否走错。

3.看各种屏幕

电脑突然不出声了，掏出手机识别一下，不仅能告诉你显示了什么文字，还能给你描述窗口有哪些按钮和提示。也可以给出相应的解决方案。

4.描述自己

我们甚至可以站在镜子前，对着镜子拍照，让 AI辅助您进行服装搭配。当然了。这时候AI可能只会捡好听的说，你可别太当真了。

图为：左边是VIVO看见的LOGO和介绍，右边是一个人露出右手拿着手机拍一束花

结语

随着AI大模型越来越强大，平时使用的频率也越来越高，不知不觉间，已深入到日常生活很多层面。

每当我走到酒店大厅，就随手拍一下，咖啡机，沙发、茶几，电梯门，等等信息不用询问他人，不用盲杖去探索，就能获取到。

每当我在窗前发呆的时候，也会随手拍一下窗户，外面的天气，树上的叶子，天空的颜色，等等信息也会传入我耳中。

通过随手拍一下，以前难以获取的信息会逐渐被我注意到。

以前，我为分清刺黄瓜和苦瓜搞得一筹莫展，因为他们摸上去好像；也曾经将赤小豆和绿豆混为一谈，闹出了不少张冠李戴的洋相；也有过将袜子颜色不分，一脚灰一脚黑出门。

但现在这些烦恼，通通都一拍解决。AI依然存在这样那样的问题，描述的效果也未能尽善尽美。但是，就这些也够我们好好玩一阵子了。

回复楼主(3) 点赞(1) 打赏(0) 收藏(0)

发表于：2024-09-20 10:06

3个回复

您还没有登录，登录后才可回复。登录注册

语音交互、及时打断，VIVO看见AI对话模式如何提升效率

等待播放