GPT视频功能上线:表现如何,能给视障人带来多少帮助?
作者:
一八卡
OpenAI 这几天 每天都在开发布会,一系列新功能陆续推出。其中就有我们十分关心的视频聊天功能,作为
用户,我终于在这周二用上了它。 上周末就有GPTPro用户晒出了自己通过视频与GPT下棋的视频。看得我真是心痒难耐,不断打开APP在语音通话页面狂找“打开相机”按钮。起初,我一直没找到,而我的iphone朋友同为PLUS用户却找到了。这时候我还以为OpenAI是分批推送,像我这样的安卓用户就应当后推送,依然焦急等待。 等了两天之后,还没有相机按钮,灵机一动,难道是无障碍问题。找“Be My Eyes”识别了一下,相机按钮就在通话页面左下角。你这浓眉大眼的OpenAI也犯了这么大的无障碍错误。任何读屏软件包括Talkback在内,都无法获取到通话页面下面的打开相机等四个按钮。关闭读屏,左下角盲点,成功开始使用。 首先明确一个重要前提。想要得到gpt的准确帮助的前置条件是我们一定要拍摄好内容。 因此,建议大家在开始正式询问问题之前,首先向gpt发问自己要拍摄的东西是否在镜头内,是否有反光或者光线不足的情况。根据gpt的反馈情况,我们再调整好角度和光线,就可以开始询问我们想要gpt告诉我们的问题了。 跟预想的情况一样,受到算力限制,GPT是抽帧识别,如果你不再说话或者动作微小就容易被忽略掉。相反,当你在说话的时候,识别的速率相对较高。 而且它不会主动播报,还是一问一答的传统形式。想把它当做一个连续的解说员,看到啥就主动说啥,目前还做不到。 中央空调的操作面板大多是触摸屏,通常这时候,我会找在线志愿者解决。这次我偏偏用AI视频尝试一下。 费了一番周折,最后总算调节好了。当然了,这也是建立在我本身对于操作面板稍有了解的情况下完成的,如果是纯粹的陌生设备,我估计还能折腾好一会。 可见,具体解决问题方面,AI无论是效率还是准确性都替代不了在线人工志愿者所起到的作用。 不能总在室内活动,我也把GPT拿出去溜一溜。 简单描述是肯定能做到的,通话语音语气也很自然,可以随时打断,进一步提问等等。 如果能配合联网搜索,可能用起来更强大。我现在能用到的视频通话版本,还不支持联网功能。 本质上讲GPT的视频通话并没有逃出“be my eyes”的拍照识别加提问的使用模式。对于普通用户来说,“be my eyes”已经足够用了。PS:“be my eyes”的AI识别背后也是调用的是GPT的能力哦。 因此,对比之下,GPT的视频通话使用成本有点高了,需要一个稳定的网络条件支持和一个每个月20美元的Plus账号。 如果你也感兴趣,或者是有其它用途,那我认为付出更多的额外成本是非常值得的。如果没有,那“be my eyes”的AI识别就暂时够用了,仍然很香。而且不久的将来“be my eyes”还会推出优化过的AI视频通话,使用效果非常值得期待。 GPT联网功能上线之后,对于识别物品肯定大有裨益;不能连续主动播报以及抽帧识别的问题,对于我们视障人至关重要,但是在目前的算力资源和回应速度要求之下,也只能如此了。 经常看GPT的视频评测,动不动就炸天了。工具就是工具,我们还是要客观看待它。 AI时代浩浩荡荡,与我们每一个人都息息相关。如何利用AI工具才是我们需要认真思考的问题。炸天还是垃圾,还是要看具体的使用场景和使用方法而论。 我开始使用GPT视频功能也才两三天时间,受到个人思维局限,更多好玩好用的场景还是要靠大家继续发掘,继续提供思路。在探索中前进。希望伙伴们踊跃讨论,如何使用好AI工具,给我们视障人群带来更多可能。
目录
GPT视频功能上线:表现如何,能给视障人带来多少帮助?
作者:
一八卡
OpenAI 这几天 每天都在开发布会,一系列新功能陆续推出。其中就有我们十分关心的视频聊天功能,作为
用户,我终于在这周二用上了它。 上周末就有GPTPro用户晒出了自己通过视频与GPT下棋的视频。看得我真是心痒难耐,不断打开APP在语音通话页面狂找“打开相机”按钮。起初,我一直没找到,而我的iphone朋友同为PLUS用户却找到了。这时候我还以为OpenAI是分批推送,像我这样的安卓用户就应当后推送,依然焦急等待。 等了两天之后,还没有相机按钮,灵机一动,难道是无障碍问题。找“Be My Eyes”识别了一下,相机按钮就在通话页面左下角。你这浓眉大眼的OpenAI也犯了这么大的无障碍错误。任何读屏软件包括Talkback在内,都无法获取到通话页面下面的打开相机等四个按钮。关闭读屏,左下角盲点,成功开始使用。 首先明确一个重要前提。想要得到gpt的准确帮助的前置条件是我们一定要拍摄好内容。 因此,建议大家在开始正式询问问题之前,首先向gpt发问自己要拍摄的东西是否在镜头内,是否有反光或者光线不足的情况。根据gpt的反馈情况,我们再调整好角度和光线,就可以开始询问我们想要gpt告诉我们的问题了。 跟预想的情况一样,受到算力限制,GPT是抽帧识别,如果你不再说话或者动作微小就容易被忽略掉。相反,当你在说话的时候,识别的速率相对较高。 而且它不会主动播报,还是一问一答的传统形式。想把它当做一个连续的解说员,看到啥就主动说啥,目前还做不到。 中央空调的操作面板大多是触摸屏,通常这时候,我会找在线志愿者解决。这次我偏偏用AI视频尝试一下。 费了一番周折,最后总算调节好了。当然了,这也是建立在我本身对于操作面板稍有了解的情况下完成的,如果是纯粹的陌生设备,我估计还能折腾好一会。 可见,具体解决问题方面,AI无论是效率还是准确性都替代不了在线人工志愿者所起到的作用。 不能总在室内活动,我也把GPT拿出去溜一溜。 简单描述是肯定能做到的,通话语音语气也很自然,可以随时打断,进一步提问等等。 如果能配合联网搜索,可能用起来更强大。我现在能用到的视频通话版本,还不支持联网功能。 本质上讲GPT的视频通话并没有逃出“be my eyes”的拍照识别加提问的使用模式。对于普通用户来说,“be my eyes”已经足够用了。PS:“be my eyes”的AI识别背后也是调用的是GPT的能力哦。 因此,对比之下,GPT的视频通话使用成本有点高了,需要一个稳定的网络条件支持和一个每个月20美元的Plus账号。 如果你也感兴趣,或者是有其它用途,那我认为付出更多的额外成本是非常值得的。如果没有,那“be my eyes”的AI识别就暂时够用了,仍然很香。而且不久的将来“be my eyes”还会推出优化过的AI视频通话,使用效果非常值得期待。 GPT联网功能上线之后,对于识别物品肯定大有裨益;不能连续主动播报以及抽帧识别的问题,对于我们视障人至关重要,但是在目前的算力资源和回应速度要求之下,也只能如此了。 经常看GPT的视频评测,动不动就炸天了。工具就是工具,我们还是要客观看待它。 AI时代浩浩荡荡,与我们每一个人都息息相关。如何利用AI工具才是我们需要认真思考的问题。炸天还是垃圾,还是要看具体的使用场景和使用方法而论。 我开始使用GPT视频功能也才两三天时间,受到个人思维局限,更多好玩好用的场景还是要靠大家继续发掘,继续提供思路。在探索中前进。希望伙伴们踊跃讨论,如何使用好AI工具,给我们视障人群带来更多可能。