我们人类用眼睛观察物体、地点和人。我们拥有一种自然的物体分析、检测工具,可以帮助我们识别附近的物体。但您是否想知道人脸锁定在 Android 和 iPhone 上是如何工作的?计算机是否也有像人类一样不断观察世界的眼睛?

计算机视觉

计算机视觉是一种人工智能,帮助计算机观察世界、做出解释并分析视觉世界。它还使用机器学习概念来识别它看到的不同对象,并将它们与相似的对象进行分类。这里使用的机器学习模型已经经过良好的训练来完成这项工作。

但是,在对象识别和分类的过程中,一些困难可能会对最终结果产生重大影响。

1) 3D 到 2D 转换过程中的信息丢失

在这种情况下,当相机捕捉物体时,主要的问题是我们使用的针孔。针孔是一个里面有小孔的盒子,用于透视投影。

针孔模型的真正问题在于,当捕获图像时,投影变换会看到靠近相机的相对较小的物体。在这种情况下,我们人类需要一个“尺度”来预测物体的实际大小。但这不适用于计算机。

计算机中并未捕获物体的实际图像,因此在计算机中看到的图像时,硬币、蝙蝠和建筑物的大小是相同的。

2)解释

当我们人类尝试分析或理解图像时,我们会利用之前长期积累的所有知识和经验来充分解释图像并从中获得见解。我们投入了几年的时间来训练人工智能模型来理解观察结果,但模型理解观察结果的能力仍然有限。为了提高解释水平,正在使用多种数学工具。

3)噪音

图像的每次测量中都存在噪声。我们使用数学工具来处理这种不可靠性。噪声无法在一定程度上消除,但使用此类工具会使图像分析变得复杂。

4)大数据

我们使用的图像和音频文件占用的内存很大。一张 A4 纸以每英寸 300 点的分辨率进行单色扫描,相当于 8.5MB。逐行 RGB 24 位彩色视频 512 * 768 像素,数据流每秒 225MB。

如果我们进行的处理不是很简单,那么它很难达到像每秒处理25到30张图像这样的实时性能。

5) 局部视图与全局视图

图像分析算法分析本地内存中的小存储,例如图像中的像素,计算机通过锁孔看到图像。当我们通过钥匙孔看到图像时,更难以理解图像所描绘的内容。但如果图像在全球范围内可见,人类就很容易解释它

结论

在这个博客中,您可以清楚地了解使用计算机视觉处理图像时面临的各种困难。一旦我们克服了这些困难,我们就可以让所有人都能使用计算机视觉。

希望您喜欢阅读此博客。请点赞并评论您对今天主题的看法。请访问我的个人资料以获取更多此类博客。

快乐学习!!

Comments are closed.