编者按:本文来自微信公众号 新智元,作者:新智元,编辑:KingHZ,创业邦经授权转载。
AI轻松击败人类!
这次是看图猜地名:给AI一张全新的照片,它能猜出照片在哪儿拍摄的,而且准确率还相当高。
也就是说,从图像中,AI能识别地理信息方面。
以后网上晒图可要当心了,AI知道你在哪里!
沃顿商学院的教授Ethan Mollick,研读了相关论文,认为AI的这种能力对现实世界的影响非常大。
具体而言,在不使用搜索引擎或AI模型的情况下,让大学生猜测每张街景图像对应的大洲、国家或城市名称。
表3报告了人类的准确率(最后一行),与视觉语言模型相比,人类的表现明显比较差。
其中表现最好的模型是Gemini1.5-Pro,在大洲、国家和城市层面预测中,正确率分别比人类高出59.6%、74.2%和62.6%。
而大多数大学生表示对这些图像并不熟悉,承认他们纯粹就是胡乱猜测。
表3:VLM和人类在FAIRLOCATOR数据集的100张图像上的表现对比
论文链接:https://arxiv.org/abs/2502.11163
项目地址:https://github.com/uscnlp-lime/FairLocator
然而,AI模型仍然存在一些问题,包括偏差和隐私问题。
在评估了四个VLM模型后,研究人员发现,尽管这些模型展示了从图像中识别地理信息的能力,在城市预测中最高可达53.8%的准确率,但它们表现出了显著的地区性偏差。
具体来说,经济发达且人口密集的地区的表现明显优于发展较慢的地区(低12.5%)和人口稀少的地区(低17.0%)。
此外,这些模型还表现出了地区性偏差,常常过度预测某些特定位置。
VLM模型的强大性能也引发了隐私问题:即便用户不想被人知道自己在哪儿,AI依旧可能从图片中发现用户的踪迹。
三大偏差
对视觉语言模型(VLMs)从图像中识别地理信息的能力,早有研究,但对偏差问题缺乏足够的关注。
具体而言,这些研究未能深入分析视觉语言模型在地理信息识别中存在的偏差。
在地理信息识别中,新研究将视觉语言模型的偏差分为两类:
(1)在识别来自不同地区的图像时存在的准确率差异;
(2)在地理推理过程中更频繁地预测某些地区的系统性倾向。
为了评估偏差,开发了名为FAIRLOCATOR的基准测试,该基准测试包含来自43个国家111个城市的1200张图像。
每张图像都附有详细的地理信息,包括国家、城市和街道名称。
FAIRLOCATOR包含评估框架,可自动向视觉语言模型发出查询、提取回复,并通过名称翻译和去重处理将回复与真实数据进行比对。
为了评估视觉语言模型(VLMs)在预测城市地理信息方面的性能,将图像分为两部分进行分析:
1、深度(Depth):为了验证VLMs是否倾向于对相似城市(即同一国家内的城市)预测著名城市,研究选择了每个洲人口最多的6个国家,并从每个国家中进一步挑选出10个城市。
2、广度(Breadth):为了探索具有不同文化、人口和发展水平的国家,研究按人口排名从全球选取了60个城市,每个国家最多选择2个城市,避免人口大国的过度代表,确保了样本的多样性,涵盖了不同的文化和经济发展水平。
四种不同的VLMs被用于这项研究,包括:GPT-4o、Gemini-1.5-Pro、LLaMA-3.2-11B以及LLaVA-v1.6-Vicuna-13B。
研究人员发现,当前的视觉语言模型(VLMs)在三个关键方面表现出显著的偏差:
1偏向知名城市:例如,Gemini-1.5-Pro在识别来自巴西的图像时,频繁预测为圣保罗。虽然这表明模型能够识别巴西的特征,但它缺乏捕捉区域多样性或细微差异的能力。
2跨区域准确率差异:VLMs在识别发达地区图像中的地理信息时表现出更高的准确率,平均准确率为48.8%,但在识别欠发达地区的图像时,性能显著下降,准确率通常降至41.7%。
3与发展水平的虚假关联:VLMs经常将城市或现代场景(即使来自发展中国家)与发达国家联系起来。相反,描绘郊区或乡村景观的图像则经常被错误地归类为来自发展中国家。
图1:本文发现的三种偏差类型。「GT」代表真实标签(Ground Truth),「Pre」代表视觉语言模型(VLM)的预测结果。
模型指令与提示词
为了指导视觉语言模型(VLMs)更好地完成地理定位任务,借鉴了GeoGuessr游戏玩家常用的策略。
在GeoGuessr游戏中,玩家放置到一个半随机的谷歌街景地点,要求玩家只通过有限的线索来猜测图片中的位置。
在提示中,要求VLMs根据图像细节,如门牌号、行人、标志、语言和光线来推断地理位置。
为了便于后期处理,VLMs需要以JSON格式返回包含五个关键字段的响应:「分析」、「大洲」、「国家」、「城市」和「街道」。
当将图像编码为VLMs的输入时,会确保移除所有元数据,比如时间、位置、相机参数和作者信息,因为这些数据可能让VLMs轻易地推断出位置。
然后,从输出中提取答案,并确保它们既不是未知的,也不是无效的。
每个模型对每张图片最多有五次尝试机会;如果五次尝试都得到了无效结果,该图片则被标记为失败案例。
为了保证实验的可靠性,要求每张图片必须由同一个模型生成三个响应。
这项任务中使用的具体提示如下:
实验过程
使用FAIRLOCATOR框架,专注于解决两个关键研究问题:
1 VLM是否在共享的文化背景下对特定城市表现出偏好,例如在同一个国家内的不同城市之间?
这一部分将探讨视觉语言模型(VLMs)是否倾向于某些特定城市,即使这些城市位于同一个国家或共享相似的文化背景。
分析模型在识别和区分这些城市时的表现,可以了解是否存在对某些城市的偏好或偏差。
2 考虑到经济、人口或文化差异,全球各地区的准确性如何变化?
这一部分将评估VLM在不同全球经济、人口结构和文化背景下的表现。具体来说,将调查这些因素如何影响地理定位任务的准确性。
对不同区域的详细分析,可以揭示哪些因素最显著地影响了模型的性能,并探讨可能的原因和解决方案。
深度评估
FAIRLOCATOR的「深度评估」部分包括了每个大陆人口最多的国家:大洋洲的澳大利亚、南美洲的巴西、北美洲的美国、欧洲的俄罗斯和非洲的尼日利亚。
对于每个国家,选择了人口最多的十个城市,每个城市收集了十张图片。
图2展示了GPT-4o预测频率最高的城市,而图3、4和5分别展示了Gemini-1.5-Pro、LLaMA-3.2-Vision和LLaVA-v1.6-13B的预测结果。
一个城市的「正确」得分最高为30分,因为视觉语言模型(VLMs)有三次机会来预测。
图2:GPT-4o在六个国家中最常被预测到的城市。
图3:Gemini-1.5-Pro在六个国家中最常被预测到的城市。
图4:LLaMA-3.2-Vision在六个国家中最常被预测到的城市。
图5:LLaVA-v1.6-13B在六个国家中最常被预测到的城市。
表1展示了这四个模型在不同层面的准确率,包括大陆、国家、城市和街道,涵盖六个国家。
在这四个模型中,GPT-4o的表现最为出色,与准确性最低的模型LLaVA相比,它在大洲、国家和城市层面的准确率分别提高了65.9%、60.4%和37.4%。
在所分析的国家中,视觉语言模型(VLMs)对美国和印度的识别效果最为有效,其次是澳大利亚和巴西,而对尼日利亚和俄罗斯的识别表现最差。
在视觉语言模型(VLMs)的预测中,观察到了对较大城市的偏向,尤其是在巴西、尼日利亚和俄罗斯的情况中。
这些结果表明,虽然视觉语言模型能够在国家层面进行区分,但它们在对一个国家内不同城市进行更细致的区分时存在困难。
这种偏向在澳大利亚和美国等国家表现得稍微弱一些。
然而,偏好仍然很明显,在澳大利亚,悉尼(Sydney)、布里斯班(Brisbane)和墨尔本(Melbourne)更受青睐;在美国,纽约市(New York City)的预测次数过多,尽管表面上看预测似乎更加均衡。
随着模型能力的提升,视觉语言模型(VLMs)展现出更强的分辨城市间细微差异的能力。
然而,该模型在识别澳大利亚的城市时遇到了困难,经常将它们错误地归类为美国城市,如纽约市、迈阿密、旧金山或洛杉矶。
这种困难可能源于澳大利亚和美国城市之间在文化和视觉上的相似性。
这两个国家在联合国区域分类中都属于西欧及其他国家组,对于不太先进的模型来说,更难以区分这些城市。
再来看其他模型,尽管它们在识别各个国家的城市时更为准确,但错误预测的情况仍然普遍存在。
广度评估
FAIRLOCATOR的「广度子集」由60个城市构成,依据人口排名从高到低筛选而出。
为保证多样性,避免同一国家城市数量过多,每个国家最多纳入两个城市,致使该子集中涵盖43个国家,超过了「深度子集」中涉及的六个国家。
为探究视觉语言模型(VLM)预测中的区域差异,每个城市还依据经济状况、人口规模和文化背景进一步分类:
(1)经济状况依据全球城市百万富翁数量排名确定。在此榜单上前50名的城市被归为「发达」城市,该子集中有20个发达城市和40个发展中城市。
(2)人口规模依据全球城市人口排名标注。人口超过1000万的城市被归为「人口众多」城市,如此便有22个人口众多的城市和38个人口较少的城市。
(3)文化分类:鉴于各大洲内部存在文化多样性,仅以大洲作为分类标准通常被认为不够完善。所以,采用了联合国区域集团的分类方式,该方式将各国划分为五个在文化上相关的集团:非洲集团、亚洲及太平洋经济社会委员会(亚太经社会)地区发展中成员国集团(APSIDA)、东欧集团(EEG)、拉丁美洲和加勒比国家集团(GRULAC)以及西欧和其他国家集团(WEOG)。表2在其标题中给出了每个集团的定义。
表2:四种模型在「广度评估」中的准确率。「Cont.」代表大洲,「Ctry.」表示国家,「St.」是街道。最高分用粗体标出。
在表2中,「Africa」指非洲集团,「APSIDS」是亚洲及太平洋小岛屿发展中国家集团,「EEG」代表东欧集团,「GRULAC」是拉丁美洲和加勒比集团,「WEOG」是西欧及其他国家集团。
按经济、人口和文化群体分类的结果也列于表2中。
总体而言,在「广度」评估中,特别是在城市层面的准确率(44.1%)高于「深度」评估(25.2%),这很可能是因为「广度」子集中纳入了60个全球知名城市。
与「深度」评估中GPT-4o表现最佳不同,在「广度」评估中,Gemini-1.5-Pro和GPT-4o的表现相当。Gemini在识别大洲和国家方面表现出色,而GPT-4o在识别城市方面展现出更优异的性能。
关于对发达城市、人口众多的城市以及特定文化群体内城市的偏见问题,主要发现如下:
(1)在发展中城市和人口较少的城市中,所有模型始终表现出较低的准确率,其中人口因素对模型性能的影响更大。
从经济水平来看,在城市层面的预测中,LLaVA的准确率下降幅度最大,从发达城市转变到发展中城市时,其准确率下降了12.5%。相反,Gemini受影响最小,在城市层面仅下降了0.8%,不过其在国家层面的准确率下降了8.6%。
就人口因素而言,性能下降更为明显。当从人口较多的城市转变到人口较少的城市时,视觉语言模型(VLM)在城市层面的预测准确率下降了12.4%至17.1%。
(2)不同文化群体之间的准确率差异显著,城市层面的准确率差异高达19.1%。
西欧及其他国家集团(WEOG)的国家在城市层面的平均准确率最高(56.5%),其次是东欧集团(EEG,50.0%),而非洲集团的准确率最低(37.4%)。
这种模式在四种视觉语言模型中都一致,这凸显了非洲国家在视觉语言模型中代表性不足的问题。
Gemini在非洲集团和西欧及其他国家集团之间的准确率差异最小(9.7%),而GPT-4o的差异最大(26.8%)。
本节详细分析了视觉语言模型(VLM)在地理定位任务中的表现,提出了解释这些表现的假设,并进行了初步实验来验证。
是否存在数据泄露?
图像的新版本鉴于视觉语言模型的出色表现,有人可能会假设其训练数据中包含了谷歌街景图像,从而可能导致模型记住答案。
为了对此进行调查,在主要实验中使用的2019年版谷歌街景图像的基础上,补充了2024年的新版本和2014年的旧版本。
2024年的图像不在GPT-4o和Gemini-1.5-Pro的训练数据中,因为它们的发布日期晚于模型的发布日期。纳入2014年的图像是为了检验视觉语言模型是否能识别旧的视图。
为了尽量减少区域差异,研究人员关注不同时间版本中相同的位置。
由于某些版本在某些地区的可用性有限,选择了美国的三个城市——丹佛、拉斯维加斯和纽约——进行这项研究。
对于每个城市,确定了10个位置,其中许多位置在选定的时间范围内会有变化,总共得到90张图像。
结果显示,在城市层面的准确率方面,2019年的图像表现最佳(84.6%),其次是2024年的图像(82.5%),2014年的图像表现最差(79.2%)。
这些发现表明,训练数据会影响准确率,尽管在美国的这些案例中,这种影响相对较小。
是否存在虚假相关性?
特定特征另一个假设认为,视觉语言模型(VLM)可能会利用图像中的表面相关性来推断位置。
为了研究独特特征与真实情况之间的关系,研究人员聚焦于不同城市的唐人街,这些唐人街有着共同的视觉元素,比如汉字以及文化装饰(例如红灯笼和挥春)。
在实验中,从每个大洲选取一个唐人街,并且从每个唐人街抽取十张图片:曼谷、约翰内斯堡、利马、伦敦、纽约和悉尼,这些地方都有有着大量华人社区的成熟唐人街。
由GPT-4o和Gemini-1.5-Pro得出的实验结果总结在表5中,结果表明视觉语言模型在识别这些唐人街场景方面表现出色。
这一发现表明,视觉语言模型不仅仅依赖于将图像与中国联系起来的明显线索,还会利用其他细微的特征。
城市景观风格
除了特定特征之外,研究人员还研究了图像的整体风格是如何影响预测结果的。
具体来说,研究人员探究视觉语言模型(VLM)是否存在偏见。
例如,如图1(c)所示,GPT-4o将来自南非开普敦的城市景观预测为美国的圣地亚哥和法国的尼斯。相反,对于更具乡村风格的图像,Gemini-1.5-Pro会将俄罗斯的莫斯科误认成乌克兰的哈尔科夫,将西班牙的马德里误认成西班牙的塞维利亚。
同样地,LLaMA也出现了类似的错误:将巴西巴西利亚干净、整洁的街道场景预测为澳大利亚的悉尼,将俄罗斯克拉斯诺亚尔斯克的高楼林立的城市景观识别为美国纽约。
这些发现揭示了视觉语言模型在解读城市环境时可能存在的区域偏见。
思维链(CoT)能起作用吗?
为了评估视觉语言模型(VLM)的性能,研究人员使用思维链(CoT)提示来分析它们的输出结果。
研究人员给出两个示例查询:一个针对Gemini,另一个针对LLaMA。
案例研究表明,虽然思维链推理看起来合乎逻辑,但它与最终答案并非始终一致。
在思维链示例(1)中,Gemini正确识别出了该地点位于非洲周边,但也指出没有可见的车牌或标识来辅助进一步分析是哪个国家或城市。
尽管缺乏这些证据,该模型仍然预测出了正确答案。
相反,在思维链示例(2)中,LLaMA识别出了加州的典型特征,但却错误地预测为圣巴巴拉,而正确答案应该是洛杉矶。
在多个示例中,思维链推理过程中,引用的元素往往与最终答案部分相符。
然而,这些元素通常比较宽泛,无法准确地确定具体位置。
仅仅依靠推理过程很难确定图像的确切地理位置。
假设模型的回答并非基于对图像信息的真实推理,而是受到其先前关于地理位置的知识的影响。
参考资料:
https://x.com/emollick/status/1903135115334594871
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。