说起手机拍照排名,很多人首先想起的都是DxOMark的评分和“拍照天梯”。但手机的拍照水平真的能用一个简单的分数反映吗?DxOMark以及很多评测机构的拍照排名和评分的可信度有多高呢?
专业评测机构也有掉链子的领域
DxOMark创立于2003年,是一个按照工业标准对相机和镜头成像质量进行测量和排名的网站。到了今天,它已经是地球上最著名最专业的相机测试机构之一。
其有定制的测试室,测试室涂满了哑光材料,温度控制在21-25度,湿度在30-70%之间,现场光源甚至都使用光谱设备进行过色温较正,以严格控制整个测试环境。
他们有自己的测试仪和计算公式,可以对相机生成的的RAW格式文件进行处理并得出相当客观和有参考价值的数据。配合公开的测试说明,生成的数据可以像参数表一样说明机器的各项表现指标。当然,前提读者了解它们的测试环境并有一定的技术基础。
就算上面看不懂也没关系,只要知道他们的相机评测非常专业和细致就行了。但在智能手机拍照质量飞涨的这几年,DxOMark也加入了对手机拍照的测试和评分。而这里面出现了很多未解之谜和传说:
• 索尼手机的拍照评分为什么总是高得不可思议?
• 索尼Z5的评分为什么可以超越三星S6 edge和iPhone6s Plus?
• 硬件和软件都高度一致的S6 edge+和Note5为何有不一样的分数?
当中究竟发生了什么事?现在我们开始走近科学。
简单的分数判断并不可行
DxOMark对每个手机的评分表如上,分为“曝光和对比度、颜色、对焦、细节纹理、噪点控制、Artifacts、闪光灯效果”7个项目。当中Artifacts是由传感器、镜头、电子噪声、算法共同导致的画质劣化问题,包括了紫边、锯齿、噪点、锐化晕(锐化过度造成的边缘白边)、摩尔纹等现象。
如果有多部机器的对比,还会上面的图表,用来直观手机间展示不同项目的优劣。
而国内媒体平时截取的一般只有DxOMark的总分,不会对其评分小项进行说明,所以经常会出现一些神论,例如索尼旗舰总是能在同代中拍前几名……
除去不同媒体对分数的“断章取义”外,参考价值更大的7个子项目,它们的评分也是疑点重重。首先是不同子项的具体定义和标准,其次是子项目的评分权重。另外,这个总分也综合了大家很少会比较的视频拍摄。
这里截取其对三星这几年旗舰的评分结果,可以看到三星旗舰每代都在进步,但仔细分析会发现有很多奇怪的地方(标红处):S6 edge+、Note5和S6 edge硬件完全一致,但对焦分数为何有明显差异?前两者甚至连软件都几乎一样,为什么视频防抖和纹理细节分数也会有差异?有相位对焦的S5,为何对焦分数甚至远远不如S4?
对比不同品牌的不同代机型:G4、1020、Z5等现代机型,为何Artifacts分数远远落后于老机型?索大法Z5的对焦和闪光灯分数为什么高得那么逆天?
Droid Turbo 2和Nexus 6都是是moto的同代作品,都是光学防抖的IMX214。Moto X Sytle是索尼的IMX230传感器,黑莓Priv传闻是截幅的IMX230,Nexus 6P是1300万像素的索尼IMX377。
处于拍照评分和人气榜顶端的设备分数对比
里面的疑点很多,这里就不一而足了。
另外,部分测试中放出来的样张也打击了很多DxOMark信徒的心,上图G4的镜头明显是没擦干净造成了光芒……
而即便忽略上述这些疑点,其评分对正常用户的意义也不是很大——测试并不包括夜景等弱光场景(但夜景和弱光才是手机拍照的瓶颈……)。因为测试的光线环境可以发挥手机的极限辨析力,这里基本遵循高像素碾压低像素的规律,所以弱光孱弱的索尼和moto有很高纹理和细节得分(现役旗舰都是2000万像素级的CMOS,但没光学防抖)。
而机友很看重的辨析力(对应纹理和细节得分),貌似权重并不大,而且精度并不高:锐度倒退的S6 edge居然也可以和Note5同分?现役日间辨析力顶峰的G4,该项得分只和Note5等机器同分?而该项分数最高的居然是Nexus 6P(宽容度带来的明暗细节加成?)。
问题出在哪里?
客观评测的关键在于尽量排除人为主观因素的影响。DxOMark在相机和镜头评测领域的专业度毋容置疑。他们的专业性表现在严格控制的测试环境,有将样张直接转换成数据的手段,可以尽量排除人为的主观因素,但在手机领域就值得商榷了。
▲DxOMark相机测试的部分公式节选
这里最核心的问题是,DxOMark的整套方案都是建立在RAW格式文件的处理上。但很多手机无法输出RAW格式照片,无法使用相机上那套“样张数据化”手段。每张样张都是镜头、CMOS、ISP、算法的共同影响产物,此外还有HDR、夜景降噪等会对“原片”进行多帧合成的算法。
很明显,它们在相机领域用的是另外一套评判标准,而且还没有像相机测试那样把标准公开(或许是笔者英文不好没找着?)。但在拍照领域,具体分数是个很敏感的雷区。拍照因素太多,样张和EXIF信息是客观的,但是这些所谓客观的分数,反而是主观气息最重的。
我们不知道分数是怎么打出来的,怎样的表现可以打这个分数,而且DxOMark并未提供原张,我们也无法验证真实性。概括来说,DxOMark的手机拍照测试是个无法由外界重现和窥探的“黑箱”,可信度本身就被打了折扣。
当然,即便忽略这大堆问题,它的专业度应该还是会比国内大多数主流媒体的拍照评测更加专业的。
国内评测机构也有不少小问题
比较著名的同行,都踩过“评分系统”的坑。虽然大家注重的测试项目几乎都会被涉及,但是哪几个项目更重要?具体权重如何?这些都是未定项目,也不太可能会有大家都同意的权重指标,毕竟每个人对拍照的需求都不一样,或许这个人喜欢数毛用的辨析力,而那个人只需要有讨喜的颜色和对比度,辨析力足够用来发朋友圈就好了。
另外,评分项权重的问题会引出很多谬论,比如当年小米3和MX3的口水战中的评分体系,被黑的效果如上。
而最近另外一个同行(上图)也不小心踩中这个坑。拍照大家都说好的Note5,居然大比分输给6s Plus、甚至索尼,相信连索粉自己都不会相信……
而更多的评测机构甚至连光线、场景、拍摄位置、对焦点都不统一的情况下就做起了拍照对比,更可怕的是部分连镜头都没擦干净。
盲测和众测也有明显的限制性
盲评总分数对比
▲盲评中不同项目的票数排名
既然专业机构可能有猫腻,那盲测会不会更有公信力呢?很遗憾,并不会。盲评投票都是通过网页进行,但很多投票者并不会有心思或者网速去点击查看大图,部分盲评甚至连原张都没有提供。
这样只能对比测光、对比度、色彩饱和度等显而易见的项目。很多机友看重的辨析力、噪点控制,甚至连白平衡都无法考量了(并没有标准样片提供,无法确认真正的白平衡)。
最后的结论很玄学、很简单、很仓促、很废话:要学会用辩证的眼光来看拍照对比,里面有很多陷阱甚至测试者自己都没注意到。除了拍摄环境控制好的原张直接对比,否则都不具有绝对的信服力。但只用简单的分数或排名就想评判手机的拍照水平,这种东西大家当娱乐话题就好了。