谷歌是對的! 基準測試和規格表的時代需要在智能手機中結束

已發表: 2022-10-31

所以終於有人說了。 一個非常值得注意的人。 在最近由 Google 製作的播客中,Google Silicon Teams 產品管理高級總監 Monika Gupta 說了一些技術人員已經知道但避免說的話,因為這完全違背了大眾的看法:

規格和基準很方便,但重要的是功能。

smartphone benchmarks specs

對於谷歌的 Tensor 芯片的基準測試成績不佳的批評,Gupta 相當直接:

我認為經典基準測試在某個時候起到了一定的作用,但我認為該行業從那時起已經發展......經典基準測試是在人工智能和手機甚至還不存在的時候編寫的。 它們可能會講述一些故事,但我們不覺得它們講述了完整的故事……我們的基準是我們在芯片上運行的實際軟件工作負載。 然後我們努力使每一代 Tensor 芯片變得更好,無論是更好的質量、更好的性能還是更低的功耗。

想知道手機有多好? 檢查他們的基準

有些人可能會在該聲明中發現諷刺的痕跡,因為隨著 Android 的到來,基準測試和技術規格確實進入了智能手機審查和分析的畫面。 在此之前,在諾基亞和黑莓的時代,很少有人知道設備中處理器和 RAM 的名稱和速度,更不用說處理器的基準測試分數了。 通常考慮的唯一規格是相機百萬像素,顯示器尺寸(分辨率不是一個因素),在某種程度上,電池尺寸。

與今天相比,當手機內的幾乎所有東西都經過某種基準測試時——處理器、顯示器、攝像頭、電池……你說出它的名字,你就會找到它。 這些過去也有,但最近,他們實際上已經成為智能手機節目中的明星表演者,而不是配角。 今天,一個品牌在手機發布之前就開始分享手機處理器的基準分數、其相機的 DXO 評級和/或顯示評級的詳細信息是很常見的。

人們可以理解品牌在這方面的來源。 這些基準和評級被視為“第三方”和客觀的性能和質量證明,並且通常是展示產品在某個類別中的最佳或優於其競爭對手的一種方式。 這當然是一個足夠公平的方法。 畢竟,基準和評級是為測試組件而設計的,因此它們在該部門的表現如何不容忽視。

基準布魯斯:“他們可能會講述一些故事,但不是完整的故事”

就設備而言,當基準被視為最重要的和最終的一切時,問題就出現了。 一位一級方程式賽車手曾經說過,如果汽車不容易操控和駕駛,那麼它的數字就不好,這同樣適用於智能手機基準測試。 正如古普塔所說:“他們可能會講述一些故事,但我們不覺得他們講述了完整的故事。 ” 處理器可能會在基準測試中取得很好的成績,但它無法彌補有缺陷的軟件。 相機的高 DXO 評級可能會掩蓋處理緩慢的情況。 只有這麼多的基準和評級可以做。 它們就像測試條件,而不是現實生活中的條件。 更糟糕的是,品牌現在開始關注出色的基準分數,而不是真正的消費者體驗。 事實上,基準分數已成為任何品牌發布演示的重要組成部分!

值得稱讚的是,谷歌一直試圖打破這種基準驅動的系統。 當它接管摩托羅拉時,它推出了 Moto G 和 Moto X 等設備,這些設備強調流暢和創新的性能,而不是規格。 即使它似乎被捲入了 Pixel 系列的規格大戰,谷歌還是推出了 Pixel 的“A”變體,它以相對適中的規格表提供了良好的性能。 去年,當它為 Pixels 遷移到自己的 Tensor 處理器平台時,這家搜索巨頭明確表示,它優先考慮智能功能而不是“電源”。 由基準分數定義的功率是。

張量:讓基準變得緊張的東西

google tensor

Pixels 一直受到批評,因為它們的功能不如高通和聯發科的旗艦芯片驅動的設備強大。 然而,這裡需要注意的一點是,它們往往僅在非常特定的條件下才會落後——例如,在高端遊戲的最大設置或處理長視頻時。 在大多數主流使用任務中,Pixels 與任何 Android 旗艦產品一樣好,甚至更好,並且具有許多旗艦產品所缺乏的許多智能功能。 是的,他們可能不會像其他一些旗艦那樣快速加載遊戲,並且可能會在這里和那裡丟掉奇怪的幀,但差異並不像基準分數所表明的那樣嚴重。 正如一位科技品牌的高管曾經指出的那樣,“如果手機對用戶來說運行順暢,基準分數是否重要? 根據處理器的名稱或基準分數來稱呼手機功率不足是不公平的。 它應該是關於它的​​工作情況,而不是它的基準分數。”

這並不是說基準測試完全沒用而且浪費時間。 它們在為我們提供績效衡量標準和比較規模方面非常寶貴。 然而,他們需要補充消費者技術的敘述,而不是推動它。 基準有點像學術考試——它們確實提供了一個人知道什麼的衡量標準,但絕不是一個人知識的無可辯駁的證明。 甚至愛因斯坦也沒有通過考試。 坦率地說,我們已經記不清有多少設備擁有令人印象深刻的基準測試分數,但在現實世界中卻步履蹣跚。

谷歌通過選擇智能而不是其 Tensor 芯片的絕對速度,在一個痴迷於基準測試的世界中邁出了大膽的一步。 很高興看到它也支持它,即使一些技術專家對其基準分數嗤之以鼻。 “我們的基準是我們在芯片上運行的實際軟件工作負載,”古普塔在播客中說。 我們認為她說得有道理。 歸根結底,它應該是關於某件事的效果如何。 具有高基準和平庸/錯誤性能的手機類似於具有出色成分和外觀但最終味道仍然奇怪的菜餚。 基準無疑是有用的,但現在是我們開始超越它們的時候了。