是時候進行 AI/ML 現實檢查了

已發表: 2020-06-29

Rohan Chandran 是 Infogroup 的首席產品官。

數據科學正在成為人們關注的焦點,這一重要學科為新的人工智能 (AI) 和機器學習 (ML) 的日常發展奠定了基礎。 作為人類和商業領袖,我們對最新和最偉大的事物的胃口總是很強烈,在這種情況下也不例外。 目前,每個人都在尋求加強他們的數據科學實踐,並指出在他們的產品和服務中使用人工智能和機器學習。

我們做得過火了。 我們過度設計解決方案。 我們正在為那些結果不如宣傳的工作招聘人員,然後在一年後解散團隊,或者想知道他們為什麼不參與並自然減員。 在這樣做的同時,我們也在推動一個生態系統,該生態系統鼓勵人們弄虛作假,尋找他們並不真正勝任的數據科學工作,從而使真正的雇主更難僱用合適的人才。 虛假經濟無法維持。

不過讓我明確一點:數據科學是現代商業領域中一個重要的甚至是革命性的領域。 正在開發的用於理解和操作數據的新技術,越來越多地以自動化方式進行,具有變革性。 我們的運作方式正在發生變化,而且必須繼續這樣做。 也就是說,在我們絕對希望成為 AI 和 ML 故事的一部分的過程中,我們正淹沒在低效率中。 請允許我解釋一下。

簡單的問題通常會從簡單的解決方案中受益

YouTube 上充斥著複雜的 Rube Goldberg 機器的視頻。 (如果您還沒有看過它們,我強烈建議您在原地避難時享受數小時的樂趣!)儘管這些設備非常出色,但根據定義,它們是一個簡單問題的不必要的複雜解決方案。 當我們從技術選擇(“讓我們確保我們的產品使用人工智能!”)而不是從業務問題開始將其轉化為商業世界時,這種方法變得危險。

舉個例子,想想我 14 歲的豐田汽車。 我的口袋裡有一個鑰匙扣。 即使我每隻手都拿著一個包,我也可以走到車前打開車門。 不需要額外的努力。

然後出現了內置近場通信 (NFC) 的手機。突然間,汽車製造商爭先恐後地展示如何使用支持 NFC 的手機打開車門。 為此,您只需將手機從口袋裡拿出來,舉到窗戶上的 NFC 標籤上,然後拉開門。

此示例檢查了負責使用最新技術的汽車製造商的所有選項。 它允許一位高管上台討論如何使用手機解鎖汽車。 但是現在,我必須在車前停下,放下購物袋,拿出手機,拿起手機,放回口袋,拿起袋子,然後上車。 我優雅而無縫的體驗充滿了痛點。

不幸的是,太多人在嘗試開發複雜模型或構建 AI 解決方案以執行具有簡單解決方案的任務時正在這樣做。 僅僅為了它而這樣做是對資源的浪費和長期的經濟損失。 最精明的組織表現出克制,並認識到最佳解決方案通常出現在與解決客戶和業務價值相一致的稀缺資源和激勵措施的背景下,而不是技術複選框。

機會成本:如果它沒有損壞,就不要修復它。

鑰匙扣的例子也說明了不把精力集中在已解決的問題上的老生常談。 如果您想有效地經營一家企業,那麼您需要密切關注您提供的獨特附加值。 在其他人解決了問題的地方——讓我們面對現實吧,我們的大多數問題並不像我們想像的那麼獨特——利用他們的工作。 站在巨人的肩膀上。

與其建立一個數據科學家團隊來解決內部所有問題,不如先探索其他地方的開源或可許可解決方案的可用性。 隨著人工智能和機器學習作為學科的成熟,我們發現該領域的許多最大參與者——包括亞馬遜、谷歌和其他公司——已經投入巨資創建強大的算法和工具,這些算法和工具可以很容易地用於解決任何問題。數據挑戰的數量。 僱用您自己的 50 名數據科學家團隊來解決可以通過現成的解決方案輕鬆解決的問題,沒有任何收穫。 (對於有技術頭腦的讀者,Thomas Nield 有一篇有趣的文章介紹了調度系統的一個具體示例,其中有幾種現有的算法可以真正有效地解決,無需投資於重新發明。)

數據質量是基礎。 先把它弄好。

最重要的是,當您考慮投資數據科學,尤其是 ML 和/或 AI 時,您必須認識到任何潛在成功結果的基礎是您的團隊可用的數據質量,以及它的模型或工具。 垃圾進,垃圾出,俗話說。

一個博士團隊很可能會為你開發一個機器學習圖像識別系統,它甚至超過了今天的大手筆。 但是,如果你用七張標為貓的狗的照片來訓練它,它唯一會做的就是失敗。

當然,質量比這更深入,任何稱職的數據科學家或數據工程師都會要求你首先關注這裡。 當您這樣做時,準確性、精確度、召回率、及時性和出處都是重要的考慮因素,但通常只是口頭上付出的代價是在您的特定環境中定義什麼構成質量。 就像公司喜歡炫耀的虛榮指標(想想“3000 萬人下載了我的應用程序”,它並沒有告訴你有多少人實際使用它),如果你沒有正確考慮什麼是質量,你就贏了達不到。

考慮一個關於家庭中是否有兒童及其年齡的數據集。 如果您將嬰兒連體衣賣給有新生兒的父母,那麼及時性和準確性至關重要。 你的目標市場很緊,如果你晚了幾個星期,你就錯過了目標。 但是,如果您正在銷售家庭棋盤遊戲,那麼如果您的準確性很好,那麼您是否會離開幾年可能並不重要。 這是相同的數據,但質量評估不同。

AI 和 ML 將成為我們未來的基本組成部分。 我並不是說今天的企業不應該僱傭一流的數據科學家。 我只是說,公司領導者需要確保他們根據明確定義的戰略和需求進行招聘,並確保他們擁有乾淨、良好(且合乎道德)來源的數據,這些數據足以保證在其上進行重要的建模。 通過以這種方式專注,您可以確保組織的資源以及數據科學家的時間和才能得到充分利用。