AI / MLリアリティチェックの時間です

公開: 2020-06-29

Rohan Chandranは、Infogroupの最高製品責任者です。

データサイエンスは脚光を浴びている瞬間を経験しており、この重要な分野は、新しい人工知能(AI)と機械学習(ML)の進歩の基礎を日々築いています。 人間として、そしてビジネスリーダーとして、最新かつ最高のものに対する私たちの欲求は常に強く、この場合も例外ではありません。 現在、誰もがデータサイエンスの実践を強化し、製品やサービスでのAIとMLの使用を指摘しようとしています。

私たちはそれをやり過ぎています。 私たちはソリューションを過剰に設計しています。 私たちは、宣伝されているほどではないことが判明した仕事のために人々を雇い、1年後にチームを解散させるか、なぜ彼らが従事しておらず、自然に魅力的であるのか疑問に思っています。 そうすることで、私たちはまた、人々が自分の資格を取得し、実際には資格のないデータサイエンスの仕事を探すことを奨励するエコシステムを促進し、本物の雇用主が適切な人材を雇うことを困難にします。 偽りの経済は持続しません。

ただし、はっきりさせておきますが、データサイエンスは、現代のビジネス環境において不可欠であり、革命的な分野ですらあります。 データを理解して運用するために開発されている新しい技術は、ますます自動化された形で、変革をもたらしています。 私たちの機能の仕方は変化しており、それを継続しなければなりません。 とはいえ、AIとMLのストーリーの一部になりたいという私たちの絶対的な願望の中で、私たちは非効率に溺れています。 説明させてください。

単純な問題ほとんどの場合、単純な解決策の恩恵を受けます

YouTubeには、複雑なルーブゴールドバーグマシンのビデオがたくさんあります。 (まだ見たことがない場合は、シェルターインプレイスで何時間も楽しむことを強くお勧めします!)これらのデバイスは驚くべきものですが、定義上、単純な問題に対する不必要に複雑な解決策です。 このアプローチは、ビジネス上の問題から始めるのではなく、テクノロジーの選択(「製品がAIを使用していることを確認しましょう!」)から始めてビジネスの世界に変換すると危険になります。

例として、私の14歳のトヨタを考えてみましょう。 ポケットにキーフォブがあります。 両手に鞄を持っていても、車まで歩いてドアを開けるだけ。 余分な労力は必要ありません。

その後、近距離無線通信(NFC)が組み込まれた電話が登場しました。突然、自動車メーカーは、NFC対応の電話を使用して車のドアを開ける方法を紹介するために急いでいました。 そのためには、携帯電話をポケットから取り出し、窓のNFCタグにかざして、ドアを開けるだけで済みました。

この例では、最新のテクノロジーの使用を任務とする自動車メーカーのすべてのチェックボックスをオンにします。 これにより、幹部はステージに上がり、電話を使用して車のロックを解除する方法について話し合うことができます。 しかし今、私は車に立ち寄り、買い物袋を置き、電話を取り出し、持ち上げ、ポケットに戻し、袋を手に取り、そして車に乗らなければなりません。 私のエレガントでシームレスな体験は、問題点に満ちたものになりました。

残念ながら、これは、複雑なモデルを開発したり、AIソリューションを構築したりして、単純なソリューションを利用できるタスクを実行しようとするときに、あまりにも多くの人が行っていることです。 それのためだけにそうすることは、資源の浪費であり、長期的な経済的損害です。 最も精通した組織は抑制を示し、技術的なチェックボックスではなく、顧客とビジネスの価値の解決に沿ったリソースとインセンティブが不足している状況で最良のソリューションが生じることが多いことを認識しています。

機会費用:壊れていない場合は、修正しないでください。

キーフォブの例は、解決された問題に力を注がないという古い真実を説明するのにも役立ちます。 あなたが効率的にビジネスを運営しようとしているなら、あなたはあなたが提供する明確な付加価値にしっかりと集中したいと思うでしょう。 問題が他の人によって解決された場合、そしてそれに直面しましょう。私たちの問題のほとんどは、私たちが信じたいほどユニークではありませんが、彼らの仕事を活用します。 巨人の肩の上に立つ。

社内ですべてを解決するためにデータサイエンティストのチームを構築する代わりに、まず、他の場所でオープンソースまたはライセンス可能なソリューションの可用性を調査します。 AIと機械学習が分野として成熟するにつれ、Amazon、Googleなど、この分野で最大のプレーヤーの多くが、あらゆる問題を解決するために簡単に採用または適応できる堅牢なアルゴリズムとツールの作成にすでに多額の投資を行っていることがわかりました。データの課題の数。 既成のソリューションで簡単に対処できる問題を解決するために、50人のデータサイエンティストからなる独自のチームを採用しても、何も得られません。 (技術に関心のある読者のために、スケジューリングシステムの特定の例を紹介する、Thomas Nieldによる興味深い記事があります。この記事には、非常に効率的に解決する既存のアルゴリズムがいくつかあり、再発明に投資する必要がありません。)

データ品質が基盤です。 最初にそれを正しくしてください。

とりわけ、データサイエンス、さらにはMLやAIへの投資を検討している場合、成功する可能性のある結果の基盤は、チームで利用できるデータの品質であり、そのモデルまたはツール。 ことわざにあるように、ゴミを出し入れします。

博士号のチームは、今日の大砲が設置しているものよりも優れた機械学習画像認識システムを開発する可能性があります。 しかし、猫のラベルが付いた犬の写真を7枚使ってトレーニングすると、見事に失敗するだけです。

もちろん、品質はそれよりも深く拡張されており、データサイエンティストやデータエンジニアは、その価値があるので、最初にここに集中することを要求します。 その際、正確性、適合率、再現率、適時性、来歴はすべて重要な考慮事項ですが、リップサービスよりもわずかに多く支払われるのは、特定のコンテキストで品質を構成するものを定義することです。 企業が好むバニティメトリクス(「3000万人が私のアプリをダウンロードした」と考えてください。実際にアプリを使用している人の数はわかりません)と同じように、品質とは何かを適切に考慮しないと、勝ちます。達成できません。

世帯内の子供の存在とその年齢に関するデータセットについて考えてみます。 乳児用ワンジーを新生児のいる親に販売する場合は、適時性と正確性が重要です。 あなたのターゲット市場はタイトです、そしてあなたが数週間遅すぎるならば、あなたはマークを逃しました。 ただし、家族向けのボードゲームを販売している場合は、精度が良ければ2、3年離れていてもほとんど問題にならない可能性があります。 これは同じデータですが、品質評価が異なります。

AIとMLは私たちの将来の基本的な部分になるでしょう。 私は、今日の企業がクラス最高のデータサイエンティストを採用すべきではないと主張しているわけではありません。 私は単に、企業のリーダーは、明確に定義された戦略とニーズに反して採用していることを確認し、その上に重要なモデリングを保証するのに十分な実質的である、クリーンで十分に(そして倫理的に)調達されたデータを持っていることを確認する必要があると言っています。 このように集中することで、組織のリソース、およびデータサイエンティストの時間と才能を確実に活用できます。