Il est temps de faire un test de réalité AI/ML
Publié: 2020-06-29Rohan Chandran est chef de produit chez Infogroup.
La science des données connaît son heure de gloire, cette discipline vitale posant chaque jour les bases des nouvelles avancées de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML). En tant qu'êtres humains et en tant que chefs d'entreprise, notre appétit pour les nouveautés et les meilleurs est toujours fort, et ce n'est pas une exception dans ce cas. À l'heure actuelle, tout le monde cherche à intensifier ses pratiques en matière de science des données et à souligner l'utilisation de l'IA et du ML dans ses produits et services.
Nous en faisons trop. Nous sommes en train de sur-concevoir des solutions. Nous embauchons des personnes pour des emplois qui ne correspondent pas tout à fait à ce qui est annoncé, puis soit nous dissolvons des équipes un an plus tard, soit nous nous demandons pourquoi elles ne sont pas engagées et s'abstiennent naturellement. Ce faisant, nous alimentons également un écosystème qui encourage les gens à gonfler leurs références et à rechercher des emplois en science des données pour lesquels ils ne sont pas vraiment qualifiés, ce qui rend plus difficile pour les véritables employeurs d'embaucher les bons talents. Les fausses économies ne tiennent pas.
Soyons clairs : la science des données est un domaine essentiel et même révolutionnaire dans le paysage commercial moderne. Les nouvelles techniques développées pour comprendre et opérationnaliser les données, de plus en plus de manière automatisée, sont transformatrices. Notre façon de fonctionner change et doit continuer à le faire. Cela dit, dans notre désir absolu de faire partie de l'histoire de l'IA et du ML, nous nous noyons dans l'inefficacité. Permettez-moi de vous expliquer.
Les problèmes simples bénéficient le plus souvent de solutions simples
YouTube regorge de vidéos de machines complexes Rube Goldberg. (Si vous ne les avez pas vus, je vous les recommande vivement - des heures de plaisir tout en vous abritant sur place !) Aussi remarquables que soient ces appareils, ils sont - par définition - une solution inutilement complexe à un problème simple. Cette approche devient dangereuse lorsque nous la traduisons dans le monde de l'entreprise en partant d'un choix technologique ("Assurons-nous que nos produits utilisent l'IA !") plutôt que de partir du problème métier.
Prenons l'exemple de ma Toyota de 14 ans. J'ai un porte-clés qui se trouve dans ma poche. Même si j'ai un sac dans chaque main, je peux marcher jusqu'à la voiture et ouvrir la portière. Aucun effort supplémentaire requis.
Puis sont arrivés les téléphones avec communication en champ proche (NFC) intégrée. Tout à coup, les constructeurs automobiles se sont précipités pour montrer comment vous pouviez utiliser votre téléphone compatible NFC pour ouvrir la portière de votre voiture. Pour ce faire, il vous suffisait de sortir le téléphone de votre poche, de le tenir devant l'étiquette NFC sur la fenêtre, puis d'ouvrir la porte.
Cet exemple coche toutes les cases des constructeurs automobiles chargés d'utiliser les dernières technologies. Il permet à un cadre de monter sur scène et de parler de la façon dont vous pouvez utiliser votre téléphone pour déverrouiller votre voiture. Mais maintenant, je dois m'arrêter à ma voiture, poser mes sacs d'épicerie, sortir mon téléphone, le tenir en l'air, le remettre dans ma poche, ramasser les sacs, puis monter dans la voiture. Mon expérience élégante et transparente est devenue criblée de points douloureux.
C'est malheureusement ce que font trop de gens lorsqu'ils essaient de développer des modèles complexes, ou de construire une solution d'IA, pour effectuer des tâches pour lesquelles des solutions simples sont disponibles. Le faire juste pour le plaisir est un gaspillage de ressources et un préjudice économique à long terme. Les organisations les plus avisées font preuve de retenue et reconnaissent que les meilleures solutions se présentent souvent dans le contexte de ressources rares et d'incitations qui s'alignent sur la résolution de la valeur client et commerciale, plutôt que sur des cases à cocher technologiques.
Coût d'opportunité : si ce n'est pas cassé, ne le réparez pas.
L'exemple du porte-clés sert également à illustrer le vieux truisme selon lequel il ne faut pas concentrer ses efforts sur les problèmes résolus. Si vous essayez de gérer une entreprise de manière efficace, vous devez vous concentrer sur la valeur ajoutée distincte que vous fournissez. Là où les problèmes ont été résolus par d'autres – et avouons-le, la plupart de nos problèmes ne sont pas aussi uniques que nous voudrions le croire – tirez parti de leur travail. Debout sur les épaules des géants.
Au lieu de constituer une équipe de scientifiques des données pour tout résoudre en interne, explorez d'abord la disponibilité de solutions open source ou sous licence ailleurs. Alors que l'intelligence artificielle et l'apprentissage automatique mûrissent en tant que disciplines, nous constatons que bon nombre des plus grands acteurs de cet espace, y compris Amazon, Google et d'autres, ont déjà investi massivement dans la création d'algorithmes et d'outils robustes qui peuvent facilement être utilisés ou adaptés pour résoudre n'importe quel problème. nombre de défis liés aux données. Il n'y a rien à gagner en employant votre propre équipe de 50 data scientists pour résoudre un problème qui peut être facilement résolu par une solution prête à l'emploi. (Pour les lecteurs à l'esprit technique, il y a un article intéressant de Thomas Nield qui passe en revue un exemple spécifique de systèmes de planification, pour lesquels il existe plusieurs algorithmes existants qui résolvent très efficacement, évitant la nécessité d'investir dans la réinvention.)
La qualité des données est la base. Obtenez ce droit d'abord.
Avant tout, lorsque vous envisagez d'investir dans la science des données, et plus encore dans le ML et/ou l'IA, il est impératif que vous reconnaissiez que la base de tout résultat potentiel est la qualité des données dont vous disposez pour votre équipe et ses modèles ou outils. Garbage in, garbage out, comme dit le proverbe.
Une équipe de docteurs pourrait bien développer pour vous un système de reconnaissance d'images par apprentissage automatique qui surpasse même ce que les gros canons ont en place aujourd'hui. Mais si vous l'entraînez avec sept photos de chiens étiquetés comme des chats, la seule chose qu'il fera sera un échec spectaculaire.
La qualité, bien sûr, va plus loin que cela, et tout scientifique ou ingénieur de données digne de ce nom exigera que vous vous concentriez ici en premier. Comme vous le faites, l'exactitude, la précision, le rappel, l'actualité et la provenance sont toutes des considérations importantes, mais ce qui est souvent payé un peu plus que du bout des lèvres définit ce qui constitue la qualité dans votre contexte particulier. Tout comme les mesures de vanité que les entreprises adorent utiliser (pensez à "30 millions de personnes ont téléchargé mon application", ce qui ne vous dit rien sur le nombre d'entre elles qui l'utilisent réellement), si vous ne considérez pas correctement ce qui constitue la qualité, vous avez gagné pas l'atteindre.
Prenons un ensemble de données concernant la présence d'enfants dans un ménage et leur âge. Si vous vendez des grenouillères pour bébés à des parents avec des nouveau-nés, la rapidité et la précision sont essentielles. Votre marché cible est serré, et si vous êtes quelques semaines trop tard, vous avez raté la cible. Cependant, si vous vendez des jeux de société familiaux, peu importe si vous êtes en retard de quelques années si votre précision est bonne. Ce sont les mêmes données, mais une évaluation de la qualité différente.
L'IA et le ML vont être un élément fondamental de notre avenir. Je n'affirme pas que les entreprises d'aujourd'hui ne devraient pas employer les meilleurs data scientists. Je dis simplement que les chefs d'entreprise doivent s'assurer qu'ils embauchent en fonction d'une stratégie et d'un besoin bien définis, et s'assurer qu'ils disposent de données propres, bien (et éthiquement) sourcées et suffisamment substantielles pour justifier une modélisation significative par-dessus. En vous concentrant de cette manière, vous pouvez vous assurer que les ressources de votre organisation, ainsi que le temps et le talent de vos data scientists, sont utilisés à bon escient.