Lors du dévoilement de l’événement Apple pour l’iPhone X et l’iPhone 8 cette semaine, la société a annoncé l’A11 Bionic, un SoC avec un processeur à six cœurs, le premier GPU personnalisé d’Apple, et ce que l’entreprise appelle un moteur neuronal. 7 case iphone spigen Apple ne parle pas vraiment du matériel, en plus de dire ceci: Le nouveau moteur neuronal A11 Bionic est une conception à double cœur et effectue jusqu’à 600 milliards d’opérations par seconde pour le traitement en temps réel. A11 Le moteur neuronal bionique est conçu pour des algorithmes d’apprentissage machine spécifiques et permet l’identification de visage, Animoji et d’autres caractéristiques. marble iphone 8 plus case hard La plupart de ce qui précède est le marketing. Réclamer 600 milliards d’opérations par seconde est aussi proche de la signification que vous pouvez obtenir. Même si je suis sûr que c’est un vrai nombre, cela ne nous dit rien de l’architecture coque core prime sous-jacente ou de ses performances, parce que nous ne savons pas ce qu’Apple définit comme un quand un GPU donne sa cote de performance dans les TFLOPs, par exemple opérations que le GPU peut effectuer dans un scénario idéal. Ce que le GPU peut pratiquement supporter dans une charge de travail donnée est toujours différent de ce qu’il peut faire en théorie, et une limitation similaire est certaine d’être à l’œuvre ici. iphone 8 case boston terrier Même si nous ne connaissons pas grand-chose des spécificités du matériel Apple, nous pouvons comprendre certaines choses à propos de sa fonction en considérant l’apprentissage automatique lui-même et les autres solutions que d’autres entreprises construisent pour gérer ces charges de travail. Qu’est-ce que l’apprentissage automatique L’apprentissage automatique est une branche de l’IA qui traite de la création d’algorithmes à partir de données, par opposition à être explicitement programmé sur où chercher. Il existe plusieurs types d’apprentissage automatique. Les deux qui attirent le plus l’attention sont l’apprentissage supervisé et non supervisé. Si vous avez introduit ces données dans un algorithme dans le cadre d’un scénario d’apprentissage supervisé, vous pouvez représenter graphiquement la relation entre l’espace et le loyer, puis utiliser cet algorithme pour prédire la location de tout appartement avec un espace donné sans écrire un programme spécifique. shockproof iphone 6 case blue la même tâche. Dans ce cas, vous pouvez demander au modèle de prédire combien un appartement devrait coûter à 1 000 pieds carrés, puis vérifier la prévision par rapport à combien coûtent les appartements de 1 000 pieds carrés. Plus vous insérez de données dans le modèle, plus le modèle devrait pouvoir prédire vos résultats. Dans l’apprentissage non supervisé, les données utilisées pour former l’algorithme ne sont pas étiquetées. En apprentissage supervisé, vous savez que vous cherchez une relation entre la superficie et le loyer mensuel. Dans l’apprentissage non supervisé, vous ne savez pas à quoi se rapportent les valeurs de données. Dans ces scénarios, l’algorithme recherche des relations dans les données, en recherchant des entités descriptives. Laissez développer notre exemple. Imaginez que vous avez un ensemble de données plus important que la superficie et le loyer. Imaginez que vous avez également des données sur les valeurs des propriétés locales, les taux de criminalité, les données démographiques, la qualité de l’école, le loyer mensuel et les pointages de crédit. Ce sont tous des facteurs de bon sens qui peuvent avoir une incidence sur le coût de location d’un appartement, mais il est difficile de déterminer dans quelle mesure ils influent sur le loyer. Dans ce scénario, vous souhaiterez peut-être un algorithme coque antichoc xcover 4 capable de rechercher les relations entre ces facteurs et de regrouper les résultats similaires pour afficher leur relation. C’est ce qu’on appelle le clustering, et c’est l’un des types fondamentaux d’algorithmes d’apprentissage non supervisés. Le graphique ci-dessus montre le même ensemble de données, avant et après le clustering. marble initial iphone 8 plus case Le clustering est juste un type d’algorithme d’apprentissage non supervisé, et il n’y a aucune garantie que chaque pattern est un bon pattern parfois un algorithme va ramasser une relation qui en fait juste du bruit de fond. Mais ces types d’algorithmes sous-tendent la plupart des moteurs prédictifs qui alimentent divers sites Web comme Netflix ou Amazon. Par exemple, comment Netflix pourrait-il profiter d’Agents of Shield si vous regardiez aussi Star Trek C’est parce que Netflix propres données sur ses téléspectateurs montre ces types de relations. Si vous savez que 90% de vos fans de Star Trek regardent également des émissions de télévision Marvel, vous savez recommander fortement une émission télévisée Marvel. Cela semble encore évident avec seulement un ou deux points de données à jouer. Mais cette autre force de l’apprentissage automatique, il peut trouver des relations dans les données, même quand il y a des centaines ou des milliers de points de données à choisir. La reconnaissance faciale est un domaine de recherche majeur pour l’apprentissage en profondeur, l’apprentissage automatique et l’IA. Il n’est donc pas surprenant que Apple affirme que son moteur neuronal est utilisé sur Face ID, ou qu’il a explicitement conçu pour implémenter certains algorithmes. C’est moins clair ce que Animojis a à voir avec quoi que ce soit, mais nous ignorons cela pour le moment. Un point que Apple a fait lors de son dévoilement est son service d’identification de visage doesn utilise simplement une caméra conventionnelle. Selon Apple, il utilise une carte de 30 000 points lumineux pour cartographier votre visage en utilisant la lumière infrarouge, puis compare la carte lorsque vous essayez de déverrouiller votre appareil avec la carte qu’il a stockée de votre visage. Que beaucoup de données soient traitées rapidement, et probablement avec peu de puissance. Pourquoi construire un matériel spécialisé Vous pouvez balancer un chat mort de plus de six pouces sans toucher une autre entreprise qui travaille sur une solution d’IA, d’apprentissage en profondeur ou d’apprentissage automatique dans le matériel ces jours-ci. Google a Tensorflow, Intel a MIC, Nvidia a Volta, Fujitsu travaille sur leur propre solution, et même AMD veut entrer dans l’action avec ses produits Radeon Instinct. Je ne veux pas parler de différences réelles entre ces solutions matérielles, et il existe de réelles différences. Les charges de travail utilisées pour l’apprentissage en profondeur et la formation des modèles d’apprentissage en profondeur sont les mêmes, les capacités de ces plates-formes sont les mêmes et elles s’intègrent dans le même matériel, résolvent les mêmes problèmes ou se spécialisent dans les mêmes types de traitement. Cela ne veut pas dire qu’il n’y a pas de similitudes. De façon générale, chacune de ces initiatives met en œuvre des capacités spécialisées en matériel, dans le but de réduire à la fois le temps de calcul des charges de travail et la consommation d’énergie totale nécessaire pour le faire. Evidemment, Apple A11 Bionic a un TDP différent de celui d’un Nvidia Volta ou d’un AMD Radeon Instinct, mais il est essentiel de réduire la consommation d’énergie par opération. Le graphique ci-dessous montre la puissance nécessaire pour effectuer certaines opérations. Si vous vous demandiez pourquoi AMD et Nvidia ont mis l’accent sur l’utilisation des opérations 16 bits, par exemple, le tableau ci-dessous indique le coût par zone pour certaines fonctions ainsi que la consommation d’énergie associée à une tâche. Un GPU classique sans amélioration des performances ou de l’efficacité énergétique sur 16 bits effectue des opérations sur 32 bits. Dans ce tableau, FP signifie virgule flottante. Beaucoup de travail est fait pour trouver le moyen le plus écoénergétique de construire ces réseaux. Cela concorde avec la volonté d’Apple de déployer l’IA et l’apprentissage machine à la périphérie, où les enveloppes de puissance sont limitées et où une efficacité élevée est essentielle, mais cela a aussi des ramifications pour l’IA et même le HPC. Les réseaux à faible consommation d’énergie ont plus de marge de manœuvre pour évoluer physiquement vers de plus gros appareils ou pour fonctionner à des vitesses plus élevées sans générer de chaleur excessive. Trouver des moyens de conserver les données locales est un autre élément clé de l’amélioration des performances et de l’efficacité de l’apprentissage automatique. Moins vous avez de données à déplacer dans un bus, moins vous brûlez de puissance. Et bien que cela semble aller de soi, les diverses architectures que nous avons vues à ce jour sont toutes hautement parallèles et conçues pour fonctionner simultanément sur de grands ensembles de données, par opposition à l’exécution de moins de threads à des horloges plus élevées. Pourquoi cette poussée est-elle en train de se produire Au cours des dernières années, comme nous l’avons mentionné plus haut, nous avons constaté un énorme pivot vers ces tâches d’apprentissage en profondeur, d’apprentissage automatique et d’intelligence artificielle. Une partie de cela est pilotée par des applications de tâches spécifiques, comme les voitures autonomes. Cependant, je pense que la plupart de ces changements sont une réponse à l’échec à long terme de la mise à l’échelle du galaxy s7 edge coque silicium pour relancer les anciennes tendances de performance perdues en 2004. De 2004 à 2011, l’ajout de cœurs de processeurs et l’amélioration des architectures. Depuis 2011, les améliorations apportées aux performances du processeur unique haut de gamme ont été ralenties. (AMD Ryzen a fait un excellent travail pour redonner vie au marché de la consommation, mais AMD n’a pas encore mis sur le marché une puce capable de battre Intel en termes de performances monovis.) Trois choses sont arrivées pour rendre ces poussées plus probables. Tout d’abord, il devient clair que la seule façon d’améliorer les performances de calcul est de développer de nouveaux modèles de logiciels et de nouveaux cœurs spécialisés pour exécuter ces modèles logiciels. Si les cœurs de CPU à usage général sont en train de reprendre le cycle d’amélioration rapide dont ils bénéficiaient autrefois, peut-être spécialisés, les cœurs spécifiques aux tâches peuvent compenser une partie du relâchement. Deuxièmement, les améliorations continues de la densité des transistors et du fonctionnement à faible puissance ont permis de recueillir plus de données et de traiter ces données plus rapidement, dans des scénarios auparavant limités par la consommation d’énergie ou le matériel de traitement disponible. Troisièmement, le passage au traitement centralisé dans les datacenters cloud, plutôt que le traitement des PC grand public comme modèle de traitement, a encouragé des entreprises comme Microsoft ou Google à développer leur propre matériel spécialisé pour le traitement de la charge de travail spécifique à une tâche. Intel ne va pas construire un CPU spécifiquement optimisé pour le traitement back-end des moteurs de recherche; il n’y a pas de marché pour eux dans la construction d’une telle solution. Microsoft, en revanche, a commencé à utiliser des FPGA pour améliorer les performances de Bing en 2015. Apple met l’accent sur le déploiement de ces capacités à la périphérie par opposition à dans le centre de données est un peu inhabituel, mais pas unique. Qualcomm a déjà parlé du Snapdragon 835 comme une plate-forme avec des capacités de calcul dont les développeurs pourraient également tirer parti. Il est intéressant de voir comment la société Cupertino développe ces capacités à l’avenir. Apple s’est éloigné de l’activité périphérique, mais il n’y a aucune raison pour que la société ne puisse faire un retour, éventuellement avec une version cadencée supérieure de son A11 Bionic dans un boîtier qui ne serait pas limité à une enveloppe TDP ou à un facteur de forme. À l’heure actuelle, les entreprises et les chercheurs essaient encore de déterminer à quoi servent ces capacités d’apprentissage automatique et quels sont les cas d’utilisation des consommateurs.