Dans la jungle des startups

Viva Tech, c’est un peu le salon de l’agriculture des passionnés de technologie ! Certains y vont pour rencontrer des acheteurs, pour faire valoir leur savoir-faire ou encore présenter leurs plus beaux produits.

Pour ma première participation au salon, je me suis dis que ça serait génial de rencontrer tous ceux qui sont intéressés par la science des données (data science), l’intelligence artificielle (machine learning) et la visualisation de données (data viz).

Mais alors comment faire, sachant qu’il y a 1500 startups et groupes référencés sur le site de VivaTech pour cette édition 2018 !

Utilisons la technologie pour y voir plus clair

En regardant la structure du site, on peut voir que les startups ont une série de tags qui permettent de les filter.

 

Je dois avouer que l’interface de recherche du site ne marchant pas sur mon système, j’étais frustré de ne pas pouvoir filtrer ceux que je voulais aller voir. Je me suis donc résolu à faire une data viz qui pourrait grouper les startups et les partenaires par affinités en utilisant les tags.

Data ?

Pour faire une data viz et une analyse des startups, la première étape consiste à récupérer la liste depuis le site de Viva Tech. Le site n’ayant pas d’API publique, je me suis donc résolu à télécharger la page en HTML et à parser le code pour extraire un beau dataset avec le Booth number, le nom de la startup, les tags, la description et l’url du logo.

La représentation idéale pour pouvoir visualiser les groupes de startups similaires est de créer un réseau de données ou un graphe (au sens mathématique). Cette représentation va nous permettre de pouvoir extraire des clusters ou communautés de startups qui partagent les mêmes catégories; par exemple AR & VR, Machine Learning, IoT & Big Data, Future Tech, etc.

Evidemment, une startup peut être impliquée dans plusieurs domaines, et c’est là que les graphes montrent toutes leurs puissances ! Imaginions que je souhaite nouer des partenariats entre grands groupes, startups et moi (au hasard) pour lancer un projet commun. En analysant les communautés, je vais pouvoir voir tout de suite ceux qui pourraient être intéressés par ma démarche entre data science et art.

Graphe des startups

Pour créer un lien de similarité entres les startups, j’ai choisi d’utiliser la distance angulaire entre les tags après les avoir au préalablement transformés en vecteur via un encodage one-hot. En termes simples, plus les startups partagent de tags en commun, plus elles sont proches !

J’ai ensuite créé un index qui retourne pour chaque startup la liste des k (k=5) startups les plus proches pour finalement créer ces liens de similarités. Ce paramètre peut-être changé à volonté mais pour une représentation graphique visuellement intéressante, c’est mieux de garder ce chiffre assez bas entre 5 et 15 (d’expérience).

VivaTech data viz

Le moment tant attendu… Voici le réseau de toutes les startups présentes cette années d’après les données du site officiel. Les couleurs isolent les communautés de startups qui partagent les mêmes intérets. Le diamètre des points est proportionnel au nombre de connexions.

Data storytelling

Finalement, je me suis rendu compte que je pourrais potentiellement collaborer avec toutes les startups présentes sur le salon ! Ma matière première c’est la data, et à Viva Tech, tout le monde parle de data !

L’origine de ma démarche, le data art, c’est de transformer cette data en visualisation qui crée de l’émotion tout en éveillant la curiosité. Pour ce faire, j’utilise des techniques issues de la recherche scientifique (AI / ML, Big data, Graph Theory), ainsi que les dernières avancées technologiques (VR, WebGL ou encore le dernier framework Javascript à la mode).

J’essaie donc à la fois de raconter l’histoire des données, le fameux storytelling, mais avec quelque chose d’unique à chaque entreprise. C’est ce qu’on appelle le data storytelling. Quand on prend plaisir à regarder ou à intérargir avec des données d’une entreprise, on ne voit pas ça comme une publicité pour la marque, on prend ça comme quelque chose de fun qui la met en valeur.

Du coup, en terme d’impact, c’est tout de suite plus fort ;).

A très vite sur le salon.

PS : L’image finale est en fait un PDF avec le nom de chaque startup. Il suffit donc de faire une recherche dedans pour se localiser, trouver des partenaires ou des concurrents !

Si vous êtes intéressés par cette data viz et les données qu’elle renferme, n’hésitez pas à intéragir avec moi sur les réseaux (Twitter, Insta, LinkedIn, Facebook).

Twitter: @KirellBenzi

LinkedIn: Kirell Benzi