Perplexity AI pris en flagrant délit de vol de données

Perplexity AI

Perplexity AI, une licorne qui promet de rendre Google “ringard” (ce sont les mots exacts de son PDG), c’est fait prendre en plein scrapping de données.

Et ce n’est pas la première fois.

Qu’est-ce que Perplexity AI ?

 

Si vous n’êtes pas un abonné de la planète tech, il y a des chances que vous ne connaissiez pas encore Perplexity AI.

C’est un mélange entre un moteur de recherche et un chatbot surboosté à l’IA générative. Perplexity AI se distingue de ChatGPT parce qu’elle fournit des résultats basés sur des données en temps réel (avec ses sources).

Et il bat Google en proposant des réponses condensées et dénuées d’hallucinations.

La startup a été cofondée en 2022 par un ancien d’Open AI, et en mars 2024 elle a réussi à élever sa capitalisation boursière à 1 milliard de dollars. Ce qui en fait une licorne.

Certains voient ce tout nouveau moteur de recherche comme le remplaçant de Google. Un combat qui rappelle vaguement Google contre Firefox et Internet Explorer…

Comment la supercherie a été découverte ?

Maintenant qu’on a fait entrer l’accusé, voyons ce qui lui est reproché.

Robb Knight, développeur chez Radweb et créateur du blog technologique rKnight, reproche à Perplexity AI d’ignorer les instructions des fichiers robots.txt.

Ce sont ces fichiers qui permettent aux webmasters d’interdire aux robots des moteurs de recherche — les crawlers ou spiders — d’accéder à certaines pages.

Or, Perplexity AI ne le respecte pas du tout, ce qui lui permet de voler des données sans être repéré.

Tout commence en mars 2024.

Robb Knight décide de bloquer Perplexity AI sur son blog.

Pour y parvenir, il ajoute l’agent utilisateur du moteur de Perplexity  – Perplexity Bot -dans la liste noire de son fichier robots.txt.

Ensuite, il décide de vérifier si le moteur de recherche/chatbot IA a encore accès à ses contenus.

Il lui passe l’URL d’un de ses articles et lui demande de le résumer.

Et là…

Perplexity le lui résume avec tellement de détails que c’est impossible de croire que l’intelligence artificielle les a devinés.

Robb vérifie donc via Nginx (on explique ce qu’est Nginx ici) et le résultat est sans appel : Perplexity Bot est bien bloqué.

Le 14 juin, il ordonne même à ses serveurs de retourner une erreur 403 lorsque les robots de Perplexity tentent d’accéder à ses contenus.

Toujours rien.

Finalement, il va trouver l’explication en regardant les fichiers logs de ses serveurs.

Perplexity AI ment depuis le début sur l’agent utilisateur de son crawler.

Le moteur de recherche dissimule ses pages via un user agent commun. Celui généralement associé à Google Chrome sur Windows 10.

Robb Knight raconte tout ça dans son billet de blog (en anglais).

Il a fait la même chose sur le site MacStories et le résultat a été le même.

Et il n’est pas le seul à l’avoir remarqué…

Forbes a aussi détecté le scrapping illégal de Perplexity AI et sort la hache de guerre

Homme-tenant-un-magazine-Forbes
Homme-tenant-un-magazine-Forbes

Randall Lane, directeur du contenu de Forbes Media a lancé l’alerte le 11 juin 2024.

Dans son article “Pourquoi le vol cynique de Perplexity représente tout ce qui pourrait mal tourner avec l’IA” (au moins le titre est clair sur ses sentiments envers Perplexity), il déclare ceci :

« L’IA ne vaut que ce que valent ceux qui la supervisent. Je suis un adepte de l’IA et, entre de bonnes mains, la productivité, les progrès et la prospérité sont au rendez-vous.

Mais entre les mains de personnes comme Aravind Srinivas, PDG de Perplexity AI, qui a la réputation d’être doué pour les techniques de doctorat et moins doué pour les aspects humains fondamentaux, l’amoralité pose un risque existentiel ».

Aravind Srinivas PDG de Perplexity AI
Aravind Srinivas PDG de Perplexity AI

C’est que Forbes aussi, a remarqué le vol de contenu de Perplexity AI.

Et ils n’apprécient pas du tout.

Non seulement, tous les contenus (payants et exclusifs) de Forbes sont accessibles via Perplexity, mais la firme ne les cite même pas.

De son côté, Aravind Srinivas, CEO de Perplexity AI a tenté de défendre les pratiques de son entreprise sur X. Il a déclaré que le problème vient d’une nouvelle fonctionnalité “Perplexity Pages” lancée il y a 2 semaines.

(Tout en taclant au passage ses concurrents – ChatGPT, Gemini et Copilot.)

Ça n’a pas réussi à satisfaire Forbes qui a intenté une action en justice contre Perplexity AI le 18 juin 2024.

Pourquoi les pratiques discutables de Perplexity AI sont problématiques ?

Hacker
Hacker

Déjà, il y a une notion qui paraît floue et abstraite pour les ingénieurs de Perplexity AI qui s’appelle “respect de la propriété intellectuelle”.

(On a déjà parlé du casse tête de la propriété intellectuelle pour les sites web et de celui de vos codes sources)

En plus de ne pas respecter ce concept, voler des contenus et se les approprier à des répercussions graves :

  • ça prive les créateurs de contenus de leurs sources de revenus (c’est ce qui s’est passé quand Forbes a retrouvé ses histoires exclusives sur Perplexity) ;
  • le trafic vers les sites web sources baissent.

Pour les éditeurs et les entreprises journalistes, c’est une attaque à leur business model.

Par exemple, voici la répartition du chiffre d’affaires du journal “Le Monde” en 2022 :

  • Abonnements numériques et papiers : 48 %
  • Vente au numéro : 20 %
  • Publicité : 23 %
  • Diversification : 7 %
  • Subventions publiques et privées : 2 %

En publiant leurs contenus, les IA telles que Perplexity AI coupent la plus grande source de financement des journaux.

Histoire à suivre donc…

NumPy 2.0 sort enfin après 18 ans, on fait le point

Développeur montrant une affiche sur laquelle est écrit "Python"

18 ans.

C’est le nombre d’années qui s’est écoulé depuis la release de numpy 1.0.

Numpy est un peu le couteau de suisse des mathématiques sous Pythons. Grâce à cette bibliothèque, vous pouvez gérer simplement des matrices, des polynômes et toute une kyrielle de fonctions mathématiques.

Tous ceux qui font des maths l’utilisent. Des statisticiens. Des data scientists. Des professionnels du machine learning et j’en passe.

Des versions mineures se sont succédé entre temps.

Mais cette fois-ci, la communauté derrière le projet à juger les changements trop importants pour rester dans une version 1.xx.

Et ils ont eu raison au vu de ce que la nouvelle version de bibliothèque propose.

Quelques nouvelles fonctionnalités de NumPy 2.0

Sans transition, voici quelques-unes des annonces les plus marquantes de Numpy 2.0 :

  • un nouveau type de chaîne de longueur variable StringDType ;
  • un nouvel espace de noms numpy.strings avec des ufuncs plus performantes ;
  • une nouvelle API de traçage opt_func_info ;
  • la possibilité d’utiliser des objets Pickle dépassant 4GB ;
  • l’amélioration de l’API C et la migration du code C vers le langage de programmation C++ ;
  • une plus grande vitesse d’exécution grâce aux bibliothèques x86-simd-sort, Google Highway et Apple Accelerate.

Cette liste est très loin d’être exhaustive.

Pour voir tous les nouveaux ajouts de NumPy 2.0, rendez-vous sur la page dédiée à l’annonce.

Pas de rétrocompatibilité avec les versions 1.x de NumPy

Oui, vous avez bien lu.

Certains composants utilisant l’API C de NumPy ne vont tout simplement plus fonctionner.

Les développeurs du projet ont anticipé ça et vous proposent un mode ruff pour faciliter la migration de votre code-source sous NumPy 2.0.

Et vous recevrez parfois des messages d’erreurs vous indiquant quoi faire.

Mais parfois ça ne marchera pas.

Si c’est votre cas, faites un tour sur le guide de migration du site officiel de NumPy.

Ou contactez notre chef de projet informatique pour éviter un arrêt brutal de vos services.

Google Gemini s’invite en Inde (et s’ouvre enfin à tous)

Mardi 18 juin 2024.

Dans un billet de blog plutôt discret, Google a annoncé le lancement de l’application Gemini (ex Bard) en Inde.

Cette version de Gemini est capable de comprendre neuf langues indiennes en plus de l’anglais :

  • l’hindi ;
  • le bengali ;
  • le gujarati ;
  • Le kannada ;
  • Le malayalam ;
  • le marathi ;
  • Le tamil ;
  • Le telugu ;
  • et l’urdu.

En plus de ça, Google a aussi lancé des versions de l’app pour d’autres pays. Notamment la Turquie, le Sri Lanka, le Pakistan et le Bangladesh.

Dans son annonce, Google mise massivement sur la capacité de son modèle à comprendre les dialectes locaux. Ainsi que sur le fait que Gemini est l’assistant Chatbot avec la plus grande capacité de mémorisation.

Selon Amar Subramanya, vice-président de Google chargé de l’ingénierie de Gemini Experiences : « Avec une fenêtre contextuelle massive d’un million de jetons, Gemini Advanced possède désormais le contexte le plus long de tous les chatbots grand public disponibles dans le monde. Cela lui permet de traiter et de comprendre de grandes quantités d’informations, qu’il s’agisse de longs documents (jusqu’à 1 500 pages) ou d’e-mails, voire d’heures de vidéo et de bases de code étendues dans un avenir proche« .

Côté fonctionnalités, Google Gemini peut analyser :

  • des documents volumineux jusqu’à 1500 pages — soit bien plus que ChatGPT d’OpenAI ;
  • des vidéos de plusieurs heures ;
  • des bases de codes complexes ;
  • interpréter des images en temps réel.

Cerise sur le gâteau : l’IA de Google peut maintenant analyser vos données et vous aider à les visualiser.

Côté utilisateur, le chatbot AI est utilisable via la voix et les textes. Vous pouvez aussi l’invoquer en disant “Hey Google”.

Pour réaliser tout ça, Google a équipé son application Gemini du chatbot AI Gemini 1.0 Pro.

Et contrairement à ce que son nom laisse penser, ce n’est pas la version premium du modèle de langage de Google.

Nope.

C’est Gemini 1.5 pro — le modèle le plus avancé de la firme californienne —  qui fait office de version premium à 19.99 $ par mois.

Gemini est enfin accessible sur tous les périphériques (enfin, presque)

Gemini est disponible depuis le 5 juin en France.

Et si vous avez essayé de l’installer… Il y a de fortes chances que votre téléphone ait été déclaré incompatible.

Pas forcément parce que votre smartphone est vieux. Mais plutôt parce qu’à son arrivée en Europe, Gemini était ultra-sélectif.

Google l’avait configuré pour qu’il ne fonctionne que sur certains modèles de smartphones :

  • Pixel 6 ou + ;
  • Pixel Fold ;
  • Galaxy S22,S23 ou S24 ;
  • Galaxy Z Flip/Fold.

Et heureusement, ça a changé avec son déploiement en Inde.

Pas d’annonce en fanfare, mais plutôt un discret paragraphe tout au fond de l’article annonçant Gemini en Inde.

“Nous lancerons Gemini dans Google Messages en anglais dans un premier temps, sur certains appareils

Certains appareils ?… Oui, mais lesquels ?

C’est en cliquant sur le lien qu’on a la réponse à notre question.

Voici les nouvelles caractéristiques pour utiliser Gemini AI sur son périphérique :

  • Avoir un Android avec au moins 6 GB de RAM ;
  • Avoir 18 ans ou plus ;
  • Utiliser un compte Google personnel et non un compte entreprise ou famille ;
  • S’assurer que l’option “message RCS” est activé (voici comment faire) ;
  • Vérifier que son téléphone supporte l’anglais.

Et c’est tout.

Plus question d’avoir un modèle de smartphone spécifique.

Google veut pousser Gemini AI partout (et remplacer Google Assistant)

Dans la foulée — et sans grande surprise — Google a aussi annoncé vouloir intégrer son modèle de machine learning dans ses applications phares.

Gmail, Google Messages, YouTube… tous auront d’ici peu une petite dose d’apprentissage automatique dans leurs fonctionnalités.

À terme, Google Gemini finira par remplacer totalement Google Assistant.

Comment accéder à Google Gemini ?

Si vous êtes sous Android, c’est simple : téléchargez Google Assistant sur le Google Play Store.

Par contre, si vous êtes sous iPhone, vous allez devoir télécharger l’application Google sur l’App store. Puis ouvrir l’onglet Google Gemini.

Votre dév refuse de vous donner le code-source ? 3 solutions

Salut 👋,

Vous avez financé le développement d’une application, et vous souhaitez la faire évoluer, mais votre développeur refuse catégoriquement de vous donner le code source.

Vous pensez que c’est impossible ? Détrompez-vous.

De nombreuses sociétés sont en conflit avec les sociétés éditrices de leurs logiciels à cause de ça. 

Sans compter celles qui ont modifié leurs propres programmes et se sont retrouvées assignées en justice pour contrefaçon.

On avait déjà parlé du Code de la propriété intellectuelle des logiciels.

Aujourd’hui, on va plus loin dans les enjeux de la propriété : on va vous montrer comment récupérer le code source de vos logiciels et les droits moraux qui vont avec.

Let’s go.

Pourquoi laisser le développeur avec le code est une mauvaise idée ?

Imaginez…

Votre site web ou application fonctionne à merveille.

Puis, vous vous dites qu’une nouvelle fonctionnalité rendrait vos équipes encore plus productives. Ou vous découvrez une faille de sécurité dans votre application mobile et cherchez à développer un patch.

Ou encore, vous souhaitez juste changer d’hébergeur ou de nom de domaine.

Bref, vous avez besoin d’accéder au code source, au repo GitHub et au serveur ftp.

Et là, les ennuis commencent : l’agence qui a développé votre plateforme numérique refuse de vous donner ces précieux accès.

Subitement, vous réalisez que vous ne pouvez plus vous passer du développeur — il a le contrôle sur votre solution informatique. Vous vivez dans une prison dorée et votre geôlier, c’est l’équipe de développement.

Voici ce qui vous attend :

  • des surfacturations pour la maintenance et les mises à jour ;
  • des arrêts de service imprévus ou des mises hors ligne du programme en fonction du développeur ;
  • de grosses pertes financières dues aux ralentissements de vos opérations ;
  • et je ne parle même pas des surcoûts pour développer le moindre nouveau module.

Vous avez le monopole d’exploitation et les licences, mais c’est le prestataire qui détient les droits de propriété littéraire et artistique.

Selon l’INPI (Institut National de la Propriété Intellectuelle), seul lui peut modifier son œuvre (autrement dit : vous êtes à 100 % dépendant de lui). Et si vous modifiez le logiciel, alors vous vous exposez à des contentieux.

Raison pour laquelle vous devez en parler avec lui et le mettre par écrit avant de signer le moindre contrat. Sans ça, gare aux litiges.

Chez Poyesis, on vous évite tous ces maux de tête en vous donnant accès au code source dès le début du projet.

4 solutions lorsque votre développeur refuse de vous donner accès au code source

Avant d’aller voir un cabinet d’avocat et de sortir l’arme juridique, voici quelques stratégies que vous pouvez essayer.

1 – Vérifiez votre contrat

Première étape, allez regarder le contrat ou l’acte de vente que vous avez signé avec l’équipe de développement.

Recherchez attentivement les clauses qui parlent de la propriété intellectuelle et de la livraison du code source. Si vous ne trouvez rien, jetez un œil à ses conditions générales de vente.

Dès le moment où le contrat stipule que vous êtes en droit de recevoir le code source, vous avez une base légale pour le lui réclamer.

2 – Cherchez un arrangement à l’amiable

Certains développeurs craignent de donner le code-source pour des questions de sécurité et de propriété intellectuelle.

Par exemple, vous faites appel à une agence web pour développer un CRM. Or, l’agence sait que d’autres entreprises peuvent être intéressées par un CRM identique.

Elle prévoit donc de réutiliser une partie du code source de l’application qu’elle a écrit.

Sauf que, si elle n’est plus détentrice des droits d’auteur, elle sera obligée de tout reprendre à zéro. Y compris l’architecture de l’information, l’organisation des bases de données et autres.

Si c’est votre cas, proposez-lui un compromis plus une clause de non-divulgation et ce sera réglé.

3 – Faites appel à un médiateur professionnel

Ultime étape avant les tribunaux : passer par un expert de la médiation.

Étant donné qu’il est neutre, son avis ne sera pas biaisé et son jugement sera plus facilement accepté par les deux parties.

Et si ça ne marche pas…

4 – Si tout échoue… montrez les crocs et portez l’affaire en justice

Voilà.

Si vraiment aucune des solutions présentées plus haut ne vous satisfait, allez voir un juriste spécialisé en conseil en propriété intellectuelle.

En effet, vous risquez d’être agréablement surpris selon la juridiction.

Vous vous souvenez quand je disais que selon le droit français, la propriété juridique d’une œuvre de l’esprit revient à son inventeur (c’est-à-dire celui qui a tapé sur le clavier) — et non à celui qui l’a financé (vous) ?

Et que si vous modifiez le programme sans que son créateur ne vous en ait donné le droit, vous risquez des actions en contrefaçon ?

Eh bien, la cour peut aller à l’encontre de cette législation en fonction de plusieurs paramètres.

Par exemple, en 2020, la cour d’appel de Boulogne a rendu le jugement n° 96/2020 dans lequel elle reconnaît que le titulaire des droits — et donc du code source — c’est le commanditaire du progiciel.

Autrement dit, vous.

3 ressources à lire absolument pour comprendre la jurisprudence des logiciels

Dans cet article, mon objectif était de vous montrer comment faire pour avoir accès au code source de votre logiciel.

Mais lorsque l’on parle de droits d’auteur, de propriétés intellectuelles et d’actifs immatériels, il vaut mieux laisser des juristes experts en matière de propriété intellectuelle s’exprimer.

Alors, je vous ai listé mes trois meilleures ressources pour comprendre les 50 nuances des subtilités juridiques des logiciels :

Voilà, c’était tout.

En résumé…

Pour éviter les tracas juridiques, soyez clair dans votre contrat : à la fin du projet, le code-source est à vous. Ajoutez une clause de cession des droits, ou mieux, un contrat de cession des droits.

Mentionnez clairement le transfert des droits de propriété pour jouir d’une protection au cas où ça tourne mal. Et si votre prestataire vous répond :« On verra ça plus tard », fuyez.

Chez Poyesis, on vous livre tout : accès ftp, répertoire de fichiers, dépôts, github… et bien sûr, le code-source. Après tout, on ne construit pas votre maison pour garder les clés, n’est-ce pas ?

Envie d’en discuter ? Contactez notre chef de projet informatique. C’est sans engagement, et on adore papoter avec vous ! 😊