ChatGPT, qui est « en plein essor », a un besoin urgent de « freins à la conformité »

2023-12-01 11:07:13

Conseils de base :

ChatGPT et d’autres IA de chat basées sur la technologie de traitement du langage naturel ont trois principaux problèmes de conformité juridique qui doivent être résolus de toute urgence à court terme :

Tout d’abord, en ce qui concerne les droits de propriété intellectuelle des réponses fournies par l’IA du chat, le principal problème de conformité est de savoir si les réponses produites par l’IA du chat génèrent des droits de propriété intellectuelle correspondants et si une autorisation des droits de propriété intellectuelle est requise.

Deuxièmement, le processus d’exploration de données et d’entraînement de l’IA de chat sur une énorme quantité de texte de traitement du langage naturel (communément appelé corpus) doit-il obtenir les droits de propriété intellectuelle correspondants ?

Troisièmement, l’un des mécanismes permettant à ChatGPT et à d’autres IA de chat de répondre est d’obtenir un modèle de langage basé sur des statistiques en comptant mathématiquement un grand nombre de textes en langage naturel existants, ce qui conduit au fait que l’IA de chat est susceptible de « dire de graves bêtises », ce qui entraîne à son tour le risque juridique de propagation de fausses informations.

En général, à l’heure actuelle, la législation chinoise sur l’intelligence artificielle en est encore au stade de la recherche préliminaire, et il n’y a pas de plan législatif formel ou de projet de motion pertinent, et les départements concernés sont particulièrement prudents quant à la supervision du domaine de l’intelligence artificielle.

1. ChatGPT n’est pas une « technologie d’intelligence artificielle inter-époques »

ChatGPT est essentiellement un produit du développement de la technologie de traitement du langage naturel, et n’est encore essentiellement qu’un modèle de langage.

Au début de l’année 2023, l’énorme investissement du géant mondial de la technologie Microsoft a fait de ChatGPT le « premier flux » dans le domaine de la technologie et a réussi à sortir du cercle. Avec la forte augmentation du concept ChatGPT sur le marché des capitaux, de nombreuses entreprises technologiques nationales ont également commencé à se lancer dans ce domaine, alors que le marché des capitaux est enthousiaste à l’égard du concept de ChatGPT, en tant que travailleurs juridiques, nous ne pouvons nous empêcher d’évaluer les risques de sécurité juridique que ChatGPT lui-même peut apporter, et quel est son chemin de conformité juridique ?

Avant de discuter des risques juridiques et des voies de conformité de ChatGPT, nous devons d’abord examiner la justification technique de ChatGPT – ChatGPT donne-t-il à la personne qui pose la question toutes les questions qu’elle souhaite, comme le suggèrent les nouvelles ?

Aux yeux de l’équipe de Sœur Sa, ChatGPT semble être loin d’être aussi « dieu » que certaines nouvelles l’annonçaient - en un mot, il s’agit simplement d’une intégration de technologies de traitement du langage naturel telles que Transformer et GPT, et il s’agit toujours essentiellement d’un modèle de langage basé sur des réseaux neuronaux, plutôt que d’un « progrès de l’IA inter-époques ».

Comme mentionné précédemment, ChatGPT est un produit du développement de la technologie de traitement du langage naturel, et en termes d’histoire de développement de la technologie, il est passé par trois étapes : le modèle de langage basé sur la grammaire, le modèle de langage basé sur les statistiques et le modèle de langage basé sur les réseaux neuronaux Le principe de fonctionnement et les risques juridiques qui peuvent découler de ce principe doivent d’abord être clarifiés en tant que principe de fonctionnement du modèle de langage basé sur les statistiques, le prédécesseur du modèle de langage basé sur les réseaux neuronaux.

À l’étape du modèle de langage basé sur les statistiques, les ingénieurs en IA déterminent la probabilité de connexions successives entre les mots en comptant une énorme quantité de texte en langage naturel, et lorsque les gens posent une question, l’IA commence à analyser quels mots sont hautement probables dans l’environnement linguistique où les mots constitutifs du problème sont composés, puis assemble ces mots à forte probabilité pour renvoyer une réponse statistique. On peut dire que ce principe a traversé le développement de la technologie de traitement du langage naturel depuis son émergence, et même dans un sens, l’émergence ultérieure de modèles de langage basés sur des réseaux neuronaux est également une modification des modèles de langage basés sur les statistiques.

Pour donner un exemple facile à comprendre, l’équipe de Sœur Sa a tapé la question « Quelles sont les attractions touristiques de Dalian ? » dans la boîte de discussion de ChatGPT, comme le montre la figure ci-dessous :

Dans un premier temps, l’IA analysera les morphèmes de base de la question « Dalian, lesquels, le tourisme et les sites pittoresques », puis trouvera l’ensemble de texte en langage naturel où ces morphèmes sont situés dans le corpus existant, trouvera les collocations ayant la plus grande probabilité d’occurrence dans cet ensemble, puis combinera ces collocations pour former la réponse finale. Par exemple, l’IA trouvera qu’il y a le mot « Zhongshan Park » dans le corpus avec une forte probabilité d’occurrence des trois mots « Dalian, tourisme et station », il reviendra donc à « Zhongshan Park », et le mot « parc » a la plus forte probabilité de collocation avec des mots tels que jardin, lac, fontaine, statue, etc., il renverra donc « C’est un parc historique avec de beaux jardins, des lacs, des fontaines et des statues. 」

En d’autres termes, l’ensemble du processus est basé sur les statistiques de probabilité de l’information textuelle en langage naturel (corpus) qui existe déjà derrière l’IA, de sorte que les réponses renvoyées sont également des « résultats statistiques », ce qui conduit à la « sérieuse absurdité » de ChatGPT sur de nombreuses questions. Comme réponse à la question « Quelles sont les attractions touristiques à Dalian », bien que Dalian ait le parc Zhongshan, il n’y a pas de lacs, de fontaines et de statues dans le parc Zhongshan. Dalian a eu la « place Staline » dans l’histoire, mais la place Staline n’a jamais été une place commerciale, ni n’a eu de centres commerciaux, de restaurants ou de lieux de divertissement. Apparemment, les informations renvoyées par ChatGPT sont fausses.

Deuxièmement, ChatGPT est actuellement le scénario d’application le plus approprié en tant que modèle de langage

Bien que nous ayons expliqué sans ambages les inconvénients des modèles de langage basés sur les statistiques dans la partie précédente, ChatGPT est déjà un modèle de langage basé sur un réseau neuronal qui améliore considérablement le modèle de langage basé sur les statistiques, et sa base technique Transformer et GPT sont la dernière génération de modèles de langage Le modèle est combiné pour modéliser le langage naturel de manière très profonde, et les phrases renvoyées sont parfois « absurdes », mais à première vue, elles ressemblent toujours à des « réponses humaines », de sorte que cette technologie a un large éventail de scénarios d’application dans des scénarios qui nécessitent une interaction homme-machine massive.

Pour l’instant, il existe trois scénarios de ce type :

Tout d’abord, les moteurs de recherche ;

Deuxièmement, le mécanisme d’interaction homme-machine dans les banques, les cabinets d’avocats, divers intermédiaires, les centres commerciaux, les hôpitaux et les plates-formes de services gouvernementaux, tels que le système de plaintes des clients, la navigation d’orientation et le système de consultation des affaires gouvernementales dans les endroits mentionnés ci-dessus ;

Troisièmement, le mécanisme d’interaction des voitures intelligentes et des maisons intelligentes (telles que les haut-parleurs intelligents et les lumières intelligentes).

Les moteurs de recherche qui combinent des technologies de chat IA telles que ChatGPT sont susceptibles de présenter une approche traditionnelle basée sur les moteurs de recherche + des modèles de langage basés sur les réseaux neuronaux. À l’heure actuelle, les géants traditionnels de la recherche tels que Google et Baidu ont une accumulation profonde de technologie de modèle de langage basée sur les réseaux neuronaux, par exemple, Google a Sparrow et Lamda, qui sont comparables à ChatGPT.

L’application de la technologie de chat IA telle que ChatGPT dans le système de plainte des clients, le guidage et la navigation des hôpitaux et des centres commerciaux, et le système de consultation des affaires gouvernementales des agences gouvernementales réduira considérablement le coût des ressources humaines des unités concernées et gagnera du temps de communication, mais le problème est que les réponses basées sur des statistiques peuvent produire des réponses de contenu complètement erronées, et les risques de contrôle des risques induits par cela devront peut-être être évalués plus avant.

Par rapport aux deux scénarios d’application ci-dessus, le risque juridique que l’application ChatGPT devienne le mécanisme d’interaction homme-machine des appareils mentionnés ci-dessus dans les domaines des voitures intelligentes et des maisons intelligentes est beaucoup plus faible, car l’environnement d’application dans ce domaine est relativement privé, et le mauvais contenu renvoyé par l’IA n’entraînera pas de grands risques juridiques, et en même temps, de tels scénarios n’ont pas d’exigences élevées en matière d’exactitude du contenu, et le modèle commercial est plus mature.

III. Une étude préliminaire sur les risques juridiques et le parcours de conformité de ChatGPT

Tout d’abord, le paysage réglementaire global de l’intelligence artificielle en Chine

Comme de nombreuses technologies émergentes, la technologie de traitement du langage naturel représentée par ChatGPT est confrontée à un « dilemme de Collingridge » Ce dilemme comprend le dilemme de l’information, c’est-à-dire que les conséquences sociales d’une technologie émergente ne peuvent pas être prédites au stade précoce de la technologie, et le soi-disant dilemme de contrôle, c’est-à-dire que lorsque les conséquences sociales négatives d’une technologie émergente sont découvertes, la technologie est souvent devenue une partie de l’ensemble de la structure sociale et économique, de sorte que les conséquences sociales négatives ne peuvent pas être contrôlées efficacement.

À une époque où le domaine de l’intelligence artificielle, en particulier la technologie de traitement du langage naturel, est dans une phase de développement rapide, la technologie est susceptible de tomber dans ce que l’on appelle le « dilemme de Collingridge », et la réglementation juridique correspondante ne semble pas avoir « suivi le rythme ». À l’heure actuelle, il n’existe pas de législation nationale sur l’industrie de l’intelligence artificielle en Chine, mais il y a eu des tentatives législatives pertinentes au niveau local. En septembre de l’année dernière, Shenzhen a annoncé les « Règlements sur la promotion de l’industrie de l’intelligence artificielle dans la zone économique spéciale de Shenzhen », qui est une législation spéciale pour l’industrie nationale non de l’intelligence artificielle, puis Shanghai a également adopté les « Règlements sur la promotion du développement de l’industrie de l’intelligence artificielle à Shanghai ».

En ce qui concerne la régulation éthique de l’intelligence artificielle, le Comité professionnel national pour la gouvernance de la nouvelle génération d’intelligence artificielle a également publié en 2021 le « Code d’éthique de la nouvelle génération d’intelligence artificielle », proposant d’intégrer l’éthique dans l’ensemble du cycle de vie de la R&D et de l’application de l’intelligence artificielle.

Deuxièmement, le risque juridique de désinformation provoqué par ChatGPT

En déplaçant l’attention du macro vers le micro, outre le paysage réglementaire global de l’industrie de l’IA et la réglementation éthique de l’IA, les problèmes de conformité pratiques existant dans la base des chats d’IA tels que ChatGPT nécessitent également une attention urgente.

Comme mentionné dans la partie 2 de cet article, le mécanisme de travail de ChatGPT permet à ses réponses d’être complètement « un non-sens sérieux », ce qui est extrêmement trompeur. Bien sûr, les fausses réponses à des questions telles que « quelles sont les attractions touristiques de Dalian » peuvent ne pas avoir de conséquences graves, mais si ChatGPT est appliqué aux moteurs de recherche, aux systèmes de plaintes des clients et à d’autres domaines, les fausses informations auxquelles il répond peuvent poser des risques juridiques extrêmement graves.

En fait, un tel risque juridique a déjà émergé, et Galactica, un modèle de langage dans le domaine de la recherche scientifique sur les services Meta qui a été lancé presque en même temps que ChatGPT en novembre 2022, a été mis hors ligne après seulement 3 jours de test en raison des questions mixtes de vraies et fausses réponses. En partant du principe que les principes techniques ne peuvent pas être brisés dans un court laps de temps, si ChatGPT et des modèles de langage similaires sont appliqués aux moteurs de recherche, aux systèmes de réclamation des clients et à d’autres domaines, ils doivent être transformés pour la conformité. Lorsqu’il est détecté qu’un utilisateur peut poser une question professionnelle, l’utilisateur doit être invité à consulter le professionnel approprié au lieu de chercher la réponse de l’IA, et l’utilisateur doit être rappelé de manière significative que l’authenticité des questions renvoyées par l’IA de chat peut avoir besoin d’être vérifiée davantage pour minimiser les risques de conformité correspondants.

Troisièmement, les problèmes de conformité de la propriété intellectuelle provoqués par ChatGPT

Lorsque l’on passe de la macro à la micro, en plus de l’authenticité des messages de réponse de l’IA, les questions de propriété intellectuelle de l’IA de chat, en particulier les grands modèles de langage comme ChatGPT, devraient également attirer l’attention des responsables de la conformité.

Le premier problème de conformité est de savoir si « l’exploration de données textuelles » nécessite une licence de propriété intellectuelle correspondante. Comme indiqué ci-dessus, ChatGPT s’appuie sur une énorme quantité de textes en langage naturel (ou bases de données vocales), ChatGPT a besoin d’extraire et d’entraîner les données du corpus, et ChatGPT doit copier le contenu du corpus dans sa propre base de données, et le comportement correspondant est souvent appelé « exploration de données textuelles » dans le domaine du traitement du langage naturel. Si l’on part du principe que les données textuelles correspondantes peuvent constituer une œuvre, il existe encore une controverse quant à savoir si l’exploration de données textuelles enfreint le droit de reproduction.

Dans le domaine du droit comparé, le Japon et l’Union européenne ont tous deux élargi le champ d’application de l’usage loyal dans leur législation sur le droit d’auteur, en ajoutant l’exploration de données textuelles dans l’IA comme nouveau cas d’utilisation loyale. Bien que certains chercheurs aient préconisé de changer le système d’utilisation équitable de la Chine de « fermé » à « ouvert » dans le processus de révision de la loi chinoise sur le droit d’auteur en 2020, cette proposition n’a pas été finalement adoptée, et à l’heure actuelle, la loi chinoise sur le droit d’auteur maintient toujours les dispositions fermées du système d’utilisation équitable, et seules les treize circonstances stipulées à l’article 24 de la loi sur le droit d’auteur peuvent être reconnues comme une utilisation loyale, en d’autres termes, à l’heure actuelle, la loi chinoise sur le droit d’auteur n’inclut pas « l’exploration de données textuelles » dans l’IA Inclus dans le champ d’application raisonnable, l’exploration de données textuelles nécessite toujours une autorisation de propriété intellectuelle correspondante en Chine.

En ce qui concerne la question de savoir si les œuvres générées par l’IA sont originales, l’équipe de Sœur Sa estime que les critères de jugement ne devraient pas être différents des normes de jugement existantes, en d’autres termes, qu’une réponse soit complétée par l’IA ou par un humain, elle devrait être jugée selon les normes d’originalité existantes. Évidemment, en vertu des lois sur la propriété intellectuelle de la plupart des pays, y compris la Chine, l’auteur d’une œuvre ne peut être qu’une personne physique, et AI ne peut pas devenir l’auteur d’une œuvre.

Enfin, si ChatGPT intègre une œuvre tierce dans sa réponse, comment ses droits de propriété intellectuelle doivent-ils être traités ? L’équipe de Sister Sa estime que si la réponse de ChatGPT épisse une œuvre protégée par le droit d’auteur dans le corpus (bien que cela soit moins susceptible de se produire selon le principe de fonctionnement de ChatGPT), alors selon la loi chinoise actuelle sur le droit d’auteur, à moins qu’elle ne constitue un usage loyal, elle doit être copiée sans l’autorisation du titulaire du droit d’auteur.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.