La Chine crée le premier grand modèle de langage basé sur l'IA destiné à la recherche sur les livres anciens

le Quotidien du Peuple en ligne 14.12.2023 15h21

Une équipe de recherche universitaire de la province du Jiangsu dans l'est de la Chine a récemment créé le premier grand modèle de langage (LLM) chinois, un type d'algorithme basé sur l'intelligence artificielle qui utilise des techniques d'apprentissage en profondeur et des ensembles de données très volumineux pour aider à mener des recherches sur les livres anciens chinois.

Le LLM pour les livres anciens a été conçu pour analyser intelligemment les textes anciens, promouvoir un développement innovant dans la recherche et la préservation des livres anciens, améliorer l'efficacité et la qualité de l'héritage de la culture traditionnelle chinoise, et faciliter l'intégration profonde entre les LLM et l'analyse des livres anciens.

Le LLM Xunzi, nommé d'après Xun Zi, l'un des philosophes les plus célèbres de la Chine ancienne pour son classique confucéen Xunzi, contient la grande majorité des livres et documents anciens chinois, y compris la « Collection de livres en quatre sections » ou « Siku Quanshu », avec un corpus de plus de deux milliards de mots et caractères chinois.

Grâce à ce modèle, les chercheurs peuvent rapidement résumer les textes anciens et connaître les thèmes des livres anciens. La technologie peut également extraire des informations clés des textes anciens, telles que les personnages, les événements et les lieux, afin de trier l'information avec efficacité.

En outre, elle peut également générer automatiquement des poèmes anciens conformes aux règles de grammaire et de prosodie en fonction des indications données par les utilisateurs, afin d'inspirer les amateurs de poésie. Elle peut également traduire avec précision des textes anciens en chinois moderne afin d'aider les chercheurs à comprendre le sens et la connotation originaux des textes anciens.

Dirigée par Wang Dongbo, professeur à la Faculté de gestion de l'information de l'Université agricole de Nanjing (Jiangsu), l'équipe de recherche travaille depuis une dizaine d'années dans le domaine de la numérisation des livres et documents anciens. Grâce à la puissance de calcul de l'université et aux scénarios d'application fournis par la Zhonghua Book Company, les chercheurs ont réalisé le premier LLM open source chinois pour les textes anciens basé sur l'intelligence artificielle.

Le LLM a été mis en ligne sur des sites tels que github.com et modelscope.cn en tant que logiciel libre afin de permettre aux utilisateurs de le télécharger et de l'utiliser gratuitement.

(Web editor: Ying Xie, Yishuang Liu)

Langues

La Chine crée le premier grand modèle de langage basé sur l'IA destiné à la recherche sur les livres anciens

À lire aussi :