Aller au contenu principal
Body

Recherche

Intégration numérique de la langue kabyle: investir des projets mondiaux

La localisation des systèmes informatiques en kabyle permettra de vulgariser le lexique produit jusqu’à aujourd’hui mais stimulera et provoquera d’autres besoins pour pouvoir satisfaire la demande accrues des diverses sciences que ces systèmes couvrent.

Le monde opensource est en pleine expansion à travers le monde. Il répond à tous les besoins possibles allant de la technique, à la littérature en passant par les métiers de l’entreprise ou des solutions verticales destinées à des besoins très particuliers.

Ces systèmes et en particulier opensource, sont ouverts à toutes les langues codifiées dans la norme iso 639-2 dont fait partie la langue kabyle.

La localisation ne suffit pas à elle seule pour intégrer numériquement la langue kabyle. Des besoins nouveaux naissent chaque jour à travers le monde. Le monde numérique provoque souvent ces besoins.

Nous tendons vers un monde où tous les objets doivent être connectés. Ces objets interagissent avec  l’homme qui les commande au besoin ou d’une manière automatisée. Dans ce monde, point de place aux langues traditionnelles.

Le besoin de la rentabilité, la productivité, la collaboration, … à l’échelle internationale exigent la maitrise des langues. Il faut pouvoir s’affirmer dans un environnement (entreprise, organisation) d’envergure internationale, mais l’humain possèdent ses propres limites que ce soit dans la maitrise des langues ou des connaissances diverses. Il doit faire appel à la machine.

Intégrer la langue kabyle dans ces outils ultramodernes, c’est d’abord la protéger mais aussi offrir les moyens aux locuteurs kabylophones d’interagir en dehors de leur environnement sans risquer l’assimilation linguistique qui frappent nos communautés en France, au canada et ailleurs.

La nécessité d’investir le traitement automatique des langues, l’intelligence artificielle… en explorant ce qui se produit dans les domaines des sciences de données, du deep learning, et de l’apprentissage automatique… se ressent. Si ces sciences sont une bénédiction pour les langues fortes et visibles, elles peuvent néanmoins s’avérer néfastes pour les langues mineures. Elles peuvent tout simplement être à l’origine du déclin de plusieurs langues non visibles et peu intégrées dans le numérique à l’image de la langue kabyle.

Plusieurs projets sont lancés par la communauté kabylophone. Certain sont en cours comme celui lancé dans le cadre du projet Common Voice de Mozilla (voir : https://voice.mozilla.org/kab/) pour produire un moteur vocale dont les applications sont très variées, nous citons :

  • Saisie/synthèse de texte à partir de la voix

  • Génération de la voix à partir du texte.

  • Dialogue et traduction vocale/textuelles en live

  • Sécurité basée sur la voix

  • Commande et contrôle basées sur la voix.

  • ....etc.

A côté, de la reconnaissance vocale, d’autres projets impliquant le traitement automatique de la langue kabyle doivent être lancés, en allant de l’analyse morpho-syntaxique, lemmatisation & racinisation, dérivateur & générateurs de flexions, correcteurs  orthographiques, analyseurs grammaticaux, analyseurs sémantiques, reconnaisseurs d’entités nommées, analyseurs de sentiments, de discours….etc. Ils permettront une intégration complète de la langue dans ce monde dit des objets connectés.

Un exemple de tels projets a déjà été initié par la communauté kabylophone. Il s’agit d’un analyseur morpho-syntaxique se basant sur le projet NLTK (Natural Language Tool kit), se basant sur les dernières technique en la matière.

Ce projet est disponible en libre accès sur l’adresse (https://gitlab.com/belkacem77/KabyleNLP).    Deux algorithmes principaux traitant de l’analyse morphosyntaxique se basant sur un modèle d’apprentissage existent en libre accès. Ils sont développés à l’aide du langage Python. L’un génère le modèle d’apprentissage de la langue kabyle à partir d’un corpus étiqueté manuellement et l’autre l’utilise pour analyser et étiqueter des textes en langue kabyle.

Cet exemple de projet nécessite la collaboration des linguistes pour codifier et produire des corpus en langue kabyle, et de l’autre côté des informaticiens  capables de traiter et de développer des algorithmes se basant sur les dernières techniques issues des grandes universités, centres de recherche mais aussi les industries linguistiques et les adapter au contexte linguistique de la langue kabyle.

Mohammed Belkacem est Ingénieur informaticien

Auteur
Mohammed Belkacem
 

Commentaires

Permalien

Quelqu'un qui parle du traitement numérique d'une langue mais qui ne maitrise pas la langue dans laquelle il communique et ne sait même pas utiliser un correcteur orthographique automatique pour corriger ses nombreuses fautes (entre autres, l'accord grammatical) avant de soumettre son texte à la publication.
Alors on peut s'ímaginer la qualité de sa production dans la langue qu'il nomme vulgairement avec le nom que lui ont donné les colonisateurs.

Permalien

Merci pour toutes ces inovations et projets.
Entre temps j'ai note sur la video de la nouvelle aeorogare d'Alger que Tamazight n'as pas ete inclue dans les affichages , meme ....des toilettes! Par contre toutes les signes d'info sont en Arabe, Francais et Anglais !!!

Permalien

Bon travail, oui nous suivons ces travaux et nous souhaitons bon courage à ce monsieur et son équipe.
J'utilise firefox en kabyle et je suis très heureux, j'ai appris beaucoup de termes grace à es logiels.
nous eprerons avoir aussi un jour face book google et tous ces outils en kabyle.

tenmirt nwen

Permalien

votre travail est unique
j espere que vous aurez de l'aide
oui même ici on table sur l opensource
c'est une porte pour le kabyle
merci pour votre travail

Permalien

C'est qui exactement cette "communauté kabylophone" qui lance ces projets?
On a besoin de savoir avant de considérer la possibilité de collaborer.

Permalien

Ce genre de projets open-source ne produisent généralement pas de résultats de bon niveau sauf quand le chef de projet est très compétent.
C'est qui le chef de projet?

Permalien

@Améliorez votre niveau de langue d'abord

vous ne savez que critiquer ! grande gueule et petits bras !
ce Monsieur a fait et en train de faire quelques chose (de bonne qualité ou pas ça c'est un autre sujet).

ET VOUS ??????!!!!!!!!! qu'avez-vous fait ? rien bien sûr.

brasser de l'air ! c'est tout ce qu'on sait faire. je vous défis de faire ne serait-ce que 10 % de ce qu'il a fait (je ne parles pas de ce qu'il va faire !).

on ne changera jamais hélas.

Permalien

@Améliorez votre niveau de langue d'abord

Ils suivent des cours en ce moment sans pour autant arrêter de travailler et faire aboutir leurs projets

Permalien

Parlant de réalisations Algériennes vraiment très rares surtout en matière linguistique, c'est la première fois qu'un groupe d'algériens travaille sur quelque chose qui nous appartient vraiment. Pour ceux qui insultent à la vitesse grand V, il faut le dire gentiment, si la grammaire de la langue arabe est mieux développée ce n'est pas les Algériens arabes qui ont réalisé cet exploit. la langue des Algériens personne d'autre ne travaille dessus sauf l'ile de Malte , si non la Fosse Ha, il y a un bassin de quelques 200 millions d'arabes qui travaillent dessus plus les pétrodollars Saoudiens qui achètent clef en main, chez Microsoft. Fait que avant d'insulter les braves gens qui travaillent sur leurs propres langue et avec les moyens de bord généralement non rémunérés, regardes ce que toi tu fais de ton côté, pour ta propre culture.

Permalien

C'est ça, on ne changera jamais:
- pourvu qu'on donne l'impression de faire quelque chose et au diable la qualité.
- on a une opinion forte et arrogante sur des sujets sur lesquels on n'est pas spécialiste, pour ne pas dire ignorant
- on balance des affirmations sur une personne qu'on ne connait pas
Les signes d'une mentalité sous-développée quoi.
Pour votre information, rien ne progresse sans critiques si vous comprenez ça. On ne rend pas service à la langue de Mammeri en tapotant sur l''epaule. Il faut exiger de la qualité.

Permalien

Personne n'a insulté l'auteur.
Personne n'a dit que la grammaire de la langue arabe est mieux développée. Loin de là.
Ce qu'il faut exiger et développer chez nous c'est la qualité dans le travail.

Permalien

@on ne changera jamais hélas
Il y a beaucoup de gens qui travaillent sur Tamazight et qui innovent sans faire de bruit.

Faut se méfier de ces gens qui font de la publicité sensationnelle pour leur propre compte juste pour acquérir de la notoriété. Derrière, il y a du travail de qualité médiocre pour ne pas dire baclé. Et c´est des projets qui surfent sur du travail que d'autres ont produit sans amener une valeur ajoutée.

Permalien

@Re: on ne changera jamais hélas et @Travailler en silence

D’une part, le contrôle de qualité est assuré par des spécialistes du domaine en question. D’autre part, même si vous êtes spécialiste du domaine, avant de faire des critiques sans fondement il faut d’abord consulter le résultat du travail fait ! L’article publié n’est pas le travail fait par cette personne ! Et même si nous admettons qu’elle a des lacunes en langue française (comme nous tous d’ailleurs), ce n’est pas le sujet. En plus, elle peut faire appel à des spécialistes de la langue pour relire et corriger.
Il y a une différence entre la critique objective et la critique subjective ! Cette dernière sème la peur et le désespoir
Quant au travail en silence, à mon avis dans le cas de notre sujet, c’est tout à fait l’inverse qu’il faut faire. Il faut diffuser le plus possible. Les gens ne sont pas dupes ! Si le travail est médiocre il ne va pas avoir de succès !

Arrêtons de nous casser les bras et de tuer le peu d’espoir et de motivation que nous avons !

Bravo pour l’initiative, ça va motiver d’autres personnes à se lancer.

Permalien

Par M.Belkacem
Pour ceux qui disent pourquoi le kabyle et non pas tamaziɣt.

Le NLP et les corpus linguistiques:

Le NLP n'est pas de la littérature. Le NLP est une discipline qui marie plusieurs sciences exactes. Le NLP implémente des programmes informatiques se basant sur des notions mathématiques et statistiques pour réaliser des algorithmes informatiques traitant les langues humaines selon les règles de la linguistique à travers des corpus et un ensemble de règles de la langue codifiées pour une usage technique.

Le algorithmes ne peuvent pas traiter un corpus Cocktail du genre corpus berbère contenant toutes les variantes du berbère en raison de:

1- Un jeu de phonèmes (donc de graphèmes) extrêmement important.

2- Ecart phologique, morphologique et grammatical entre les langues berbères.

3- Ecart lexical.

Ces écarts, si l'on considère que que le berbère représente un caractère d'unicité, ne méneront nul part, à moins que l'on produise une langue de labo.

Cet esprit d'unicité de la langue, s'il persistera, il va tout simplement nous retarder, voire rendre impossible l'intégration des langues berbères sur le numérique.

Le désir des berbéristes d'emboiter le pas aux nationalistes arabes ( certainement héritage idéologique issu du jacobinisme à la française) nous conduira vers la production d'une langue mort-née à l'image de l'arabe dit académique utilsé uniquement dans les mosquées. Et pire encore, politiquement, l'échec sera une occasion pour les détracteurs des langues berbères de continuer le résistance et socialement, un justificatif aux locuteurs de continuer de croire que les langues berbères ne sont bonnes que pour l'addaynin.

J'ai consulté un corpus de phrases "berbères" de 108000 entrées pour le reprendre et l'exposer sur Common Voice, introduites dans Tatoeba, une fondation hébergeant des corpus ouverts, ce qui est une initiative très louable et encourageamnte, et je tiens à remercier les initiateurs et les contributeurs. Ces corpus sont destinés aux divers traitements automatiques.

Pour les exploiter, il faudra faire le tri et c'est très difficile sur un corpus de plus de 100 000 phrases de plus de 15 parlers berbères très disparates.

Pourtant, Taotoeba a ouvert la voie à toutes les langues du monde codifiées dans ISO 639-3 et non pas ISO 639-2. Contairement à ISO 639-2 dont fait partie le Kabyle mais pas toutes les autres langues berbère, ISO 639-3 quant à lui, est ouvert à toutes les langues berbères dont le Chawi, le Mozabit, le Tergui, le Ouergli, ....etc. Ces langues sont toutes codifiées dans cette norme que Tatoeba utilise.En tout cas, un projet de corpus Kabyle est inimitié sur cette plateforme. La locale kabyle sera bientôt ouverte.

Il est temps de produire des corpus segmentés sur la base des parlés pour pouvoir analyser mieux et produire de bons traitements.

L'unicité de la langue ne fera pas de nous des citoyens unis. L'union est daans la justice, le droit, la citoyenneté. Elle n'est ni dans la langue, ni dans la religion.

Permalien

Les critiques sont fondées. J’ai examiné le “resultat” du travail et j’ ai trouvé que les traductions à notre langue sont très mauvaises, pour ne pas dire répugnantes.

L’article ou les articles publiés sur ce sujet montrent que l’auteur qui fait de la publicité pour ses projets ne domine pas l’écriture de la langue et n’a aucun souci de qualité. Ce niveau et cette attitude nonchalante se retrouve dans les “resultats” des projets qu´il essaie de diffuser. Il admet indirectement sa médiocrité dans la langue francaise et voudrait la coller à tout le monde (en ajoutant “comme nous tous d’ailleurs”) alors que en fait cela ne concerne que ceux qui ont grandi avec et adopté l’arabo-islamisme comme lui et ne sont pas arrivés à s’en détacher à ce jour. Il sait parfaitement de quoi je parle et il suffit de demander sur lui dans son village pour avoir la confirmation. D’ailleurs il est conseillé de s’enquérir sur son passé et son intégrité avant de songer à collaborer avec lui.

C’est honteux de diffuser du travail inachevé et de médiocre qualité. C’est comme si on considérait que l’on peut balancer n’importe quoi à ses compatriotes. Si le travail est de qualité on le trouvera sans champagne d’information excessive comme c’est le cas.

On voit aussi qu’il ne manque pas de culot pour dire ”Bravo” à lui même.

Je ne pense ce n’est pas avec des gens pareils qu’on peut faire avancer notre langue.

Permalien

M. Belkacem ne sait pas lire ou feint de ne pas comprendre ce qu’il lit et détourne la question des commentateurs pour rabacher et divaguer sur des impertinences.

Aucun commentateur n’a demandé à ce que ce M. Belkacem travaille sur l’unification des variantes de Tamazight. Dieu nous en garde!

Mais on a demandé que quand il se réfère à la langue de Mammeri qu’il n’utilise pas le terme péjoratif “kabyle” inventé par les colonisateurs, mais plutôt Tamazight. Car c’est ce terme autochtone que nos ancêtres utilisaient avant que les colonisateurs leur imposent le nom de “kabyle” renvoyant sournoisement aux tribus arabes. Hanoteau écrivait en 1906 dans son livre intitulé ”Essai de grammaire renfermant les principes du langage parlé par les populations du versant nord du Jurjura et spécialement par les Igaouaouen”:

“Nous connaissons aujourd’hui ces groupes sous les dénominations, arabes pour la plupart, de Kabyle, Chaouia, Chelouh, Beraber, Zenatia, Beni Mzab et Touareg.
Aucun de ces noms n’appartient à la langue des peuples qu’ils désignent. Plusieurs de ces peuples, cependant, les Kabyles par exemple, les ont adoptés et ont oublié leur nom national. Mais, partout où les populations berbères ont été à l’abri du contact et de l’influence arabes, elles s’appellent : Imazighen ou Imajaghen, pluriel de Amajegh, chez les Touareg du Sud, et Imouchagh, pluriel de Amachegh, chez ceux du Nord. “

Alors prenez note une bonne fois pour toute, arrêtez de vous humilier et débarrassez-vous du fardeau colonial.

Permalien

Les projets sont ouverts. Tout le monde peut apporter sa touche. Connectez vous sur les réseaux sociaux pour vous aider via des tuto, vidéos, formations à vous introduire dans ce beaux monde conjuguant nouvelles technologies et langue kabyle.

Ajouter un commentaire