يعمل التعلم الآلي على تحسين مهارات نسخ الكلام باللغة العربية

[ad_1]

مع التقدم في معالجة الكلام واللغة الطبيعية ، من المأمول أن تسأل مساعدك الافتراضي يومًا ما عن أفضل مكونات السلطة. في الوقت الحالي ، من الممكن أن تطلب من جهازك المنزلي تشغيل الموسيقى أو فتحه بأمر صوتي ، وهي ميزة موجودة بالفعل في العديد من الأجهزة.

إذا كنت تتحدث المغربية أو الجزائرية أو المصرية أو السودانية أو أي من اللهجات الأخرى للغة العربية ، والتي تتنوع بشكل كبير من منطقة إلى أخرى ، حيث يكون بعضها غير مفهومة بشكل متبادل ، فهذه قصة أخرى. إذا كانت لغتك الأم هي العربية أو الفنلندية أو المنغولية أو النافاجو أو أي لغة أخرى ذات مستوى عالٍ من التعقيد الصرفي ، فقد تشعر بالإهمال.

أثارت هذه الإنشاءات المعقدة فضول أحمد علي لإيجاد حل. هو مهندس أول في مجموعة تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة (QCRI) ، وهو جزء من جامعة حمد بن خليفة في مؤسسة قطر ومؤسس ArabicSpeech ، وهو “مجتمع موجود لصالح اللغة العربية” علم الكلام وتقنيات الكلام. . “

مقر مؤسسة قطر

كان علي مفتونًا بفكرة التحدث إلى السيارات والأجهزة والأدوات منذ سنوات عديدة أثناء عمله في شركة IBM. “هل يمكننا بناء آلة يمكنها فهم اللهجات المختلفة: طبيب أطفال مصري لأتمتة وصفة طبية ، أو مدرس سوري لمساعدة الأطفال على فهم أساسيات فصلهم ، أو طاهٍ مغربي يصف أفضل وصفة للكسكس؟ “يعلن. ومع ذلك ، فإن الخوارزميات التي تشغل هذه الآلات لا يمكنها غربلة 30 نوعًا أو نحو ذلك من اللغة العربية ، ناهيك عن فهمها. اليوم ، تعمل معظم أدوات التعرف على الكلام فقط باللغة الإنجليزية وبعض اللغات الأخرى.

لقد أدى جائحة الفيروس التاجي إلى زيادة الاعتماد المتزايد بالفعل على تقنيات الصوت ، حيث ساعدت الطريقة التي تساعد بها تقنيات معالجة اللغة الطبيعية الأشخاص على الامتثال لإرشادات البقاء في المنزل وإجراءات التباعد الجسدي. ومع ذلك ، نظرًا لأننا نستخدم الأوامر الصوتية لتسهيل التسوق عبر الإنترنت وإدارة منازلنا ، فإن المستقبل به المزيد من التطبيقات في المتجر لنا.

يستخدم ملايين الأشخاص حول العالم الدورات التدريبية المفتوحة على الإنترنت (MOOCs) للوصول المفتوح والمشاركة غير المحدودة. يعد التعرف على الكلام أحد الميزات الرئيسية في MOOC ، حيث يمكن للطلاب البحث في مناطق محددة في المحتوى المنطوق للدورات التدريبية وتنشيط الترجمات عبر الترجمة. تتيح تقنية الصوت إمكانية رقمنة المحاضرات لعرض الكلمات المنطوقة كنص في الفصول الدراسية بالجامعة.

أحمد علي جامعة حمد بن خليفة

وفقًا لمقال حديث في مجلة Speech Technology ، من المتوقع أن يصل سوق التعرف على الصوت والكلام إلى 26.8 مليار دولار بحلول عام 2025 ، حيث يعتمد ملايين المستهلكين والشركات حول العالم على الروبوتات الصوتية ليس فقط للتفاعل مع أجهزتهم أو سياراتهم ، ولكن أيضًا لتحسين خدمة العملاء ، ودفع ابتكارات الرعاية الصحية وتحسين إمكانية الوصول والإدماج للأشخاص الذين يعانون من إعاقات في السمع أو النطق أو السمع.المهارات الحركية.

في استطلاع عام 2019 ، توقع Capgemini أنه بحلول عام 2022 ، سيختار أكثر من اثنين من كل ثلاثة مستهلكين المساعدين الصوتيين على زيارات المتاجر أو فروع البنوك ؛ حصة يمكن أن تزداد بشكل صحيح ، بالنظر إلى المنزل والحياة البعيدة جسديًا والتجارة التي فرضها الوباء على العالم لأكثر من عام ونصف.

ومع ذلك ، فشلت هذه الأجهزة في توصيل مساحات كبيرة من العالم. بالنسبة لهذه الأنواع الثلاثين من اللغة العربية والملايين من الناس ، فهذه فرصة ضائعة إلى حد كبير.

العربية للآلات

الروبوتات الصوتية الإنجليزية أو الفرنسية بعيدة كل البعد عن الكمال. ومع ذلك ، فإن تعليم الآلات لفهم اللغة العربية صعب بشكل خاص لعدة أسباب. فيما يلي ثلاثة تحديات معروفة بشكل عام:

  1. عدم وجود علامات التشكيل. اللهجات العربية هي الدارجة ، كما يتحدث بها بشكل رئيسي. معظم النصوص المتاحة ليست علامات تشكيل ، مما يعني أنها تفتقر إلى علامات التشكيل مثل عالية (´) أو منخفضة (`) التي تشير إلى القيم الصوتية للأحرف. لذلك ، من الصعب تحديد أين تذهب حروف العلة.
  2. قلة الموارد. هناك ندرة في البيانات المصنفة لمختلف اللهجات العربية. بشكل جماعي ، يفتقرون إلى قواعد التدقيق الإملائي القياسية التي تملي كيفية كتابة لغة ، بما في ذلك المعايير أو التهجئة ، والواصلة ، والواصلة ، والتأكيد. هذه الموارد ضرورية لتدريب نماذج الكمبيوتر ، وحقيقة أنها قليلة العدد أعاقت تطوير التعرف على الكلام العربي.
  3. التعقيد الصرفي. ينخرط المتحدثون باللغة العربية في العديد من التغييرات في التعليمات البرمجية. على سبيل المثال ، في المناطق التي استعمرها الفرنسيون – شمال إفريقيا والمغرب والجزائر وتونس – تشتمل اللهجات على العديد من الكلمات الفرنسية المستعارة. لذلك ، هناك عدد كبير مما يسمى الكلمات غير المفردات ، والتي لا تستطيع تقنيات التعرف على الكلام فهمها لأن هذه الكلمات ليست عربية.

يقول علي: “لكن المجال يتغير بسرعة فائقة”. إنه جهد تعاوني بين العديد من الباحثين للمضي قدمًا بشكل أسرع. يقود مختبر تكنولوجيا اللغة العربية التابع لعلي مشروع الخطاب العربي للجمع بين الترجمات العربية واللهجات المحلية من كل منطقة. على سبيل المثال ، يمكن تقسيم اللهجات العربية إلى أربع لهجات إقليمية: شمال إفريقيا ، والمصرية ، والخليجية ، والشامية. ومع ذلك ، بما أن اللهجات لا تحترم الحدود ، فيمكن أن يرتفع هذا إلى لهجة واحدة لكل مدينة ؛ على سبيل المثال ، يمكن للمتحدث المصري الأصلي أن يفرق بين لهجته الإسكندرية من مواطنه في أسوان (مسافة 1000 كيلومتر على الخريطة).

بناء مستقبل يتمتع بالدهاء التكنولوجي للجميع

في هذه المرحلة ، تكون الآلات دقيقة تمامًا مثل الناسخين البشريين ، ويرجع الفضل في ذلك إلى حد كبير إلى التطورات في الشبكات العصبية العميقة ، وهي مجال فرعي من التعلم الآلي في الذكاء الاصطناعي الذي يعتمد على خوارزميات مستوحاة من الأداء البيولوجي والوظيفي للدماغ البشري. ومع ذلك ، حتى وقت قريب ، تم اختراق التعرف على الكلام قليلاً. التكنولوجيا لها تاريخ في الاعتماد على وحدات مختلفة للنمذجة الصوتية ، وبناء معاجم النطق ونمذجة اللغة ؛ جميع الوحدات التي يجب تدريبها بشكل منفصل. في الآونة الأخيرة ، قام الباحثون بتدريب النماذج التي تقوم بتحويل الخصائص الصوتية مباشرة إلى نسخ نصية ، مما قد يؤدي إلى تحسين جميع الأجزاء للمهمة النهائية.

حتى مع هذه التطورات ، لا يزال علي غير قادر على إعطاء أوامر صوتية لمعظم الأجهزة بلغته الأم العربية. ويعلق قائلاً: “إنه عام 2021 وما زلت لا أستطيع التحدث إلى الكثير من الآلات بلهجتي”. “أعني ، الآن لدي جهاز يمكنه فهم لغتي الإنجليزية ، لكن التعرف التلقائي على الكلام العربي متعدد اللهجات لم يحدث بعد.”

تحقيق ذلك هو هدف عمل علي الذي نتج عنه أول محوّل للتعرف على الكلام العربي ولهجاته. الذي حقق أداءً لا مثيل له حتى الآن. هذه التقنية التي يطلق عليها نظام QCRI المتقدم للنسخ ، تستخدم حاليًا من قبل مذيعي الجزيرة و DW و BBC لنسخ المحتوى عبر الإنترنت.

هناك عدة أسباب وراء نجاح علي وفريقه في إنشاء هذه المحركات الصوتية في الوقت الحالي. بشكل أساسي ، كما يقول ، “من الضروري وجود موارد في جميع اللهجات. علينا تطوير الموارد حتى نتمكن بعد ذلك من تدريب النموذج. يعني التقدم في معالجة الكمبيوتر أن التعلم الآلي الذي يتطلب عمليات حسابية مكثفة يحدث الآن في وحدة معالجة الرسومات ، والتي يمكنها معالجة الرسومات المعقدة وعرضها بسرعة. كما يقول علي ، “لدينا بنية رائعة ووحدات نموذجية رائعة ولدينا بيانات تمثل الواقع. ”

قام باحثون من معهد قطر لبحوث الحوسبة وكاناري للذكاء الاصطناعي مؤخرًا ببناء نماذج قادرة على تحقيق التكافؤ البشري في بث الأخبار باللغة العربية. يوضح النظام تأثير إضافة تعليقات على تقارير الجزيرة اليومية. في حين أن معدل الخطأ البشري (HER) في اللغة الإنجليزية يبلغ حوالي 5.6٪ ، فقد وجدت الأبحاث أن HER العربية أعلى بكثير ويمكن أن تصل إلى 10٪ بسبب التعقيد المورفولوجي للغة والجسد. . بفضل التطورات الحديثة في التعلم العميق والهندسة الشاملة ، تمكن محرك التعرف على الكلام العربي من التفوق على المتحدثين الأصليين في بث الأخبار.

بينما يبدو أن التعرف على الكلام باللغة العربية القياسية الحديثة يعمل بشكل جيد ، فإن الباحثين في QCRI و Kanari AI يكرسون جهودهم لاختبار حدود معالجة اللهجات وتحقيق نتائج ممتازة. نظرًا لأن لا أحد يتحدث العربية الفصحى الحديثة في المنزل ، فإن الاهتمام باللهجة هو ما نحتاجه لمساعدتنا الصوتية لفهمنا.

تمت كتابة هذا المحتوى بواسطة معهد قطر لبحوث الكمبيوترجامعة حمد بن خليفة عضو مؤسسة قطر. لم يكتبه فريق التحرير في MIT Technology Review.

[ad_2]