السياق
معظم خطوط إنتاج المحتوى متعدد اللغات تنتج نصًا يُقرأ كمترجَم. يمكنك رؤية الأخياط, استعارات لفظية، عدم تطابق في السجلّ، تعابير اصطلاحية تنجو حين لا ينبغي لها، خصوصيات في التنسيق تشي باللغة المصدر. بُني Polyglot Content لتسليم نصوص تُقرأ كأنها كُتبت من البداية بيد ناطق أصلي.
بدأ حياته كنظام توليد المقالات لمواقع النشر الرومانية FB-Media. حالما هبطت مرحلة الأنسنة، كانت الخطوة البديهية التعميم: نفس المحرّك، خمس لغات، أدلّة أسلوب تحريرية لكل لغة.
الموجز
- 5 لغات إطلاق: الإنجليزية، الرومانية، الفرنسية، العربية، الألمانية.
- أسلوب تحريري لكل لغة, صوت الأخبار في السجلّ الرسمي الروماني يختلف عن صوت المجلّة الفرنسية، الذي يختلف عن العربية الفصحى.
- سلسلة بديل: نموذج رخيص وسريع للمسوّدة الأولى، نموذج بطيء ومكلف لمرحلة الأنسنة.
- تحسين محركات البحث لكل لغة, hreflang، canonical، تقديم search-console، خريطة موقع واعية باللغة.
- هدف البناء: 1٬000 إلى 1٬200 كلمة لكل مقال بأي لغة، مع الحفاظ على الصوت على طول المقال.
- الاستدلال محليًا أولًا حيث أمكن, Ollama على GPU محطة عمل كبديل مضبوط التكلفة.
المعمارية
استراتيجية نموذج من مستويين:
- الأساسي: Claude Sonnet (عبر وكيل Claude Code CLI الذي يلتفّ على الاشتراك، فتكون التكلفة لكل مقال صفرًا فعليًا).
- البديل: qwen3:14b على Ollama، يعمل على RTX 4070 Ti Super في محطة عمل.
عندما تنتهي مهلة الوكيل (نادر) أو يعيد ردًا مشوّهًا (أندر)، يسقط خط الإنتاج إلى النموذج المحلي بلا تدخّل من المشغّل. كلاهما ينتج في نطاق 1٬000–1٬200 كلمة؛ Claude أحدّ في السجلّ، qwen أكثر إسهابًا قليلًا.
تعمل مرحلة أنسنة بعد التوليد: تجرّد آثار التوليد (عبارات انتقالية متكرّرة، أشكال جمل قانونية للذكاء الاصطناعي، إيقاع «ليس مجرّد X, بل Y»)، وتعيد ترتيب الفقرات لاحترام الدليل التحريري لكل لغة، وتجري فحصًا سريعًا لكثافة الحقائق.
كل ذلك سكربت Python + ملف حالة JSON لكل لغة. لا طابور، لا منسّق، فقط مهمّة cron لكل موقع. متعمَّد, كان المنسّقون مبالَغًا فيهم عند هذا الحجم وجعلوا التصحيح أصعب.
النتائج
- 5 لغات مُسلَّمة بجودة إنتاج, مرحلة الأنسنة هي الفرق.
- 11 اختبار وحدوي + تكامل تغطّي بديل التحكّم في التكلفة، تطبيق دليل الأسلوب، وقواعد الأنسنة.
- التكلفة لكل مقال أقل من 0.30 يورو لمقال من 1٬200 كلمة، بما في ذلك مرحلة الأنسنة.
- ساعات المراجعة التحريرية أسبوعيًا: صفر على مواقع FB-Media منذ الإطلاق.
- المسوّدة الأولى ← منشور: 90 ثانية من البداية للنهاية على المسار الأساسي؛ 6–8 دقائق على المسار البديل.
لقطات الشاشة
[FILL: استبدل بلقطات شاشة لـ YAML دليل الأسلوب لكل لغة، ومقارنة جنبًا إلى جنب لمخرجات قبل/بعد الأنسنة، وملف حالة JSON. تجنّب إظهار مقالات مولّدة فعلية, ممتلكات FB-Media حسّاسة.]
ما هو التالي
عنصران على قائمة التكرار التالي:
- ترقية متجر معجم YAML لكل موجّه إلى هيكل بيانات من الدرجة الأولى, المعجم لكل لغة الحالي يعيش في قالب الموجّه، مما يجعل الانجراف بين النسختين الرومانية والفرنسية صعب التصحيح. جدول معجم مُسوَّى (مع طابع زمني
lastReviewedلكل مصطلح) سيجعل اكتشاف انجراف الترجمة في الفرنسية والعربية أسهل بكثير. - أدلّة أسلوب تحريرية لكل منفذ, حاليًا لكل لغة موجّه نبرة صوت واحد. ترقية الموجّهات إلى أدلّة أسلوب لكل منفذ ستسمح لمواقع الرياضة والأعمال بالتباعد أسلوبيًا دون مرحلة تحرير يدوي.