فهرست محتوای این مطلب:
میزان تولید محتوا به زبان فارسی در اینترنت
زبان فارسی در اینترنت نسبت به زبانهای دیگر جایگاه شاخصی ندارد؛ اما نسبت به جمعیتی که فارسیزبان هستند در رتبههای اول تولید محتوا قرار دارد.
مقیاس تولید محتوای وب به زبان فارسی در برابر دیگر زبانها، بسیار بیشتر از مقیاس فارسی زبانان به انسانهای استفاده کننده از زبانهای دیگر است.
به عبارت سادهتر تولید محتوا به زبان فارسی در اینترنت توسط ما فارسی زبانها نسبت به جمعیتمان بیشتر از تولید محتوا توسط فرانسوی زبانهاست به زبان فرانسوی. همینطور نسبت به اکثر کشورها و زبانهای دیگر.
همین موضوع زبان فارسی را در اینترنت دستخوش تغییراتی کرده است که لازم است تا صاحبان امر و متخصصان زبان فارسی و زبانهای برنامهنویسی وب با دیدی علمیتر به آن نگاه کنند.
آغاز زبان فارسی در اینترنت
گسترش زبان فارسی در وب، با سایتهایی نظیر پرشینبلاگ که قابلیت ایجاد وبلاگ فارسی را برای کاربران فراهم میکردند، آغاز شد.
زمانی که وبلاگنویسی به جامعهی فارسی زبان عرضه شد و زبان فارسی را از انحصار چترومها و تالارهای گفتگو خارج کرد، تجربهی آن به عنوان یک پدیدهی جدید، برای مردم و خصوصاً مشتاقان فناوری بسیار هیجان انگیز بود. تا آن جا که وبلاگنویسی به نشانی از فرهیختگی و پوزیشن اجتماعی تبدیل شد و افرادی که وبلاگنویسی را شروع کردهبودند، آن را به دیگران هم توصیه میکردند.
این موج بعدها با بلاگفا تکمیل شد.
در ابتدا این افراد فرهیختهی جامعه بودند که مالکان وب فارسی به شمار میرفتند؛ اما رفتهرفته با عمومیت پیدا کردن کامیپوترهای خانگی و اینترنت، کاربری آن از انحصار فرهیختگان جامعه خارج و بخش قابل توجهی از آن در دست افراد غیردانشگاهی قرار گرفت. تا آنجا که امروزه کودکان و دانشآموزان دورهی ابتدایی هم از اینترنت استفاده میکنند. (به نقل از وبلاگ شخصی مدیر بلاگفا؛ علیرضا شیرازی)
ایرانیان جزو اولین کشورهایی بودند که به سمت راهاندازی سرویسهای بومی ارایهی خدمات وبلاگنویسی و تولید محتوا به زبان فارسی در اینترنتث رفتند. بعضی از سرویسهای جهانی هستند که وبلاگنویسی را برای اکثر زبانهای دنیا ارایه میکنند؛ مانند وردپرس یا بلاگر. طبیعتاً در چنین سرویسهایی، سازگاری با زبان مورد نظر چندان مطلوب نخواهد بود. در مقابل این سرویسها، سرویسهای بومی قرار دارند. کشور مبدأ و مقصد این سرویسها یکی است و برنامهنویسان آن، آن را مناسب با زبان کشور خود برنامهریزی میکنند. چین در بومی سازی سرویس های اینترنتی در جهان پیشتاز است. نمونهی این مسأله در کشور ما موتور جستجوگر یوز، سرویس وبلاگ بلاگفا، سرویس ایمیل ایران میل و… است. محیط فارسی و سادگی کار با یک سرویس بومی وبلاگنویسی در ایران، گام بلندی بود برای تضمین ادامه و رواج وبلاگ نویسی فارسی.
ایران و مشکل هزاره
سالها پیش؛ در آستانهی آغاز سال ۲۰۰۰ میلادی یکی از بزرگترین بحرانها و دغدغههای دنیای تکنولوژی و اینترنت شکل گرفت. این مشکل آن چنان بزرگ بود که کشورهای جهان برای حل آن، بودجههای چند میلیون دلاری اختصاص دادند!
-
اما این مشکل چه بود؟
مسأله ساده بود! در بسیاری از نرم افزارها و در هنگام ثبت یا محاسبهی تاریخ، تنها دو رقم آخر سال نمایش یا محاسبه میشود و با شروع هزاره یا سدهی جدید، دو رقم آخر سال صفر (۰۰) میشد که معلوم نبود دقیقاٌ اشاره به چه سالی دارد؟ در بسیاری از نرمافزارها (حتی در نرم افزار BIOS مادربردها) در شروع هزارهی جدید، تاریخ به سال ۱۹۰۰ یعنی زمان پیشفرض آن ها، زمان آغازگر دوره باز می گشت (برای درک بهتر یک تسبیح را فرض کنید که دانههای آن تمام شده و حالا باز شمارش دانههای آن از اول شروع میشود).
این مشکل «باگ هزاره» یا به اختصار «Y2K» نامیده شد. قضیه وقتی پیچیدهتر شد که مشخص شد در بسیاری از نرمافزارها یا سختافزارهای آن زمان حتی حافظهی لازم برای نگهداری یا اضافه کردن دو رقم اول (یعنی قرن) وجود ندارد. قابل پیشبینی بود که چنین مشکلی میتواند باعث خطا در بسیاری از نرمافزارها و از کار افتادن کامپیوترها شود. به هر حال پس از صرف میلیونها دلار و ساعتها بررسی و اصلاحات نرمافزاری و سختافزاری، Y2K بدون مشکل جدی سپری شد.
حالا زبان فارسی نیز با نزدیک شدن به سال ۱۴۰۰ شمسی و صفر شدن دو رقم آخر تاریخ در آستانهی چنین مشکلی است. سال ۹۵ شمسی رو به اتمام است و تنها کمتر از چند سال دیگر برای حل این مشکل فرصت باقی است!
دقت داشته باشید که تاریخ شمسی در اینترنت (منظور زبانهای برنامهنویسی اینترنت است)، بانکهای ایران، نرمافزارهای مالی و حسابرسی و… مانند تاریخ میلادی به صورت DD/MM/YY نوشته میشود. تغییر تاریخدهی و حرکت به سوی YYYY/MM/DD میتواند تا حدودی این مشکل را حل کند.
این هم یکی دیگر از مشکلات زبان فارسی در اینترنت است. کسی چه میداند؟ شاید ۱۰۰ سال دیگر که در آستانهی سال ۱۵۰۰ هجری شمسی قرار گرفتیم هم این مشکل پابرجا باشد.
حروف فارسی، کدپیچها و یونیکدها در برنامهنویسی وب فارسی
سایتهای خبری، بخش مهمی از محتوای فارسی منتشر شده در اینترنت را به خود اختصاص دادهاند. محتوای سایـتهای خبری طبیعتاً از اهمیت زیادی برخوردارند. علاوهبر دسترسی به اخبار روز، مقالات و تحلیل های مرتبط با وقایع روز و دسترسی به محتوای آرشیو شدهی این سایتها نیز مفید و گاهی لازم است. با توجه به رایج بودن استفاده از موتورهای جستجو برای دسترسی به اخبار قدیمیتر، لازم است که سایتهای خبری از شیوهای یکسان و استاندارد برای انتشار محتوای متنی خود استفاده کنند.
-
یونیکد و کدپیچ UTF-8
سالها است که یونیکد و کدپیچ UTF-8 به عنوان بهترین انتخاب جهت نمایش و انتشار محتوای فارسی در صفحات وب استفاده میشود و بسیاری از سایتهای خبری نیز از این کدپیچ استفاده میکنند؛ اما متأسفانه هنوز سایتهای خبری مهمی نیز هستند که از کدپیچ Windows-1256 – که در واقع کدپیچ مناسب برای انتشار محتوای عربی با قابلیت پشتیبانی از برخی حروف فارسی (و آن هم نه همهی حروف!) است – استفاده میکنند.
البته استفاده از کدپیچ Windows-1256 صرفاً بر مبنای عدم آگاهی صاحبان سایتها نبوده و با توجه به پشتیبانی ضعیفتر در برخی زبانها و نرمافزارهای قدیمی مرتبط با توسعهی نرمافزارهای تحت وب از یونیکد، زمانی استفاده از کدپیچ Windows-1256 رایج بوده است؛ ولی وقت آن رسیده است که مدیران فنی این سایتها همت کرده و از کدپیچ مناسبتری برای انتشار محتوای فارسی استفاده کنند.
اگرچه ظاهراً نمایش متون فارسی در این کدپیچ (یعنی windows-1256) بدون اشکال است؛ اما برای مثال در این کدپیج برای حرف «ی» فارسی، صورتی در نظر گرفته نشده است و در زمان ثبت اطلاعات یا در متن HTML کد «ی» عربی به جای حرف «ی» فارسی ثبت (احتمالاً) و نمایش (قطعاً) داده می شود. این هم یکی دیگر از مشکلات زبان فارسی در اینترنت است.
-
حروف ی و ک فارسی و عربی
نکته بسیار مهم دیگر استفاده از «ی» و «ک» عربی به جای «ی» و «ک» فارسی است. لازم به یادآوری است که این دو حرف نه تنها در شکل و نمایش با دو حرف فارسی معادل خود تفاوت دارند؛ بلکه ثبت و نمایش آنها با کدهای متفاوتی صورت میگیرد. (کد معادل «ی» فارسی ۱۷۴۰ و برای «ي» عربی ۱۶۱۰ و کد معادل «ک» فارسی ۱۷۰۵ و برای «ك» عربی ۱۶۰۳ می باشد.) این تفاوت به معنای تفاوت در ثبت اطلاعات، ایندکس سازی و جستجو است و از لحاظ فنی جستجوی کلمه ای مانند «کرمانی» با استفاده از حروف فارسی و «کرمانی» با حروف عربی مشابه نبوده و میتواند نتایج متفاوتی داشته باشد.
ممکن است این مسأله در جستجوگر داخلی سایت در نظر گرفته شده باشد یا می توانیم امیدوار باشیم که جستجوگر گوگل نیز که مدتی است نتایج مشابهی برای جستجو عباراتی با این حروف نشان میدهد، همچنان از این امکان خود پشتیبانی کند؛ اما همچنان در بسیاری از سایتها و جستجوگرها این مسأله وجود دارد. این مشکلی بسیار رایج در اکثر سایتهای خبری است؛ به طوری که گاهی یک خبر با حرف «ی» و «ک» فارسی و خبر دیگری با «ی» و «ک» عربی ثبت شده است.
همه ی این ها در حالی است که مسؤولین فنی و طراحان سایتها میتوانند با تغییر کوچکی در نرمافزار سایت و در زمان ثبت داده (data) در بانک اطلاعاتی سایت (database)، این مشکل را حل کنند. جهت یکسانسازی کافی است، هنگام درج محتوای فارسی، حروف «ک» و «ی» عربی متن با معادل فارسی آن جایگزین شوند. خوشبختانه این کار در تمام زبانهای برنامهنویسی مرسوم با یک یا چند خط کد امکانپذیر است.
-
مشکل حروف ی و ک در سایتهای دو زبانهی فارسی و عربی
سایتهای خبری ایرانی نیز که نسخهای عربی داشته و اخبار خود را به زبان عربی نیز منتشر میکنند، لازم است به این نکته دقت داشته باشند و از حروف «ک» و «ی» عربی در متن اخبار نسخهی عربی خود استفاده کنند. استفاده از شکل فارسی این حروف در یک متن خبری به زبان عربی، میتواند مشکلاتی همچون محدودیت دسترسی کاربر عربی (در زمان استفاده از جستجوگرها) به نسخه عربی اخبار سایتهای ایرانی ایجاد کند.
-
نیمفاصله
مشکل خبرگزاریهای رسمی در استفاده از حروف فارسی، تنها به این مورد ختم نمیشود. بسیاری از فارسینویسان اینترنت، هنوز از وجود کاراکتری به نام «نیمفاصله» آگاهی ندارند.
برای مثال، کلمهی «سایتها» را در نظر بگیرید. وقتی که روی آن دوبار کلیک میکنید، کل واژه (همراه با «ها») آبی میشود. این بار «سایت ها» را در نظر بگیرید و این کار را دوباره انجام دهید. نتیجه متفاوت خواهد بود. درست ترین شیوهی نگارش این واژه، استفاده از نیم فاصله است: «سایتها». با دو بار کلیک بر روی این کلمه، کل آن آبی (HighLight) میشود. این بدان معنی است که ضمن این که دستور زبان فارسی را رعایت کردهایم و علامت جمع را جدا از کلمه نوشتهایم، منظور خود را در قالب تنها یک کلمه به سایت معرفی کردهایم. این کار، نتایج جستجوی بهتری را در بر خواهد داشت.
-
اعداد عربی
در کنار این مسأله، اعداد عربی را نیز در نظر بگیرید. اعداد فارسی صرفاً این کاراکترها هستند:
۰…۱…۲…۳…۴…۵…۶…۷…۸…۹
اما بعضاً میبینیم که اعداد مشابه زیر جایگزین اعداد بالا میشوند که اصلاً مناسب نیست:
متأسفانه برخی از سیستمهای وبلاگنویسی ایرانی هم از این روش استفاده کردهاند.
اگر دقت کرده باشید، سرویسهای ارایه دهندهی وبلاگ در بخش نظرات (comment) خود، برای درج تعداد کامنتها از اعداد انگلیسی استفاده میکنند. هر چند دلیل آن استفاده از جاوا اسکریپت باشد؛ اما به هر حال، سایت های ایرانی، باید همه چیزشان ایرانی باشد.
رستاخیز زبان فارسی در اینترنت و دنیای واقعی
چند سالی است که فرهنگستان زبان و ادب فارسی درتکاپوی ساخت واژههای فارسی و جایگزینی آنها با واژههای انگلیسی در اینترنت و کامپیوتر افتاده است. اما چیزی که پُر واضح است، مقبول نیفتادن این واژهها نزد کاربران است. امروزه کمتر کسی را میتوان یافت که به جای کلمه mouse pad از واژهی زیرموشی یا به جای کلمه ی cyberware از واژه ثقیل رایا افزار استفاده کند. اما چرا؟
برای بررسی این موضوع بهتر است به برخی ابداعیات فرهنگستان در زمینهی IT توجه کنیم:
- سایت (site) = پایگاه
- وبلاگ (weblog) = تارنما
- فروم (Forum) = انجمن
- ایمیل (email) = رایانامه
- لینک (link) = دنبالک
- پی ام (pm) = پیامهای پستی
- کلیک (click) = تلیک
- فرم (frame) = قابک
- فکس (fax) = دورنگار
- اسکنر (scanner) = پویشگر
- بوت (boot) = راه اندازی مجدد
- بلوتوث (Bluetooth) = دندان آبی
احتمالاً بعد از برانداز کردن این لیست لبخند بزرگی روی صورتتان نشسته است.
-
تمسخر معادلات فارسی توسط مردم
این پرسش همواره برای زبان شناسان و افرادی که به زبان و ادبیات فارسی تعصب دارند و وضعیت زبان فارسی در اینترنت برایشان مهم است، مطرح است که چرا مردم به واژههای مصوب فرهنگستان زبان و ادبیات فارسی روی خوش نشان نمی دهند و بعضاً حتی پا را فراتر نهاده و این واژهها را مورد تمسخر قرار میدهند؟
کاربرد واژه ی معادل برای برخی کلمات درک معنای کلام را برای شنونده سخت میکند و به همین دلیل بسیاری از افراد تلفظ لاتین کلمه را به ادای واژهی معادل ترجیح میدهند.
از طرفی واژه ی معادل در نظر گرفته شده برای برخی کلمات عیناً ترجمه ی فارسی کلمهی بیگانه است، مانند واژه ی پرکاربرد Close که واژه ی معادل آن «بستن» یا Connection که واژهی معادل آن «ارتباط» است. پس آیا بهتر نبود به جای واژهی «معادل» از لفظ «ترجمه» استفاده میشد؟
-
ترکیب عدم فرهنگسازی لازم و کج سلیقگی
این عوامل در کنار عوامل دیگری مانند عدم فرهنگسازی ریشهای برای استفاده از لغات فارسی به جای لغات بیگانه، عدم انتخاب واژهی معادل کوتاه و صحیح که به آسانی بر زبان جاری شود (واژه ی لاتین «boot» و معادل آن «راهاندازی مجدد» را در نظر بگیرید) و… باعث شده تا اکثر افراد، حتی افراد تحصیل کرده و بسیاری از استادان دانشگاهها به استفاده از واژههای معادل توجهی نشان ندهند که این موضوع در حوزهی کامپیوتر و فناوری اطلاعات (IT) مشهودتر است.
عامل بعدی با دیگر عوامل کمی متفاوت است. ریشه این علت را باید در ضعفهای شخصیتی و فرهنگی جستجو کرد:
تفاخر!
بله! تفاخر. بسیاری از افراد هستند که صرفاً جهت تفاخر به واژههای لاتین رو میآورند و از واژههای فارسی و معادل دوری میکنند. حضور این دسته از افراد، در زمینهی IT با توجه به پوزیشن اجتماعی نسبتاً بالای کار آنها، بسیار پر رنگتر از خیلی از رشتهها و زمینههای دیگر است.
سیاست یک بام و دو هوای فرهنگستان
فرهنگستان در نشستها و جلسات گوناگون سعی در واژهسازی و رایج کردن آنها در میان عامهی مردم میکند. ۸۹۰ واژه دستآورد آنها فقط در زمینهی IT است (به نقل از سایت فرهنگستان زبان فارسی). اما وقتی از حداد عادل به عوان رییس فرهنگستان سوال میشود که چرا برای واژههای عربی، معادل فارسی پیشنهاد نمیکنید؛ وی پاسخ میدهد:
«واژگان عربی در زبان فارسی، مانند سادات هستند در جامعهی اسلامی.»
آیا وقتی یک کاربر با چنین سیاست و جریانی مواجه میشود، نسبت به سایر تصمیمها و واژه گزینیهای فرهنگستان ناخودآگاه موضع نمیگیرد؟ آیا باز تصمیات فرهنگستان را میپذیرد؟ زبان فارسی در اینترنت و همینطور در بطن جامعه به صورت دستوری پیش نمیرود.
سیاستهای یک بام و دو هوای فرهنگستان به همین جا ختم نمیشود! فرهنگستان طی بیانهای در سایت خود اعلام کرد:
برای واژهی «اینترنت» معادلسازی نخواهد کرد؛ زیرا این یک کلمهی بین المللی است و در تمام دنیا و زبانها به همین نام خوانده میشود.
خب واکنش فرهنگستان در مورد واژهای مثل «کامپیوتر» چه بود؟
همه می دانیم که «رایانه» واژهی پیشنهادی فرهنگستان است. واژهای که به شدت بر روی آن اصرار دارد و با بخش نامه کردن آن به صدا و سیما در ترویج آن میکوشد! اما مگر «کامپیوتر» (computer) همانند اینترنت (internet) یک کلمهی بین المللی نیست؟
بسیارند از این سیاستهای یک بام و دو هوایی فرهنگستان.
در پایان پیشنهاد میکنم نگاهی به مطلب فونت فارسی در سایت، گرافیک و چاپ بیاندازید.
با احترام؛ میثم عربی
عالی بود. واقعا این فرهنگستان و اسمایی که از خودش در میاره خیلی رو اعصابه