سایت حقوق
پذيرش سايتجستجو و پژوهش
آخرین به روز آمد :
سه شنبه 14 فوريه 2006

Hoqooq.com home page     Hoqooq.com favorite  






مهارت در جستجوي اطلاعات فارسي از اينترنت
جمعه 6 ژانويه 2006
در تارنما منبع

محمد صابر راثي ساربانقلي

چكيده:

 خط فارسي داراي مشكلات مختلفي مي­باشد كه در جستجو و بازيابي اطلاعات مسائل و مشكلات فراواني را فراروي كابران اينترنت قرار مي­دهد. به خصوص با رشد سريع انتشارات الكترونيكي بر روي وب در شكلهاي مختلف پايگاه­هاي اطلاعاتي، وبلاگ و ... و اينكه هيچ قاعده مشخص و ثابتي براي رسم­الخط فارسي وجود ندارد باعث شده است كه جستجوگران مطالب فارسي با مشكلات فراواني روبرو بشوند. اين مقاله سعي دارد تا با اشاره به موارد مختلفي كه مي­تواند در جستجو و بازيابي اطلاعات سرعت و دقت و جامعيت و مانعيت جستجو را بالاببرد موجب افزايش مهارت كاربران اينترنت فارسي بشود.


كليد واژه ها: اينترنت، خط فارسي، جستجو و بازيابي اطلاعات.
 
مقدمه
 اينترنت به عنوان يك محمل اطلاعاتي عظيم، منابع اطلاعاتي را در مقياسي وسيع در دسترس مخاطبان بالقوه قرار داده است. اغلب سهولت دسترسي به منابع اطلاعاتي اعم از متن و ساير رسانه‌ها عمده‌ترين مزيت اينترنت محسوب مي‌شود. اما اين توانايي كه هركس ناشر آثار خود باشد عواقب ناخواسته‌اي را نيز در پي خواهد داشت و آشكارترين معضل، آن است كه انبوهي از منابع بسيار متنوع و غير قابل مديريت را فراهم مي­آورد. افزايش سريع منابع اينترنتي نيازمند يك سازمان­دهي مفيد و موثر است. هرچند در حال حاضر راهنماهايي براي منابع اينترنتي تهيه شده است كه براساس فايل‌هاي مقلوب ساخته شدهِ توسط موتورهاي جستجو و با استفاده از قابليت‌هاي مختلف اين موتورها از جمله : استفاده از عملگرهاي بولي، جستجوي دقيق عبارت، محدود كردن يك جستجو به بخش خاصي از ركورد (مانند عنوان ، آدرس) ، كوتاه‌سازي كلمات، جستجوي نزديك‌يابي واژه‌ها، ايجاد محدوديت زماني و منطقه‌اي و زباني، و .... به جستجوي اطلاعات كمك مي­كند، اما بايد تاكيد كرد كه در امر بازيابي اطلاعات از اينترنت بدون نمايه‌سازي نظام يافته نمي‌توان انتظار بازيابي مفيد و موثر را داشت. هرچند بيش‌تر اطلاعات موجود بر روي اينترنت به زبان انگليسي است، ولي حجم اطلاعات به زبان فارسي نيز با سرعت در حال افزايش است و كاربران به دلايل مختلفي علاقه زيادي به اطلاعات فارسي نشان مي­دهند و از آنجائي­كه زبان غالب در اينترنت انگليسي است جستجو به زبان‌هاي غير انگليسي از جمله فارسي، مسايل و مشكلات مختلفي را جداي از مشكلات عمومي اينترنت دارد.


خط فارسي
اشكال و نقصي كه در همه خطوط جهان است دو علت دارد كه يكي در اصل خط است و ديگري بر اثر تغيير و تحول زبان ايجاد مي‌شود. دقت فراوان در ثبت همه دقايق تلفظ اغلب موجب دشواري شيوه خط است و اين دقت زماني ضرورت مي‌يابد كه زباني توسعه بسيار بيابد و در كشورهاي ديگري كه به آن زبان سخن نمي‌گويند رايج شود. به عنوان مثال در خط عربي نقطه و علامت‌هاي حركات وقتي به وجود آمد كه زبان عربي نزد ملت‌هاي غير عرب معمول شد، در خط يوناني نيز نشانه‌هاي آهنگ و تكيه[3] پس از رواج آن زبان در مصر ايجاد شد تا كساني كه زبان مادري‌شان يوناني نبود و با تلفظ آن مانوس نبودند بتوانند كلمات و عبارات يوناني را هر چه درست‌تر ادا كنند. با اين حال هيچ خطي هر قدر دقيق و شماره علامات آن فراوان باشد، ممكن نيست كه كاملاً نشانه شيوه تلفظ باشد. و با كمك علامات متعدد علم حروف نيز تا كسي چگونگي تلفظ زباني را نشنود نمي‌تواند عبارت و كلمات آنرا مانند اهل آن زبان ادا كند.
 اما نقصي كه بر اثر تحول زبان و به تدريج در خط حاصل مي‌شود، مشكلي است كه همه ملت‌ها با آن رو به رو هستند. بعضي از حروف و اصوات زبان در طي زمان تغيير مي‌پذيرند و اين تغيير در گفتار حاصل مي‌شود، اما خط هميشه صورت كهن تلفظ را حفظ مي‌كند، و از اينجا ميان "گفتار" و "نوشتار" اختلاف روي مي‌دهد. ديگر آن كه هر زباني ناگزير لغاتي از زبان‌هاي ديگر به عاريت مي‌گيرد و اگر علائم خط در اين دو زبان يكي باشد كلمه خارجي به همان املاي اصلي در نوشتن به كار مي‌رودكه اغلب با املاي كلمه مشابه در زبان ثانوي تفاوت دارد و از اينجا براي اصوات واحد علائم خطي متعدد پديد مي‌آيد. در خط فارسي نمونه همه اين موارد را مي‌توان يافت. چون خط عربي براي نوشتن فارسي به كار رفت كلماتي كه از آن زبان اخذ شده بود به همان صورت اصلي نوشته شد. حال آنكه به يقين در هيچ دوره‌اي حروف خاص عربي را فارسي زبان‌ها درست مثل اصل تلفظ نكرده‌اند. در زبان‌هاي ديگر نيز اين گونه موارد نمونه‌هاي متعدد دارد. شايد دو زبان انگليسي و فرانسه بيش از همه زبان‌هاي جهان دچار اختلاف تلفظ و خط باشند. به طور كلي نقائص و معايبي كه در خطوط معمول جهان است را مي‌توان به طريق زير طبقه‌بندي كرد:
1. شكل واحدي اصوات مختلف را بيان مي كند. چنانكه در فارسي حرف "ي" را گاهي براي حرف لين بكار مي­بريم (يك) و گاهي براي حرف مد (بي) و گاهي به جاي الف (عيسي) و گاهي براي نشان دادن مصوت مركب (ري). و يا حرف «و» در كلمات (سوار، سود، تو)
2. اصوات واحد به صورت‌هاي مختلف نوشته مي شود. در فارسي حرف "س" سه صورت (س – ص – ث) و حرف "ز" چهار صورت (ز – ذ- ض- ظ) دارد؛ در زبان فرانسه حروفي كه "سن" خوانده مي‌شود پنج رسم الخط دارد كه اگر صورت‌هاي جمع را نيز به حساب بياوريم ده شكل مي‌شود از اين قرار (saint, ceint, sein, seing, sain)
3. بسياري از حروف نوشته مي‌شود ولي خوانده نمي‌شود. يعني علاماتي بي‌فايده در نوشتن به كار مي‌رود در فارسي نوشتن "واو معدوله" و "هاء غير ملفوظ" از اين قبيل است. در انگليسي نمونه اين مورد بسيار است مانند high كه دو حرف آخر آن به كلي از تلفظ ساقط است. و يا “K” در كلمه “Know” .
4. اصواتي هستند كه تلفظ مي‌شود اما در خط نشانه‌اي براي آن‌ها نيست. در فارسي سه مصوت كوتاه ( َ ِ ُ ) از اين قبيل است هم چنين الف در كلمات اسحق و الله كه در كتابت نمي‌آيد. [4]
زبان و خط فارسي نيز مشكلات خاصي را دارا مي­باشد و نظام نوشتاري فارسي براي ثبت دقيق گفتار، نارسائي دارد و قواعد نگارش آن مدون نيست، از اين رو فاصله ميان گفتار و نوشتار در فارسي قابل توجه است. بيش‌ترين مشكلات نيز به جهت نبود يك رسم الخط واحد كه عموم اساتيد و اهل فن روي آن اجماع كرده باشند به وجود آمده است. به طوري كه در حال حاضر جداي از چندين شيوه‌نامه رسمي همچون" شيوه‌نامه سمت، نشر دانشگاهي، فرهنگستان، آموزش و پرورش" به تعداد افراد جامعه، رسم الخط و شيوه نگارش زبان وجود دارد، هر ناشري براي خود به قاعده‌اي دلخواه عمل مي‌كندكه اين تعددها موجب پريشاني و پراكندگي شده و با يك­ديگر تفاوت‌هايي دارند. از ديگر دلايل مي‌توان به عاريتي بودن خط فارسي و چاره‌انديشي براي حركات و عدم تطابق واج‌ها با حروف اشاره كرد. متصل و منفصل‌نويسي نيز يكي ديگر از حوزه‌هاي مورد اختلاف است از ديگر مشكلات: گوناگوني معادل‌هاي علمي، انواع مختلف ضبط اسامي خارجي، سرهم‌نويسي، جدانويسي، بي‌فاصله‌نويسي، انواع جمع‌ها، صورت‌هاي مختلف نوشتاري، آوانويسي اسامي عناصر و تركيبات شيميايي، سرواژه‌ها و كوته‌‌نوشت‌ها مي­باشد.
به طور كلي نقص‌هايي كه براي زبان فارسي شمرده‌اند به شرح زير مي‌توان عنوان كرد:
1.سه مصوت كوتاه يعني حركات زير و زبر و پيش ( َ ِ ُ ) را از نوشتن ساقط مي­كنيم. و اين باعث مي‌شود به جاي اين كه از خط و نوشتار پي به معني ببريم بايستي از معني كلمه و جايگاه آن در جمله آن­را درست بخوانيم مانند كلمات (كَرَم، كَرَم، كِرِم، كُر‏ُم، كِرْم) و (مَلَك، مَلِك، مُلك، مِلك) و يا سه كلمه (حَكَم، حُكم، حِكَم) و نيز ننوشتن مصوت‌هاي كوتاه در داخل متن باعث مي‌شود كه براي تلفظ صحيح اجباراً لاتين كلمات به صورت پانويس متن آورده شود كه همين امر باعث اتلاف وقت و انرژي مي‌شود. كه البته همين لاتين‌نويسي هم قاعده خاصي ندارد و هر ناشر و نويسنده‌اي سليقه خاص خودش را براي آوانويسي حروف فارسي به لاتين دارد. كه به عنوان نمونه براي نشان دادن حركت فتحه و الف و آ هيچ‌گونه هماهنگي در كتاب‌ها و خصوصا فرهنگ‌هاي مختلف ديده نمي‌شود. ”هر چند برخي معتقدند همين ننوشتن حركات مزيتي است و موجب تندنويسي مي‌شود“[5].
2.براي يك حرف چند علامت مختلف داريم مانند علامت‌هاي (س،ص، ث) كه هر سه در فارسي يكسان خوانده مي‌شوند و هم چنين (ذ، ز، ض، ظ) و نيز (ت، ط). البته اين امر در زبان انگليسي هم وجود دارد چنان كه «ف» ممكن است به شكل‌هاي «F. GH. PH. V » باشد.
3.يك علامت را براي دلالت بر چند حرف مختلف استعمال مي‌كنيم مانند "و" كه پنج مورد نوشتن دارد يكي براي بيان ضمه در كلمات "خوش" و "تو". ديگر بيان مصوت ممدود يا "واو ماقبل مضموم" مانند "شور" و "او". سوم بيان حرف صامت "واو" در كلماتي چون "آواز" و "والي" و "عفو" . چهارم بيان حرف مصوت مركبي كه در كلمات "نو" و "جوشن" و مانند آن‌هاست. پنجم حرفي كه در زبان كنوني خوانده نمي‌شود مانند "واو معدوله" در كلمات "خواهر" و "خواستن" و "واو" در كلمه "عمرو"[6]
4.حرف‌هايي هم هست كه در كلمات خاصي از نوشتن حذف مي‌شود مانند "الف" در كلمات "اسحق" و "اسمعيل" و "الله"
5.نقطه‌هايي متعدد در بالا و پائين حرف كه هم سبب دشواري و هم موجب اشتباه در خواندن مي‌شود. اهميت بيش از حد نقطه درخط فارسي هنگام تشخيص نوري كاراكترها[7] توليد اشكال اساسي مي‌كند. به عنوان مثال در نظر بگيريد كه تفاوت ‹ر› و ‹ز› و يا تفاوت ‹د› و ‹ذ› و يا تفاوت ‹ب› ‹ت› ‹ پ› ‹ث› فقط در نقطه است و چون نقطه جزء بسيار كوچكي است در اين امر مشكلات زيادي را فرا روي متخصصين قرار مي‌دهد. و يا كلمات زير را در نظر بگيريد كه با يك يا چند نقطه عوض مي‌شوند (بُر، بَر، پُر، پَر، تَر، پُز، پَز، بُز، تِز).
6. يك عيب ديگر هم كه براي خط فارسي ذكر كرده‌اند اين است كه از راست به چپ نوشته مي‌شود. و براي اين مورد دلايل مختلفي ذكر شده است از جمله عدم هماهنگي و ايجاد مشكل در نوشتن متون رياضي و شيمي و نت‌هاي موسيقي و دستورات شطرنج و اين‌ كه خط تصويري يعني علائم گرافيكي كه در كل جهان استفاده مي‌شود مانند علائم راهنمائي و رانندگي تماماً از چپ خوانده مي‌شوند.
7.پيوسته‌نويسي و جدا‌نويسي كلمات مركب كه در اكثر موارد به صورت سليقه‌اي عمل مي‌شود مانند تنوع استفاده از ‹مي› چسبان و غير چسبان و يا تنوع نحوه به كار بردن «علامت‌هاي جمع ‹ها، ان، جات› ، هم، هيچ، كه، (ضماير شخصي متصل مان، تان، شان)، شناسي، را، چه، چون، تر، ترين، بي (پيشوند نفي)، به، اي (نشانه ندا)، آن و اين» در كلمات به صورت پيوسته و يا جدا گانه: (آنچه ، آن چه)؛ (همچنانكه، همچنان‌كه) ؛ (جنابعالي، جناب‌عالي)؛ (هيچكس، هيچ‌كس)‏‎؛ (ميتواند، مي‌تواند)؛ (آن ها، آنها) در اين مورد كلماتي كه پيشوند و يا پسوند دارند نيز در شكل‌هاي مختلف نوشته مي‌شوند. برخي از كلمات در دو شكل متصل‌نويسي و منفصل‌نويسي به دو شكل مختلف ظاهر مي‌شوند، مانند «علاقمند و علاقه‌مند؛ انديشمند و انديشه‌مند». مصدرها و فعل‌هاي مركب و اسم‌هاي مشتق از آنها نيز به دو صورت متصل و منفصل نوشته مي‌شوند مانند «نگه‌داشتن و نگهداشتن». در جستجوي مطالب از اينترنت اين مورد توليد اشكال مي‌كند چنانكه جستجوي «هيچ‌كس» نتايج متفاوتي را با جستجوي «هيچكس» مي‌آورد و يا جستجوي «كتاب‌شناسي» و «كتابشناسي» در موتور جستجوي گوگل نتايج متفاوتي را ارائه مي‌كند. اين گونه كلمات با اين كه در خواندن متن اشكال كمي به وجود مي‌آورند و هر آشناي به زبان فارسي به راحتي مي‌تواند آن را بخواند اما در فن‌آوري امروزه و تجزيه و تحليل كلمات به كمك رايانه اشكال اساسي توليد مي‌كند و شايد اگر قاعده‌اي جامع و مانع براي آن وضع گردد، بتوان گفت بزرگ‌ترين مشكل خط فارسي حل شده است. منظور اين كه، براي مثال خواندن سه كلمه «بي‌حوصلگي، بيحوصلگي، بي‌حوصله‌گي» مشكلي ايجاد نمي‌كند. اما در محيط الكترونيكي و شبكه اينترنت براي بازيابي اين كلمه بايستي براي تمام اشكال اين كلمه، جستجو را انجام دهيم، البته اگر آگاهي از تمام اشكال نوشتاري آن داشته باشيم.آآ
8.سي و دو حرف الفباي فارسي همراه با چهار علامت مد، همزه، تنوين، تشديد به 130 شكل مختلف ظاهر مي‌شوند و تفاوت اين اشكال در اتوماسيون خط فارسي توليد اشكال مي‌كند. « تنوع و تعدد نويسگان، يادگيري زبان و خط فارسي را براي آموزگار و آموزنده دشوار و براي نوآموز توان‌فرسا مي‌سازد. تعداد زياد نويسگان در رابطه با اتوماسيون زبان توسط رايانه مشكلاتي در خصوص تعداد و ترتيب قرار گرفتن نويسگان در جداول كد ايجاد مي‌نمايد و طراحان كد در جاي دادن اين تعداد نويسه در جداول با مساله كمبود جا رو به رو هستند. هر چند كه مشكل جا با كد 16 بيتي حل شده است اما مسايل ديگري هم­چنان باقي مي‌مانند كه احتياج به برطرف شدن دارند»[8]
9. نوشتن ك و گ (كـ گـ ك گ گ ك) در اشكال مختلف نيز باعث سردرگمي و عدم جستجوي صحيح مي‌شود.
10. در اغلب اوقات يك فاصله اضافي معني متفاوتي و يا متضادي را مي‌دهد (مثل مادر ، ما در).
11. سه كرسي مختلف براي حرف‌هاي مختلف الفبا باعث مي شود كه در مقايسه با اكثر زبان‌ها تعداد سطرهاي هر صفحه به مراتب بيش‌تر گردد چون برخي حروف روي خط كرسي قرار مي‌گيرند و برخي پائين خط كرسي و برخي بالاي خط كرسي مثل (ا ب م )
12.از آنجائيكه حروف در نوشتن غالباً به صورت چسبيده و پيوسته نوشته مي‌شوند و اين امر تشخيص حرف به حرف نوشته به وسيله رايانه را، دچار مشكل مي‌كند.
13. در او. سي. آر. فارسي هم چنين اعداد نيز مشكل ساز هستند چنانچه صفر در فارسي يك نقطه كوچك است كه مي‌تواند رايانه را به اشتباه بياندازد و نيز اعداد 1 و 2 و 3 بسيار شبيه هم هستند و تفاوت‌شان در يك دندانه كوچك است.
14. تنوع املائي يا تنوع در رسم الخط بعضي از كلمات كه همه شكل‌هاي آن نيز درست است مانند( اتاق و اطاق) و يا (امپراتور و امپراطور). و كلماتي كه فقط يك شكل آنها صحيح مي‌باشد ولي شكل ناصحيح آن نيز زياد استفاده مي‌شود مانند «ذغال و زغال؛ خوشنود و خشنود». البته اين جداي از تنوع در مفهوم كلمات است كه در ديگر زبان‌ها نيز وجود دارد، يعني براي بعضي از مفاهيم ممكن است كلمات متنوعي استفاده بشود. مانند كامپيوتر و رايانه.
15. بكار بردن همزه درصورت‌هاي مختلف مانند (مساله، مسئله) ‍؛ (مسئول، مسوول)
16. استفاده از ‹ا› و ‹آ› به جاي يك­ديگر مانند (فرايند و فرآيند).
17. شكل‌هاي مختلف ضبط نام­هاي بيگانه در فارسي: ورود واژه‌هاي بيگانه معمولا از راه ورود پديده‌هاي فرهنگي نو در عرصه‌هاي مختلف فني ، علمي، اجتماعي، سياسي و هنري و .... و يا از طريق افراد دو زبانه انجام مي‌گيرد كه به قرض‌گيري زبان معروف است و كم و بيش در تمام زبان‌ها وجود دارد. واژه‌هاي بيگانه اغلب براي پر كردن خلاء واژه‌هاي علمي و يا ارتباطي سودمند هستند، اما وجود آن‌ها مسائلي از قبيل چگونگي ضبط آن‌ها در زبان قرض‌گيرنده را به‌ وجود مي‌آورد. براي ضبط واژه‌هاي قرضي به سبب اختلاف فاحش نشانه‌هاي الفباي فارسي با نشانه‌هاي الفباي خارجي مشكلات جدي وجود دارد. از جمله اين كه الفباي فارسي آوانگار نيست و به همين جهت در ضبط دقيق تلفظ واژه‌هاي زبان فارسي نيز ناتوان است و اين ناتواني در ضبط واژه‌هاي بيگانه به مراتب بيش‌تر است و اين كه در مورد برگردان اسامي خارجي به خط فارسي قاعده خاصي وجود ندارد و هر كس بنا بر سليقه و ذوق خود اين كار را انجام مي‌دهد كه در نتيجه يك كلمه واحد به صورت‌هاي مختلف نوشته مي‌شود. براي مثال (اتومبيل و اتوموبيل)؛ (كلسيم، كلسيوم، كالسيوم) و يا اسم Franklin به صورت (فرانكلين، فرانكلن، فرنكلين، فرنكلن) ضبط شده است. خانم صديق بهزادي اين مشكلات را به سه دسته تقسيم كرده است: ” 1- نام‌هايي كه در برگردان آن‌ها هم‌خوان‌ها ايجاد مشكل مي‌كنند. 2 – نام‌هايي كه در برگردان آن‌ها واكه‌هاي ساده مشكلاتي را به‌ وجود مي‌آورند . 3 – و سوم نام‌هايي كه در برگردان آن‌ها مشكل اصلي مربوط به واژه‌هاي مركب است[9].
18.استفاده يا عدم استفاده از ‹ي› در كلمات مختوم به ‹الف › مانند (موسي و موسا).
19.استفاده يا عدم استفاده از ‹ء› براي كلمات مختوم به هاي بيان حركت در حالت مضاف مانند (خانه مسكوني و خانهء مسكوني و يا خانه‌ي مسكوني).
20.استفاده يا عدم استفاده از اعراب براي كلمات.
21.انواع مختلف جمع براي يك واژه مفرد: به عنوان مثال جمع بستن يك واژه با علايم جمع فارسي وعلايم جمع عربي و نيز جمع بستن بي قاعده (جمع مكسر)، استفاده ازجمع جمع، مانند (معلم، معلمين، معلمان، معلم‌ها).
22.تنوين‌هاي زبان عربي نيز از جمله دشواري‌هاي رعايت اصل هم‌خواني نوشتاري و گفتاري هستند.
23.در نگارش ياء وحدت يا نكره در آخر كلماتي كه به هاء مختفي يا غير ملفوظ ختم مي‌شوند سه نوع املاء‌ ديده مي‌شود. (خانه‌اي، خانه‌يي، خانة).
24.كلمه‌هاي عربي در شكل‌هاي گوناگون در زبان فارسي نوشته مي‌شوند. (مبدا، مبداء)؛ (ابتدا، ابتداء)؛ (نسبتاً، نسبته، نسبتا) و ....
25.ناتواني خط فارسي در نشان دادن تلفظ واژه‌هاي ايران باستان و ميانه و گويش‌ها و لهجه‌هاي ايراني و واژه‌هاي بيگانه حتي با نشانه‌ها.
26.وجود دندانه‌هاي متعدد دركلمات خواندن كلمات و به خصوص در او.سي.آر. فارسي ايجاد اشكال مي‌كند مانند كلمات: نشستن و استشهاد.
27. حروف فارسي غالباً مشابه‌اند و با اندگي غفلت به جاي هم نوشته مي‌شوند و مطلب را به كلي دگرگون مي‌كنند مانند (در، رد، ور).


 زبان و خط فارسي در اينترنت :
حجم اطلاعات به زبان فارسي در روي اينترنت در اشكال مختلف آن به سرعت رشد كرده است. در حال حاضر توسعه وبلاگ‌هاي فارسي و سايت‌هاي علمي و تبليغاتي و دانشگاهي به زبان فارسي باعث شده است كه جايگاه زبان فارسي تا حد زبان اول ارتباطات اينترنتي نزد ايرانيان و فارسي‌زبانان در سراسر جهان ارتقا يابد. شايد بتوان گفت كه اولين مرجع وبلاگ‌نويسي فارسي با انتشار راهنماي ساخت وبلاگ فارسي آغازشده است. بدون شك دومين موج نيز با شروع به كار سايت پرشين بلاگ كه امكان راه‌اندازي وبلاگ براي كاربران فارسي زبان را با سهولت بيش‌تري فراهم مي‌كند آغاز شده است. اما پيامد قابل توجه ديگري كه رشد وبلاگ‌نويسي در ايران داشته است پيدايش سايت‌هاي اينترنتي فارسي زباني است كه صاحبان وبلاگ‌ها ايجاد كرده‌اند و اين خود موج جديدي از گسترش كاربرد اينترنت در جامعه ايران به حساب مي‌آيد. اكنون روي آوردن برخي از روزنامه‌نگاران ، پژوهش­گران، دانشجويان و .... به وب فارسي و استفاده از منابع خبري و علمي و .... آن موجب تقويت نقش رسانه‌اي وب فارسي شده است.
پديده ديگري كه باعث گسترش زبان و خط فارسي در اينترنت شده است ايجاد كتابخانه‌هاي ديجيتالي فارسي در شبكه جهاني است، با اين كه از شكل‌گيري كتابخانه‌هاي فارسي در شبكه جهاني مدت زيادي نمي‌گذرد با اين حال به سرعت در حال رشد و گسترش است. شماري از اين كتابخانه‌ها در پايگاه‌هاي اينترنتي شكل گرفته‌اند و بسياري وبلاگ‌هايي هستند كه براي اين‌ كار راه‌اندازي شده‌اند. از ويژگي‌هاي اين‌ كتابخانه‌ها اين است كه هيچ‌ يك جنبه تجاري ندارند و نيز به جز عده معدودي اكثر كتابخانه‌ها كوشيده‌اند جانب بي‌طرفي را رعايت كرده و از اعمال سليقه شخصي پرهيز كنند. آنچه در بسياري از كتابخانه‌هاي مجازي فارسي در دسترس است تنها شامل كتاب نيست بلكه نوشته‌هايي اعم از داستان ، مقاله، تك نگاشت و .... نيز در ميان مجموعه‌ها ديده مي‌شود. هم چنين است آثاري كه احتمالاً هيچ گاه چاپ كاغذي ندارند و البته وجود كتاب‌هايي كه مدت‌هاست ناياب‌اند و مجال انتشار دوباره نيافته‌اند و يا آثاري كه امروز به دلايلي بازچاپ آن‌ها مقدور نيست از جاذبه‌هاي كتابخانه‌هاي مجازي‌اند. در اينجا شماري از اين كتابخانه‌ها ذكر مي‌شوند: پايگاه اينترنتي كتاب‌هاي رايگان فارسي، پايگاه اينترنتي باني تك، كتابخانه مجازي داستان‌هاي فارسي، آواي آزاد، پايگاه اينترنتي خوابگرد، كتابخانه دوات، پايگاه اينترنتي سخن، وبلاگ كتابخانه هرمس، پايگاه اينترنتي گفتمان، پايگاه تاريخ و فرهنگ ايران زمين،‌پايگاه مركز جهاني اطلاع‌رساني آل البيت، كتابخانه پايگاه اينترنتي حوزه، پايگاه اينترنتي امام علي (ع)، پايگاه اينترنتي كتابخانه ديجيتال و .... كه لازم به ذكر است غلبه با كتاب‌هاي دو حوزه ادبيات و دين است.[10] 
كاربران به دلايل مختلفي از قبيل" دسترسي آسان و ارزان به حجم عظيم اطلاعات ، عدم نياز اطلاعات يافته شده از اينترنت به تايپ مجدد ، دسترسي سريع و اطلاعات جديد، صرفه‌جويي در وقت و مهم‌ترين دليل، عدم تسلط اكثر كاربران به زبان انگليسي "كه زبان غالب بر اينترنت است" به دنبال اطلاعات فارسي از اينترنت هستند. گسترش زبان و انبوهي از نوشتارها ايجاب مي‌كند كه خط ضابطه داشته باشد و از سوي ديگر پيشرفت فن‌آوري و پيدايش اينترنت خواستار ضابطه و قانونمندي است. اطلاع‌رساني كه جنبه بين­الملي پيدا كرده است بدون دستورِ خطي سامان يافته و نظام‌مند ميسر نيست و دست‌كم دشواري‌ها مي‌آفريند. در حال حاضر وبلاگ­هاي فارسي مقام دوم يا سوم را در جهان دارا مي­باشد. به نظر دكتر آشوري“ اگر زبان فارسي به همين صورت بي­دقت در اينترنت به كار رود در سطح زباني براي تفنن باقي خواهد ماند و كم­تر حرفي جدي به اين زبان زده خواهد شد. آينده زبان فارسي در اينترنت بستگي به اين دارد كه نويسندگان فارسي تا چه حد كار خود را جدي بگيرند و اين زبان را بازسازي كنند كه از لحاظ قدرت بيان و دقت مفاهيم و استواري ساختار دستوري به زبان انگليسي نزديك شود“.[11]
نبود استاندارد ثابت رسم الخط فارسي موجب اين شده است كه به تعداد صفحات وب فارسي سبك و سياق نگارش به كار رفته باشد لكن مي‌توان چنين ارزيابي نمود كه اكثر وب‌هاي فارسي در برخي خصوصيات مشترك مي‌باشند از جمله اين كه نگارش برخي از آن‌ها زبان غير رسمي و محاوره‌اي مي‌باشد و به خصوص در متون علمي اغلب واژه‌هاي بيگانه به دفعات استفاده مي‌شود. رسم­الخط مورد استفاده نيز متفاوت و سليقه‌اي است و برخي از آن‌ها غلط‌هاي تايپي و نگارشي فراواني دارند و اين خصوصيات، اغلب به جهت محدوديت‌هاي محيط الكترونيكي و عدم تطابق رسم الخط فارسي با آن مي‌باشد كه نمايه‌سازي و سپس جستجو به اين زبان را با دشواري‌هايي رو به رو مي‌سازد.
با توجه به اين نكته كه اطلاعات ارزشمند فراواني در اينترنت وجود دارد و اينترنت با شتابي فراوان به يك منبع اطلاعاتي ممتاز تبديل شده است. موتورهاي جستجو به عنوان يكي از اساسي­ترين دروازه­هاي ورود به منابع اينترنتي داراي ضعف­هايي هستند. كه مي­توان به اين موارد اشاره كرد:
- در يك مجموعه از يافته­هاي بازيابي شده مدخل­هاي تكراري فراواني ملاحظه مي­شود.
- نتايج غير قابل پيش­بيني هستند.
- نتايج چه بسا گمراه كننده باشند: ممكن است جستجويي در يك موتور كاوش نتيجه­اي نداشته، ولي در موتور ديگر داراي يافته­هاي فراوان باشد.
- موتورهاي كاوش محتويات پايگاه­هاي اطلاعاتي خودشان را نشان نمي­دهند و از معيارهايي كه براي گنجاندن يك مدرك در فايل­هايشان دارند حتي شرحي ارائه نمي­كنند.
- مهار واژگاني وجود ندارد و قواعد نقطه­گذاري و بزرگ­نويسي نيز استاندارد نيست.
- بدون بررسي عملي هر عنصر، اغلب نمي­توان ميزان ربط و رابطه­ها را تحليل كرد. يعني اطلاعات كافي در مدخل نمايه نيست تا فرد بتواند دست به انتخاب بزند.[12]
- عدم توان موتورهاي جستجو در تمايز ميان مداركي كه توسط فرد الف نوشته شده و مداركي كه در باره فرد الف نوشته شده است.
- منابع قابل توجهي در شبكه وب وجود دارند كه توسط موتورهاي جستجو نمايه نمي­شوند. به اين بخش از وب اصطلاحاً وب نامرئي مي­گويند. "وب نامرئي بخش بزرگي از وب است كه موتورهاي جستجو آن­ها را نمايه نمي­كنند يا نمي­توانند نمايه كنند و عبارتند از: سايت­هاي داراي رمز عبور، فايل­هاي پي. ­دي­. اف از متون آرشيو شده، ابزارهاي تعاملي نظير ماشين حساب­ها و برخي از واژه­نامه­ها و همچنين بعضي از پايگاه­هاي اطلاعاتي، منابع محافظت شده از طريق اسم كاربر و گذرواژه، منابع و صفحات وب بدون پيوند و صفحات افزون بر حداكثر تعداد صفحات قابل مرور"[13].
جستجوي اطلاعات در اينترنت به دو روش مي‌تواند صورت گيرد يكي استفاده از جملات زبان محاوره‌اي است و ديگري بكارگيري كلمات كليدي. در روش استفاده از جملات زبان محاوره‌اي كه اغلب به كاربران تازه‌كار پيشنهاد مي‌گردد، مورد سوال خود را در قالب يك جمله سوالي مطرح مي‌سازند. ­يكي از عيب‌هاي بزرگ اين روش تعداد نتايج جستجوي زيادي است كه بازگردانده مي‌شود. به همين دليل اين روش توسط كاربران حرفه‌اي و حتي توسط همه، كم­تر استفاده مي‌شود. اما چنانچه از اين روش استفاده بشود بايستي سعي در انتخاب بهترين نوع جمله بشود و توصيه مي‌شود در انتخاب يك يك كلمات لحظه‌اي درنگ نموده و با ظرافت خاصي جمله نهايي را مطرح نمود.
يكي از كاراترين و مقتدرترين روش­هاي جستجوي اطلاعات در دنياي وب استفاده از واژه‌هايي است كه اصطلاحاً كلمات كليدي ناميده مي‌شوند. اغلب كاربران حرفه‌اي و جستجوگران ورزيده دنياي اينترنت مي‌توانند با طرح بهترين كلمات كليدي و بكار بستن قوانين تركيب آن‌ها با هم براي نيازهاي اطلاعاتي خود پاسخي در خور بيابند. در اين روش توصيه‌هاي زير براي انتخاب كلمات كليدي و نيزجستجوي دقيق و مفيد پيشنهاد مي‌شود:
 1- حتي‌المقدور سعي شود كلمات كليدي از ميان اصطلاحات منحصر به فرد و اسامي خاص انتخاب بشود.
2- حتي‌المقدور از آوردن كلمات عمومي كه عناوين بسياري را در زير مجموعه خود شامل مي‌شوند جداً خودداري كنيد.
3 – هميشه اسم شخص يا نام شي يا هر چيز ديگري را كه مد نظر داريد بطور كامل وارد كنيد.
 4 – دقت كنيد كه اگر موتور جستجو ميان حروف بزرگ و كوچك تفاوتي مي‌گذارد، اين مسئله را در طرح كلمات كليدي خود مد نظر داشته باشيد.
 5 – در نظر داشته باشيد اگر نتيجه جستجو صفر بود به احتمال زياد مي‌تواند از يك اشتباه تايپي باشد.
 6 – اگر املاي صحيح و كامل كلمه‌اي را نمي‌دانيد از كاركتر جانشين كه اغلب * و يا ؟ است استفاده كنيد.
 7 – اگر يك كلمه كليدي را براي طرح دقيق و تمام و كمال يك مورد جستجو كفايت نمي‌كند از تكنيك‌هاي جستجوي عبارتي، استفاده از اپراتورهاي جبر بولين (AND, OR, NOT) استفاده كنيد. جستجوي عبارتي يكي از مهم‌ترين و قدرتمندترين امكانات جستجو در اغلب موتورهاي جستجو مي‌باشد و مي‌توان يك عبارت يا جمله مشخص را به همان ترتيبي كه كلمات وارد شده‌اند مورد جستجو قرار داد. براي اين روش جستجو عبارت مورد نظر را داخل گيومه"" بگذاريد
8 - استفاده از عملگر AND : and به مفهوم "و" براي محدود كردن دامنه جستجو از طريق تركيب كليدواژه‌هاي مختلف به كار مي‌رود و براي تركيب كليدهاي جستجو زماني‌كه براي شما مهم است كه دو يا چند كلمه كليدي حتماً وجود داشته باشد و علامت آن در پايگاه‌هاي مختلف به صورت استفاده از عبارت and ،استفاده از + ، انتخاب عبارت all the word از منو، انتخاب عبارت match on all words (and) بوسيله كليك كردن بر روي دكمه‌هاي راديويي مي‌باشد.
9 – استفاده از عملگر OR: اپراتور OR به مفهوم "يا" و برخلاف عملگر AND باعث گسترش دامنه جستجو و بازيابي اطلاعات بيش‌تر شده براي تركيب كليدواژه‌هاي جستجو زماني كه انتظار داريد تنها يك، دو يا چند كلمه كليدي حضور داشته باشند و علامت آن استفاده از عبارت or، نحوه اجراي ساده و معمولي آن، انتخاب عبارت any of the words از منو، انتخاب عبارت match on any words (or) با كليك بر روي دكمه هاي راديويي مي‌باشد. يكي از كاربردهاي مهم اين عملگر پوشش مفاهيم يا اصطلاحات مترادف، مرتبط، يا با املاهاي متفاوت مي‌باشد.
10 – استفاده از عملگر NOT : اپراتور Not به مفهوم "نه" و يا به جز كه در اين صورت تمامي جواب‌هاي بازگشتي كه حاوي عبارت يا كلمه كليدي هستند حذف خواهند گرديد و براي اجراي آن تنها كافيست كه not را قبل از عبارت يا كلمه كليدي مورد نظرتان با يك فاصله بياوريد.
11 – استفاده از كوتاه‌سازي [14]كليد واژه‌ها: اين تكنيك به ما امكان مي‌دهد كه با وارد كردن بخشي از يك كليدواژه بتوانيم مشتقات مختلف آن را نيز در فرآيند جستجو بازيابي كنيم. اكثر موتورهاي جستجو اين تكنيك را با استفاده از علامت ستاره (*) ارائه مي‌دهند. يكي از مشكلات استفاده از اين تكنيك اين است كه باعث بازيابي اطلاعات غيرمرتبط و ناخواسته زيادي مي‌شود.
12 – استفاده از عملگر نزديك‌يابي[15]: در بسياري از موارد استفاده از عملگر and باعث بازيابي اطلاعاتي شود كه براي ما مفيد نمي‌باشد، به اين دليل كه اين عملگر كليدواژه‌ها را در هر كجاي متن كه باشند بازيابي مي‌كند. در اين موارد استفاده از تكنيك نزديك‌يابي مي‌تواند از ريزش كاذب اطلاعات و يا بازيابي اطلاعات غير مرتبط جلوگيري نمايد. همه موتورهاي جستجو قابليت استفاده از اين تكنيك را ندارند ولي به عنوان مثال در موتور جستجوي آلتاويستا مي‌توان با استفاده از عملگر NEAR از اين تكنيك استفاده نمود.
13 – جستجوي تركيبي با استفاده از پرانتز: اين تكنيك يكي از مهم‌ترين تكنيك‌هاي جستجو مي‌باشد كه به وسيله آن مي‌توان تا حدود زيادي از بازيابي موارد غير مرتبط در محيط وب جلوگيري كرد. در اين روش مي‌توان از همه عملگرهاي جستجو كه در بالا گفته شده يك‌جا استفاده كرد و آن‌ها را با هم‌ديگر تركيب نمود.
14 – جستجوي كليدواژه در عنوان صفحات وب: اين تكنيك با اين پيش فرض كه عنوان يك صفحه وب تا حدود زيادي نمايان‌گر محتواي اطلاعات موجود در آن است به جستجوي واژه‌هاي كليدي در عنوان سايت‌ها مي‌پردازد. علامت آن در موتورهاي جستجو متفاوت است ولي اغلب موتورهاي جستجو از طريق فهرست انتخابي و يا گزينه‌هاي ديگر اين امكان را فراهم مي‌آورند.
15 – جستجوي حوزه سايت‌ها: با توجه به اين‌ كه به صورت قراردادي هر كشوري حوزه خاصي در محيط وب دارد، قابليت جستجوي حوزه سايت‌ها به ما اين امكان را مي‌دهد كه فرايند جستجو را به حوزه خاصي نظير سايت‌هاي وب ايران (ir) و يا سايت‌هاي وب سازمان‌هاي غير انتفاعي (org) محدود كنيم. دستورات استفاده از اين تكنيك در موتورهاي جستجو مختلف مي‌باشد.
16 – محدود كردن جستجو به زبان‌هاي مختلف؛ باعث مي‌شود نتايج جستجو به زبان‌هاي ديگر آورده نشود و انتخاب مطلب مورد نظر آسان‌تر است.
17 – محدود كردن جستجو به تاريخ انتشار منابع در وب: تاريخ انتشار يا به اصطلاح روزآمدي مطلب به خصوص در منابع علمي اصل مهمي است و اين‌گونه محدوديت باعث مي‌شود بنا به نياز كاربر جديدترين و يا قديمي‌ترين منبع بازيابي بشود.
18 – جستجوي رسانه‌هاي مختلف: موسيقي، عكس، ويدئو : زماني‌ كه فقط نوع خاصي از رسانه مورد نياز است به عنوان مثال زماني كه به عكس يك شخصيت نياز داريم، جستجو در ميان عكس‌ها باعث مي‌شود نتيجه جستجو شامل اطلاعات ديگري در مورد آن شخصيت نباشد.
19 – جستجوي صفحات با فرمت‌هاي مختلف: PDF, Word, MP3, MPEG, ….: زماني كه فرمت خاصي مورد نظر است مي‌توان از اين تكنيك استفاده كرد . به عنوان مثال اگر مايل باشيم منبع بازيابي شده در فرمت PDF باشد، اين تكنيك مي‌تواند مفيد باشد.
20 – آگاهي از پيش‌فرض‌هاي جستجو در موتور جستجو: با توجه به اين كه هر موتور جستجو براي تركيب واژه‌ها يك پيش‌فرض دارد و اگر از هيچ گونه عملگري استفاده نشود، كليدواژه‌ها را به صورت پيش‌فرض با يكي از عملگرهاي جبر بولي تركيب مي‌كند؛ آگاهي از اين پيش‌فرض‌ موتورهاي جستجوي مختلف مهارت ما را در جستجو بالا مي‌برد.
21 – وب نامرئي: وب نامرئي به دو دليل كمّي و كيفي اهميت دارد كمّي از اين نظر كه موتورهاي جستجو فقط قادر هستند حدود 16 درصد از اطلاعات موجود دراينترنت را بازيابي كنند و اندازه وب نامرئي تقريبا 500 برابر وب مرئي است و كيفي از اين نظر كه منابع اطلاعاتي موجود در وب عميق معمولا ارزشمند و مفيد هستند و در بسياري از موارد پاسخ­گوي نياز كاربران مي­باشند. آشنايي با ابزارهايي كه براي شناسايي منابع وب نامرئي به وجود آمده­اند و كاربران را به سايت­هاي مناسب راهنمايي مي­كنند، باعث دسترسي به اين بخش عظيم از اطلاعات مفيد و ارزشمند مي­شود. مثل سايت Invisibleweb كه فهرستي از منابع نامرئي را و سايت Completeplaset كه فهرستي از تقريبا 40000 پايگاه اطلاعاتي وب نامرئي را ارائه مي­دهد.[16]


 راهبرد جستجو در اينترنت
 جستجو عبارت از جستجو در منابعي مشخص با استفاده از كليدواژه‌ها و عبارت‌هاي خاص در حوزه‌هاي موضوعي ويژه است. طراحي نظام‌مند مراحل انجام يك جستجو را راهبرد جستجو مي‌گويند به نظر پائو «راهبرد جستجو عبارت است از فرايندي كه از طريق آن فايلي مورد جستجو قرار مي‌گيرد تا مدارك متناسب با نياز كاربر شناسايي شود. اين مدارك بر اساس مجموعه‌اي از معيارهايي كه شخص متقاضي مطرح مي‌كند بازيابي مي‌شود»[17] هر فرايند جستجو مي‌تواند به مراحل ارائه درخواست دقيق، انتخاب منابع اطلاعاتي مناسب، آماده كردن جستجو و اجراي جستجو تقسيم شود. بر خلاف منابع نمايه‌سازي شده در پايگاه‌هاي اطلاعاتي كتاب‌شناختي؛ مدارك در اينترنت از طريق واژگان كنترل شده قابل بازيابي نيستند. بنابراين جستجوگر براي بازيابي بايد بر فنون خاص اينترنت متكي باشد. نخست آگاهي از ابزارهاي مختلف جستجو در اينترنت و در ادامه انتخاب يكي از اين ابزار براي جستجوي اطلاعات مورد نياز مي‌باشد. هزاران موتور جستجو،‌ صدها ابرموتور جستجو و راهنماهاي موضوعي وب و پايگاه‌هاي تخصصي وجود دارد و انتخاب درست ابزار جستجو در ابتداي كار جستجو مي‌تواند يك جستجوي موفق را باعث گردد. در زير چند معيار براي انتخاب ابزار جستجو آورده مي‌شود:
- اگر در جستجوي اطلاعات خاصي باشيد بهتر است از موتورهاي جستجو استفاده كنيد.
- اگر در جستجوي يك واژه مبهم يا منحصر به فرد هستيد از ابرموتورهاي جستجو استفاده نمائيد.
- اگر در جستجوي اطلاعات عمومي روي موضوعات عام هستيد از راهنماهاي موضوعي وب استفاده كنيد.
- اگر در حال جستجوي اطلاعات علمي هستيد از كتابخانه‌هاي مجازي استفاده كنيد.
- اگر در جستجوي آخرين اطلاعات يا براي تغيير پوياي فهرست مطالب، آخرين خبرها، راهنماهاي دفتر تلفن، دسترسي به زمان پروازهاي هوايي و غيره هستيد از پايگاه‌هاي تخصصي استفاده كنيد.[18]
 براي جستجوي اطلاعات از اينترنت چهار شيوه وجود دارد شيوه نخست دسترسي به اطلاعات از طريق نشاني پايگاه اطلاعاتي مورد نظر بر روي اينترنت (URL) است، كه در اين صورت نشاني پايگاه اطلاعاتي در سطر نشاني برنامه مرورگر وب تايپ مي‌شود و برنامه مرورگر وب مراجعه كننده را به وب سايت آن نشاني هدايت خواهد كرد. اما اگر فقط يك حرف يا علائم نقطه‌گذاري از قلم بيفتد، برنامه مرورگر نخواهد توانست آن پايگاه را باز نمايد. روش دوم دنبال کردن لينک‌های موجود در صفحات وب است که کاربران را از صفحه‌ای به صفحه ديگر هدايت می‌کند. اين سهولت دسترسی به منابع در وب از امتيازات بزرگ آن است و برای کاربران امکان مرور سريع و آسان در منابع مختلف را فراهم می‌کند. روش سوم بازيابی گزينشی اطلاعات است که در آن در واقع به جای آنکه کاربران شخصا در جستجوی اطلاعات مورد نظر باشند، موضوعات مورد نياز خود را به سيستم­های بازيابی گزينشی می‌سپارند و سپس در طول زمان، اطلاعات دريافتی جديد توسط سيستم برای آنها به طور خودکار ارسال خواهد شد.
 چهارمين روش که در واقع معمول‌ترين و متداول‌ترين راه بازيابی اطلاعات در وب است استفاده از موتورهاي جستجو است. هنگام جستجو بايد دقت كرد كه موتور جستجو به طور معمول هوش‌مند نيست و معمولاً به دنبال كليه كليدواژه‌هايي كه شما به دستگاه داده‌ايد بدون توجه به معناي آن‌ها مي‌گردد.


نكات كليدي جستجو به زبان فارسي
 براي جستجوي مطالب فارسي طبق گفته‌هاي پيشين چنانچه آدرس سايت به خصوصي كه در زمينه موضوعي مورد نظر ما فعاليت مي‌كند را داشته باشيم؛ مي‌توان مستقيماً به آن سايت رفته و از مطالب آن استفاده نمود. به عنوان مثال سايت تخصصي برنامه‌نويس مطالب مفيدي در زمينه رايانه و علوم وابسته، به ما ارائه مي‌دهد و يا سايت عمران در زمينه موضوعي عمران فعاليت مي‌نمايد و نيز سايت‌هاي انجمن رياضي در زمينه رياضي، سايت انجمن فيزيك ايران در زمينه فيزيك، سايت انجمن روان­شناسي ايران در زمينه روان­شناسي و علوم تربيتي فعاليت مي‌نمايند، مركز اطلاعات و مدارك علمي ايران با دارا بودن پايگاه‌هاي اطلاعاتي مختلف مخصوصا پايگاه پايان‌نامه‌ها مي‌تواند مورد استفاده متخصصين تمام رشته‌ها گردد. ولي چنان­چه امكان استفاده از اين سايت‌ها نباشد و يا آدرس اين سايت‌ها را نداشته باشيم بايستي مطلب مورد نظر خود را بوسيله يكي از موتورهاي جستجو پيدا بكنيم.
 انتخاب موتور جستجو عامل مهمي در فرايند جستجو است. در حال حاضر ابزارهاي كاوش مختلفي در ايران ظهور پيدا كرده­اند. ليكن ابزارهاي جستجويي كه امكان جستجوي اطلاعات به زبان فارسي را در اختيار قرار مي‌دهند، محدودند. از طرف ديگر، امكانات و قابليت‌هاي‌ آن‌ها براي بازيابي موثر و مناسب اطلاعات متغير هستند. برخي از ابزارهاي كاوش با امكانات جستجوي فارسي عبارتند از: ان.پي. ايرانNPiran ، ايران‌هوIranhoo ، ايران‌مهرIranMehre ، پارسيك Parseek ، گوگل Google.
در بين ابزارهاي كاوش فوق ، تنها موتور كاوش گوگل داراي برنامه روبات به منظور شناسايي و نمايه­سازي صفحات يا سايت­هاي وب به زبان فارسي و نمايه­سازي خودكار مي­باشد و قادر است صفحات فارسي را در قالب يوني‌كد شناسايي و در پايگاه خود نمايه كند و سايت پارسيك نيز از پايگاه گوگل براي جستجو و بازيابي اطلاعات استفاده مي­كند. به تعبير ديگر، چهار ابزار كاوش ديگر توسط نمايه‌سازي انساني اداره مي‌شوند و از اين لحاظ راهنماي موضوعي تلقي مي‌شوند و انسان، فرآيند شناسايي، بررسي و نمايه‌سازي سايت‌ها يا صفحات وب را بر عهده دارد.[19]
معمولاً به جهت دامنه وسيع موضوعي و نيز صفحه به زبان فارسي گوگل اكثر كاربران از اين موتور جستجو استفاده مي‌نمايند. براي جستجوي بهتر توجه به نكات زير ضروري به نظر مي‌رسد:
- با تركيب چند واژه كليدي مهم خيلي سريع مي‌توانيم مطلب مورد نظر خود را بدست بياوريم.
- دقت در انتخاب كليد واژه‌ها به طوري‌كه واژه‌هاي انتخابي بطور دقيق نماينده نياز اطلاعاتي ما باشند كمك خواهد كرد تا از نتايج جستجوي گسترده‌اي كه در اكثر موارد بار اطلاعاتي مفيد ندارند دوري گزينيم.
- استفاده از تكنيك جستجوي عبارتي كه در آن عبارت جستجوي مورد نظر خود را داخل گيومه" " مي‌گذاريم و به اين ترتيب به موتور جستجو مي‌گوييم كه مطلب مورد نظر ما بايستي عين اين عبارت باشد، نيز در محدود كردن نتايج جستجو كمك فراوان مي‌كند.
- استفاده از انواع محدودگرهاي زباني، زماني، مكاني، شكلي، و موضوعي و ... در جستجوي پيشرفته گوگل به ما در رسيدن سريعتر به مطلب مورد نظر كمك فراواني مي‌كند.
- به علت اين كه منابع و اطلاعات موجود در اينترنت بوسيله افراد مختلف و بدون كنترل در شيوه‌هاي رسم‌الخط و بدون ويرايش صاحب‌نظران منتشر مي‌گردد آشنايي با گونه‌هاي مختلف نوشتاري و املاهاي مختلف يك واژه و يا يك مفهوم در زبان فارسي به ما كمك مي‌كند كه با جستجوي گونه‌هاي مختلف نوشتاري يك واژه يا يك مفهوم و استفاده از واژه‌هاي مترادف و متشابه و شكل‌هاي ديگر نوشتاري آن واژه و نيز استفاده از انواع شكل‌هاي جمع و مفرد يك واژه جامعيت جستجوي خود را بالا ببريم . به عنوان مثال براي جستجوي مطلبي در زمينه بتن بايستي آنرا به دو صورت «بتون» و « بتن» جستجو نمائيم تا به تمام مطالبي كه در زمينه بتن مي‌باشد دسترسي داشته باشيم و يا به عنوان مثال دوم براي جستجوي مطلبي در باره «آبگرمكن» براي دستيابي به همه اطلاعات موجود بايستي آن را به چهار شكل زير بنويسيم «آب گرم كن، آب گرمكن، آبگرم كن، آبگرمكن» واضح است كه هر كدام از اين كلمات نتايج متفاوتي را در موتور جستجو بدست مي‌دهد. «استاد، اساتيد، استادان، استادها» «آمريكا، امريكا» «ئيدروژن، هيدروژن» «آنلاين، پيوسته، درون خطي» از مثال­هاي ديگري هستند كه جستجو به تمام اين شكل‌ها جامعيت جستجوي ما را زياد مي‌كند و به ما در از دست ندادن مطالب مفيد كمك مي‌كند .
- با استفاده از عملگرهاي بولي، دقت جستجو را بالا برده و نتايج جستجوي كم و مفيدي را بدست بياوريم.
- مترادفات: با استفاده از شكل‌هاي مختلف مترادفات موجود براي يك مفهوم و هم چنين شبه مترادفات و يا حتي گاهي كلمات متضاد مثل بي‌سوادي و سوادآموزي در جستجو مي‌توان جامعيت جستجو را بالا برد.
- اسامي مشهور و اسامي علمي: آگاهي از شكل‌هاي مختلف اسامي علمي و مشهور عاميانه و اسامي تجاري يك پديده و يا وسيله و ... و استفاده از آن‌ها مي‌تواند جامعيت جستجو را بالا ببرد.
- با توجه به اين كه در اكثر وب‌ها از واژه خارجي يك كلمه به همان صورت و با همان الفبا استفاده مي‌شود استفاده از شكل خارجي اين لغات و واژه‌ها نيز مي‌تواند جامعيت جستجوي ما را بالاتر ببرد.
- با توجه به اين كه در برخي از سايت‌ها و نيز وبلاگ‌ها روش خاصي براي رفع مشكلات فارسي پيشنهاد كرده‌اند و واضح است كه خودشان نيز از آن رسم‌الخط استفاده مي‌كنند، آگاهي از اين شكل‌هاي مختلف و جستجو به اين شكل‌ها مي‌تواند باعث جامعيت جستجو گردد. از اين موارد مي‌توان به حذف واو معدوله در برخي سايت‌ها و وبلاگ‌ها اشاره كرد كه به عنوان مثال «خواهر» را به صورت «خاهر» مي‌نويسند و يا حذف تنوين در برخي منابع كه به عنوان مثال «عملاً» را به صورت «عملن» مي‌نويسند.
 در نهايت اين كه «در تشكيل صفحات وب فارسي ، جاي يك استاندارد حاكم بر عملكرد تاليف نويسندگان وب، خالي است. استانداردي كه انتخاب بعضي كلمات داراي چندين رسم‌الخط و حتي انتخاب بعضي كلمات كه بر مفاهيم متنوعي دلالت دارند را منحصر به فرد نمايد و مولفان را از طرفي ترغيب به انتخاب گونه زباني مناسب، براي تضمين كيفيت ارتباط و انتقال مؤثر پيام و از طرف ديگر موظف به حفظ سلامت زبان و رعايت استانداردهاي آن به‌عنوان يك وظيفه رسانه‌اي نمايد. ايجاد و گسترش چنين استانداردي به عهده "فرهنگستان زبان و ادب فارسي" و با هماهنگي انجمن‌ها و شوراهاي علمي يا صنفي انفورماتيك در ايران است. تعويق در تنظيم اين استاندارد ، با توجه به رشد روز افزون وب‌هاي فارسي زبان ، هزينه‌هاي جبران ناپذيري در بر خواهد داشت.»[20]


[1] بر گرفته از: محمد صابر راثي ساربانقلي. " بررسي مشكلات جستجو و بازيابي اطلاعات به زبان فارسي از اينترنت با مطالعه موردي بر روي كاربران مركز اينتــرنت دانشگاه آزاد اسلامي واحد شبـستـر" . پايان­نامه كارشناسي ارشد كتابداري و اطلاع­رساني، دانشگاه آزاد اسلامي، واحد تهران شمال، 1384
[2] كارشناس ارشد كتابداري و اطلاع­رساني دانشگاه آزاد اسلامي واحد شبستر

[3] accents

4 پرويز ناتل خانلري. زبان‌شناسي و زبان فارسي. (تهران: توس،1373). ص. 256
 
[5] مجتبي مينوي. مينوي بر گستره ادبيات فارسي، به كوشش ماه منير مينوي. (تهران: توس، 1380)، ص. 510
[6] واو معدوله واوي است كه در اين زمان عموماً نوشته مي‌شود ولي خوانده نمي‌شود، مانند خواهش. اما در زمان قديم آن را با كيفيت خاصي تلفظ مي‌كرده‌اند و چون در هنگام تلفظ ضمه به فتحه عدول مي‌كرده‌اند، آن را واو معدوله ناميده‌اند. هنوز در برخي از لهجه‌ها تلفظ آن به صورت قديم مانده است. پيش از واو معدوله هميشه حرف «خ» و پس از آن يكي از حروف «د.ر.ز.س.ش.ن.و.هـ.ي» آمده است.
[7] OCR= Optical Character Reader فرايندي كه در طي آن يك وسيله الكترونيكي كاراكترهاي چاپ شده بر روي كاغذ را آزمايش مي‌كند و شكل آن­ها را با بررسي الگوهاي تيره و روشن تعيين مي‌كند. پس از تعيين اَشكال توسط اسكنر يا وسيله مورد استفاده براي خواندن، روش‌هاي تشخيص نوري كاراكترها براي تبديل اشكال به متون كامپيوتري مورد استفاده قرار مي‌گيرند. (فرهنگ تشريحي اصطلاحات كامپيوتري ميكروسافت. مترجم فرهاد قلي­زاده نوري. ‌‌‌‍[تهران: كانون نشر علوم، 1379]، ص. 445
[8] محمدصادق محقق زاده، كاظم زارعيان. "ارائه راه حل براي برخي مسائل اتوماسيون و نگارش فارسي" فصلنامه اطلاع‌رساني. (دوره 19، شمارهء 3 و 4) ص.

[9] ماندانا صديق بهزادي. "ناهماهنگي ضبط نام‌هاي بيگانه در فارسي" . فرهنگ (كتاب سيزدهم، زمستان 1371) ص.103- 116
[10] مجيد رهباني. "قند پارسي در شبكه جهاني:‌ كتاب‌هاي ديجيتال و كتابخانه‌هاي مجازي فارسي در اينترنت. "جهان كتاب، (183) ص.
[11] "تابوي اصلاح خط". جام جم. (4 بهمن 1383)
[12] براندا پاريس سيبلي. " فهرست­نويسي منابع اينترنت: سازماندهي وب در كتابخانه­هاي محلي و غير آن" ترجمه محسن حاجي زين العابديني .فصلنامه اطلاع­ رساني (دوره 16، شماره 3 و 4) ص. 1
[13] عبدالرسول خسروي. " وب نامرئي" فصلنامه اطلاع­رساني (دوره 20، شماره 1 و 2) ص. 53

[14] Truncation
[15] Proximity search

[16] عبدالرسول خسروي. " وب نامرئي" فصلنامه اطلاع­رساني (دوره 20، شماره 1 و 2) ص. 54
[17] ميرندا لي پائو. مفاهيم بازيابي اطلاعات. ترجمه اسدالله آزاد و رحمت الله فتاحي. (مشهد: دانشگاه فردوسي. 1378) ص. 314
[18] دانيل بازاك. "جستجوي وب بطور كارآمدتر: رهنمودها،‌ فنون و راهبردها". مترجمين مريم اسدي، اكرم اسدي. مجله الكترونيكي مركز اطلاعات و مدارك علمي ايران. شماره چهارم دوره دوم
[19] كيوان كوشا. "معيارهاي‌ ارزيابي‌ ابزارهاي‌ كاوش‌ اينترنت‌: مطالعه‌ مقايسه‌اي‌بر روي‌ ابزارهاي‌ كاوش وب با واسط جستجوي فارسي" . مجله الكترونيكي كتابدار.
 
[20] محسن صديقي، كامران زماني­فر. " روشي براي رفع چالشهاي محتوا كاوي وب‌هاي فارسي زبان"مجله الكترونيكي مركز اطلاعات و مدارك علمي

Post Scriptum :

منابع و مآخذ 1- آزادي، قاسم." اينترنت: سازمان­دهي و جستجو" . ابرار اقتصادي. 14. 2- ابوالقاسمي، محسن. تاريخ زبان فارسي. تهران: سمت، 1380. 3- احمدي فصيح، صديقه، "آشنايي با شبكه جهاني وب". فصلنامه اطلاع‌رساني، دوره 18، شماره 1 و 2. 4- اديب سلطاني، مير شمس الدين. راهنماي آماده ساختن كتاب: براي مولفان، مترجمان، ويراستاران، رسانه‌گران، كتابداران ....تهران، علمي و فرهنگي، 1381. 5- ------------ درآمدي بر چگونگي شيوه‌ي خط فارسي. تهران: اميركبير، 1378. 6- اشرف‌زاده ، بهرام. "زبان فارسي در وبلاگ‌هاي فارسي".

http://www.persianfarsi.com/articles/zabaneweblog.htm

7- بازاك، دانيل، "جستجوي وب بطور كارآمدتر:‌ رهنمودها، فنون و راهبردها" . مترجمين مريم اسدي، اكرم اسدي،

http://www.irandoc.ac.ir/data/E_J/vol2/Search_Web.htm

8- باقري، مهري. تاريخ زبان فارسي. تهران: قطره، 1378. 9- بهار، محمدتقي. سبك شناسي يا تاريخ تطور نثر فارسي. تهران: اميركبير، 1370. 10- پائو، ميراندا لي. مفاهيم بازيابي اطلاعات. ترجمه اسدالله آزاد و رحمت الله فتاحي. مشهد: دانشگاه فردوسي، 1378. 11- "تابوي اصلاح خط". جام جم، 4 بهمن 1383. 12- خانلري، پرويز. زبان شناسي و زبان فارسي. تهران: توس، 1373. 13- خسروي، عبدالرسول. "وب نامرئي". فصلنامه اطلاع‌رساني، دوره 20، شماره 1 و 2. 14- خلخالي، نازيلا، بررسي علمي شيوه‌ي خط فارسي. تهران: ققنوس، 1375. 15- خوانساري، جيران. ”تكامل وب و مقايسه ابزارهاي جستجو در اينترنت". فصلنامه اطلاع‌رساني، دوره 16، شماره 3 و 4. 16- داورپناه، محمد رضا. جستجوي اطلاعات علمي و پژوهشي در منابع چاپي و الكترونيكي؛ شامل حوزه هاي علوم، فني مهندسي ... .تهران: دبيزش، 1381. 17- دراگولانسكو، نيكلاي جورج. "ارزيابي كيفي وب سايت‌ها: ابزارها و معيارها". ترجمه غلام حيدري.

http://www.irandoc.ac.r/Data/E_J/vol4/haidari.htm

18- دشتي، افشين."بررسي سه پيشنهاد درشيوه نگارش خط فارسي حتا مثلن، خاهر". روزنامه شرق 10 تير 1383. 19- "دگرگونيهاي زبان و خط فارسي در محيط‌هاي رايانه‌اي: گفتگو با دكتر عاصي". پيام ارتباطات، 35. 20- "ده نكته براي جستجوي سريع درگوگل". دانشمند، 487. 21- رقابي، فرنوش؛ شريفي، شهرزاد." نگاهی به اينترنت و نقش آن در دستيابی به منابع رايگان پژوهش".

http://www.irandoc.ac.ir/data/E_J/vol3/sharfi_reghabi_2.htm

22- رهباني، مجيد. "قند پارسي در شبكه جهاني:‌ كتاب‌هاي ديجيتال و كتابخانه‌هاي مجازي فارسي در اينترنت". جهان كتاب، 183. 23- رئيسي، محمد رضا." OCR : آموزش الفباي فارسي به رايانه".

http://iranwsis.org/Default.asp?C=IRNW&R=&I=93

24- سيبلي، برندا پاريس." فهرست‌نويسي منابع اينترنت: سازمان­دهي وب در كتابخانه‌هاي محلي و غير آن". ترجمه محسن حاجي زين‌العابديني . فصلنامه اطلاع‌رساني، دوره 16، شماره 3 و 4. 25- صديق بهزادي، ماندانا، "ناهماهنگي‌هاي ضبط نام‌هاي بيگانه در فارسي". فرهنگ. كتاب سيزدهم، زمستان 1371. 26- صديقي، محسن، زماني‌فر، كامران. "روشي براي رفع چالشهاي محتواي كاوي وب‌هاي فارسي زبان".

http://www.irandoc.ac.ir/Data/E_J/vol4/shahidi.htm

27- طباطبايي، علاءالدين. "در دشواري‌هاي رايانه‌اي زبان فارسي". نشر دانش، 103. 28- عاصي، مصطفي. "نقش رايانه در ايجاد استانداردهاي زباني". فرهنگ. سال چهاردهم، شماره‌هاي اول – دوم،بهار – تابستان 1380. 29- عزيز محمدي، فاطمه، "بررسي برخي فرآيندهاي رايج قرض‌گيري در زبان فارسي". فصلنامه اطلاع‌رساني، دوره 18، شماره 3 و 4. 30- فتاحي، رحمت الله. "چالش هاي سازمان­دهي منابع دانش در آغاز قرن بيست و يكم با نگاهي بر دانش فهرست­نويسي در ايران" . فصلنامه كتاب. 48. 31- فرهنگ تشريحي اصطلاحات كامپيوتري ميكروسافت. مترجم فرهاد قلي­زاده نوري. تهران: كانون نشر علوم، 1379. 32- قاسمي، علي حسين، اطلاع يابي در اينترنت. تهران: چاپار، 1380. 33- كوشا، كيوان، ابزارهاي كاوش اينترنت : اصول، مهارتها و امكانات جستجو در وب . تهران: نشر كتابدار، 1381. 34- ---------- "معيارهاي‌ ارزيابي‌ ابزارهاي‌ كاوش‌ اينترنت‌: مطالعه‌ مقايسه‌اي‌بر روي‌ ابزارهاي‌ كاوش وب با واسط جستجوي فارسي ".

http://www.ketabdar.org/magazine/detailarticle.asp?number=25

35- كوك، آليسون. راهنماي يافتن اطلاعات با كيفيت در اينترنت ،راهبردهاي گزينش و ارزيابي. ترجمه مهدي خادميان. مشهد: كتابخانه رايانه­اي، 1382. 36- گزني، علي. "جست و جوي اطلاعات و ساز و كارهاي بهينه­سازي آن". فصلنامه كتاب، 45. 37- گلاسبرنر، آلفرد. كليد طلائي جستجو در اينترنت. ترجمه رضا مجري، ليلا ملكان، عبدالله تباره . تهران: انتشارات خليج فارس، 1382. 38- محقق ‌زاده، محمدصادق ؛ زارعيان، كاظم. " ارائه راه حل براي برخي مسائل اتوماسيون و نگارش فارسي" فصلنامه اطلاع‌رساني شماره 3و 4 دوره 19. 39- محمدي­فرد،داود؛ آباقري، محمد. كامپيوتر براي كتابداران و اطلاع­رسانان. تهران: چاپار، 1383. 40- مختاري نبي، ابراهيم." سازمان­دهي منابع اينترنت: چالشها و ضرورتها ".

http://www.irandoc.ac.ir/data/E_J/vol1/organaizing.htm

41- مرتضائي، ليلا . "مسائل زبان و خط فارسي در ذخيره و بازيابي اطلاعات". فصلنامه اطلاع‌رساني. دوره 17. شماره 1 و 2 . 42- منصوريان، يزدان"عوامل موثر بر جستجو و بازيابي اطلاعات در شبكه جهانگستر وب" .

http://www.ketabdar.org/magazine/detailarticle.asp?number=23

43- مينوي، مجتبي. مينوي بر گستره ادبيات فارسي. به كوشش ماه منير مينوي. تهران: توس، 1380. 44- "نگاهي به مشكلات خط فارسي در ارتباط با فناوري اطلاعات".

http://www.itna.ir/archives/report/001948.htm

45- نوتس، گري. راهبردها و شيوه‌هاي جستجو در اينترنت. ترجمه سيمين نيازي. فصلنامه كتاب، 46- نوروزي، علي‌رضا. "جستجو در اينترنت:‌آشنايي با موتور جستجوي گوگل". فصلنامه اطلاع‌رساني، دوره 16، شماره 3 و 4.