robots txt چیست؟ فایل robots.txt راهنمایی برای رباتهای گوگل است تا به وبسایت شما سر بزنند. علاوه بر افراد عادی، رباتها نیز از وبسایت شما بازدید میکنند. Robots.txt در واقع یک فایل متنی است که نحوه crawl کردن رباتهای گوگل از وبسایت را مشخص مینماید. در این مقاله بررسی میکنیم که فایل robots.txt چیست، چه نقشی در وبسایتها دارد و چگونه باید از آن استفاده کرد. برای اینکه بدانید Robots.txt چیست، تا انتهای این مقاله از مرواهاست ارائه دهنده فروش سرور مجازی با ما همراه باشید.
فایل robots.txt چیست و چه نقشی در وبسایتها دارد؟
فقط انسانها نیستند که از صفحه وبسایت شما بازدید میکنند، بلکه رباتها نیز به صفحات شما سر میزنند. یکی از این رباتها، ربات گوگل است که وظیفه پیدا کردن صفحات جدید و ایندکس کردن آنها را در گوگل دارد. وقتی که ربات گوگل وبسایت شما را ایندکس میکند، وبسایت برای افراد نمایش داده خواهد شد.
به کمک فایل robots txt میتوانید رباتها را کنترل کنید تا مطابق میل شما رفتار کنند. بدون robots txt ، سرور وبسایت شما درگیر رباتهایی میشود که به آنها نیاز ندارید. برای این که بتوانید رباتهای مفید را به وبسایت خود جذب کنید، باید از این فایل استفاده نمایید. استفاده از robots.txt به بهینهسازی سئو وبسایت شما نیز کمک میکند. برای اینکه بتوانید با الگوریتم های گوگل در سئو بیشتر آشنا شوید بهتر است این مقاله مرواهاست در سایت مطالعه نمایید تا مفاهیم آنها آشنا شوید.
چگونه فایل robots.txt کار میکند؟
هدف اصلی این فایل، محدود ساختن درخواستهای بازدید رباتها از وبسایت شماست. دستور robots.txt ، یک دستور ساده است که مانع بازدید بیش از حد رباتها از صفحات میشود.
اگر از یک سایت به سایر سایتها لینک داده شده باشد، ربات از تمام این لینکها بازدید میکند. رباتها طوری برنامهریزی شدهاند که از تمام لینکها بازدید کنند. اما با استفاده از robots.txt ، این اتفاق نمیافتد. این بدان معناست که ربات قبل از crawl کردن تمام لینکها، ابتدا فایل robot txt را نگاه کرده و از دستورات آن پیروی میکند. در نتیجه ربات از تمام لینکها بازدید نخواهد کرد.
چرا استفاده از فایل robots.txt برای وبسایتها ضروری است؟
صاحبان وبسایتها، میتوانند به کمک فایل robot.txt ، ورود رباتها به وبسایت را کنترل نمایند. کسی که صاحب یک وبسایت است، معمولا نمیخواهد که تمام صفحات وبسایت او در اختیار عموم قرار بگیرد. وبمسترها ترجیح میدهند که صفحات مهمتر وبسایت آنان در دسترس عموم قرار گیرد. برای مثال، پنل مدیریت وبسایت و برخی از صفحاتی که محتوای قابل قبولی ندارند، نباید در دسترس همگان قرار گیرند. به کمک فایل robots txt ، میتوانید در مصرف منابع سرور خود مانند پهنای باند، قدرت پردازش و… صرفهجویی نمایید. این چطور ممکن میشود؟ robots.txt ، تعداد رباتهای بازدید کننده و صفحاتی که بازدید میکنند را محدود مینماید تا منابع شما هدر نروند.
یکی دیگر از ضروریات استفاده از robots.txt، اهمیت ایندکس شدن وبسایت شما در گوگل است. اگر وبسایت شما به درستی در گوگل ایندکس شود، رتبه آن بالاتر رفته و پربازدیدتر میشود. برای ایندکس شدن باید رباتهای مختلف، از صفحات مهم وبسایت شما به تعداد محدود بازدید داشته باشند. اگر صفحات غیرمهم از وبسایت شما ایندکس شوند، اعتبار و رتبه گوگل وبسایت شما افت میکند. با استفاده از متا تگ robots.txt ، رباتها صفحات غیرمهم را به طور کلی نادیده گرفته و به سراغ صفحات ارزشمند میروند. این کار به افزایش اعتبار دامنه و در نتیجه رتبه گرفتن کمک میکند، برای خرید دامنه از مرواهاست میتوانید با ما در ارتباط باشید.
بررسی انواع دستورات در فایل robots.txt
چند دستور مهم در robots.txt وجود دارد که آنها را بررسی میکنیم:
- دستور User-agent :
در این قسمت، مشخص میشود که برای چه رباتی دستور نوشته شده است. این دستور نمیتواند به تنهایی استفاده شود. این بدان معناست که این دستور باید کنار دو یا سه تا از دستورهای بعدی بکار رود. برای مثال، اگر قصد دارید که دستور را برای ربات گوگل مشخص کنید، در قسمت user sgent نام این ربات را به شکل (googlebot) مینویسید. برای اینکه دستور برای تمام رباتها باشد، در این قسمت باید از علامت * استفاده کنید.
- دستور Disallow :
در این دستور مشخص میگردد که ربات اجازه بررسی کدام بخشها را ندارد. در مقابل دستور Disallow نام صفحاتی نوشته میشود که ربات اجازه بازدید از آنها را ندارد.
- دستور Allow :
در این دستور مشخص میگردد که ربات، اجازه بررسی کدام بخشها را دارد. پس باید در مقابل این دستور، صفحاتی را بنویسید که ربات اجازه Crawl کردن در آنها را دارد. نکتهای که وجود دارد این است که این دستور آنقدر هم ضروری نیست. زیرا رباتها طبق برنامه قبلی خود از تمام وبسایتها بازدید میکنند. هرچند بعضی از صاحبان وبسایتها ترجیح میدهند این دستور را نیز بنویسند تا بر بازدید برخی از صفحات تاکید کنند.
- دستور Sitemap :
کاربرد این دستور، نشان دادن فایل نقشه وبسایت، به رباتها است. باید آدرس سایت مپ را در مقابل این دستور وارد نمایید. دستور سایت مپ، نیازی به استفاده از دستور اول یعنی User-agent ندارد، اگر نمیدانید سایت مپ چیست این مقاله از مرواهاست را مطالعه نمایید.
- دستور crawl-delay :
این دستور روی سرعت لود شدن صفحات مختلف تاثیرگذار است. تایپ کردن یک عدد در مقابل این دستور، مشخص میکند که رباتها باید چند ثانیه صبر کنند و سپس سایت را crawl کنند. این دستور روی ربات گوگل بیتاثیر است، اگر هم میخواهید با مفهوم لیزی لود بیشتر آشنا شوید خواندن این مقاله را به شما توصیه میکنیم.
راهنمای استفاده از فایل robots.txt برای مدیریت دسترسی موتورهای جستجو
حال که دانستید Robots.txt چیست، به بررسی نحوه استفاده از آن میپردازیم. استفاده کردن از این فایل بسیار ساده است، برای این کار باید عبارتی را در انتهای آدرس وبسایتتان قرار دهید. با استفاده از پسوند robots.txt در انتهای آدرس وبسایت، به این فایل دسترسی خواهید داشت. برای اینکه بتوانید تغییراتی را روی Robot.txt اعمال کنید، کافی است به بخش Root وبسایت خود مراجعه نمایید. برای ویرایش Robot.txt میتوانید دستورهای مختلفی که قبلا آنها را بررسی کردیم را به این فایل اضافه کنید.
برای استفاده بهتر از robots.txt پیشنهاد میکنیم نکات زیر را رعایت نمایید:
- مطمئن شوید که صفحات مهم سایت خود را مسدود نکردهاید. ممکن است به اشتباه صفحات مهم را با دستور Disallow از دسترس رباتها خارج کرده باشید.
- برای عدم نمایش محتواهای حساس، از فایل txt استفاده نکنید. زیرا این فایل تضمین کامل برای عدم دسترسی به این صفحات را نمیدهد. بهتر است از فایل nonindex به منظور مسدودسازی کامل دسترسی به برخی صفحات استفاده نمایید.
سخن پایانی
در این مقاله بررسی کردیم که robots txt چیست و چه کاربردی دارد. این فایل راهنمایی برای ورود انواع رباتها به وبسایت شماست. با استفاده از این فایل، میتوانید ورود رباتها را به وبسایت خود کنترل کنید تا صفحات مهم شما پربازدید شوند. علاوه بر این، میتوانید بازدیدهای غیرضروری و بیش از حد رباتها از صفحه خود را کنترل کنید تا منابع سرور شما هدر نروند. اگر سوال دیگری درباره اینکه فایل robot.txt چیست، میتوانید با ما در ارتباط باشید.