مشکلات محتوای تکراری، خارج از سایت باشد یا داخل سایت، می تواند به تلاش های سئو شما آسیب برساند. مشکلات و راه حل های محتوای تکراری را با هم مرور می کنیم.
در سئوی معماری وب سایت، حل مشکلات محتوای تکراری یکی از سخت ترین نبردها است. بسیاری از سیستمهای مدیریت محتوا و توسعهدهندگان ضعیف، سایتهایی میسازند که برای نمایش محتوا عالی عمل میکنند، اما توجهی به نحوه عملکرد محتوا از دیدگاه موتورهای جستجو ندارند.
این اغلب باعث ایجاد مشکلات محتوای تکراری برای سئو می شود.
دو نوع محتوای تکراری وجود دارد و هر دو ممکن است مشکل ساز باشند:
بهترین راه برای توضیح بد بودن محتوای تکراری این است که ابتدا به شما بگوییم چرا محتوای منحصر به فرد خوب است. محتوای منحصر به فرد یکی از بهترین راه ها برای متمایز کردن یک سایت از وب سایت های دیگر است. وقتی محتوای وبسایت شما تنها متعلق به شما باشد، برجسته میشوید. شما چیزی دارید که هیچ کس دیگری ندارد.
وقتی از محتوای مشابهی برای توصیف محصولات یا خدمات خود استفاده می کنید یا مطالبی را در سایت های دیگر بازنشر می دهید، مزیت منحصر به فرد بودن را از دست می دهید. یا در مورد محتوای تکراری در سایت، صفحات منفرد مزیت منحصر به فرد بودن را از دست می دهند.
همین طور محتوای تکراری باعث تقسیم ارزش پیوند می شود.
چه در سایت یا خارج از سایت، همه محتوای تکراری با خود رقابت می کنند. هر نسخه ممکن است چشم ها و پیوندها را به خود جلب کند، اما هیچ کدام ارزش کاملی را که اگر نسخه منحصر به فرد و منحصر به فرد باشد، دریافت نمی کند.
با این حال، وقتی محتوای ارزشمند و منحصربهفرد را نمیتوان در بیش از یک URL در هر کجای وب یافت، آن URL بهترین شانس را برای یافتن دارد که تنها گردآورنده سیگنالهای معتبر برای آن محتوا است. اکنون، با داشتن این درک، به مشکلات و راه حل های محتوای تکراری نگاه می کنیم.
کپی برداری خارج از سایت سه منبع اصلی دارد:
دزدان محتوا یکی از بزرگترین متخلفان در تولید محتوای تکراری هستند. ارسالکنندگان هرزنامه و سایر مجرمان شرور ابزارهایی میسازند که محتوا را از وبسایتهای دیگر میگیرند و سپس به تنهایی منتشر میکنند. در بیشتر موارد، این سایت ها سعی می کنند از محتوای شما برای ایجاد ترافیک به سایت خود استفاده کنند تا مردم را وادار به کلیک بر روی تبلیغات خود کنند.
متأسفانه، کار زیادی نمی توانید در مورد این موضوع انجام دهید به جز ارائه گزارش نقض حق نسخه برداری به گوگل به این امید که از فهرست جستجوی آنها حذف شود. اگرچه، در برخی موارد، ارسال این گزارش ها می تواند یک کار تمام وقت باشد.
راه دیگر مقابله با این محتوا نادیده گرفتن آن است، به این امید که گوگل بتواند تفاوت بین یک سایت با کیفیت و سایتی که محتوای اسکرپ شده در آن است را تشخیص دهد. از آنجایی که من دیدم محتوای دزدیده شده رتبه بالاتری نسبت به منبع اصلی دارد، این مورد بسیار مهم است.
کاری که می توانید برای مبارزه با اثرات محتوای دزدیده شده انجام دهید این است که از پیوندهای مطلق (URL کامل) در محتوا برای هر پیوندی که به سایت شما اشاره می کند استفاده کنید. کسانی که محتوا را می دزدند معمولاً در کار تمیز کردن آن نیستند، بنابراین، حداقل، لینکی به سایت شما ایجاد می شود.
همچنین میتوانید یک تگ کنونیکال را به صفحه منبع اضافه کنید. اگر محتوای شما دزدیده شود، تگ کنونیکال حداقل سیگنالی را برای گوگل ارائه میکند تا شما را بهعنوان منبع شناسایی کند.
چندین سال پیش، به نظر می رسید که هر سئو سایتی محتوای خود را به عنوان یک تاکتیک لینک سازی در نشریات منتشر می کند. هنگامی که گوگل کیفیت محتوا و طرح های پیوند را سرکوب کرد، انتشار مجدد به حاشیه رفت. اما با تمرکز مناسب، می تواند یک استراتژی بازاریابی قوی باشد. توجه داشته باشید که به جای استراتژی سئو، گفتیم “بازاریابی”.
هر زمان که محتوایی را در وب سایت های دیگر منتشر می کنید، آنها حقوق منحصر به فرد آن محتوا را می خواهند. چرا؟ زیرا آنها نمیخواهند نسخههای چندگانه آن محتوا در وب بیارزش باشد که ناشر ارائه دهد.
اما از آنجایی که گوگل در خصوص انتساب حقوق به سازنده محتوا بهتر شده است، بسیاری از ناشران اجازه می دهند از محتوا در سایت های شخصی نویسنده نیز استفاده مجدد شود. آیا این مشکلات محتوای تکراری ایجاد می کند؟ در یک روش کوچک، می تواند، زیرا هنوز دو نسخه از محتوا وجود دارد که هر کدام به طور بالقوه پیوند ایجاد می کنند.
اما در نهایت اگر تعداد نسخه های تکراری محدود و کنترل شود، تاثیر آن نیز محدود می شود. در واقع، جنبه منفی اولیه به جای ناشر ثانویه، متوجه نویسنده است.
اولین نسخه منتشر شده از محتوا عموماً به عنوان نسخه کنونیکال شناخته می شود. در همه موارد به جز چند مورد، این ناشران ارزش بیشتری از محتوا نسبت به وب سایت نویسنده ای که آن را مجدداً منتشر می کند، دریافت می کنند.
بعضی از رایجترین مشکلات محتوای تکراری از توضیحات محصول میآیند که تقریبا توسط هر فروشنده دوباره استفاده میشود. بسیاری از خرده فروشان آنلاین دقیقاً محصولات مشابه هزاران فروشگاه دیگر را می فروشند. در بیشتر موارد، توضیحات محصول توسط سازنده ارائه می شود، که سپس در پایگاه داده هر سایت بارگذاری می شود و در صفحات محصول آنها ارائه می شود.
در حالی که چیدمان صفحات متفاوت خواهد بود، بخش عمده ای از محتوای صفحه محصول (توضیحات محصول) یکسان خواهد بود. اکنون آن را در میلیونها محصول مختلف و صدها هزار وبسایت که آن محصولات را میفروشند ضرب کنید، و میتوانید محتوای زیادی را به پایان برسانید که، به بیان ساده، منحصر به فرد نیست.
چگونه یک موتور جستجو هنگام انجام جستجو بین یکی یا دیگری تفاوت قائل می شود؟ در سطح صرفاً تحلیل محتوا، نمی تواند. این بدان معناست که موتور جستجو باید به سیگنال های دیگر نگاه کند تا تصمیم بگیرد کدام یک را باید رتبه بندی کند. یکی از این سیگنال ها لینک ها هستند. پیوندهای بیشتری دریافت کنید و می توانید در قرعه کشی محتوای بی مزه برنده شوید.
اما اگر با یک رقیب قدرتمندتر روبرو هستید، ممکن است قبل از اینکه بتوانید آنها را در لینک سازی شکست دهید، نبردی طولانی برای مبارزه داشته باشید که شما را به جستجوی مزیت رقابتی بازمی گرداند.
بهترین راه برای رسیدن به این هدف، تلاش بیشتر برای نوشتن توضیحات منحصر به فرد برای هر محصول است. بسته به تعداد محصولاتی که ارائه میکنید، این میتواند به یک چالش تبدیل شود، اما در نهایت ارزش آن را دارد.
هر صفحه ای با محتوای منحصر به فرد به طور خودکار از یک مزیت ذاتی نسبت به محتوای مشابه اما تکراری برخوردار است. این ممکن است برای پیشی گرفتن از رقبای شما کافی باشد یا نباشد، اما مطمئناً مبنایی برای متمایز شدن نه تنها در گوگل، بلکه برای مشتریان شما نیز هست.
از نظر فنی، گوگل با تمام محتوای تکراری یکسان رفتار می کند، بنابراین محتوای تکراری در سایت واقعاً تفاوتی با خارج از سایت ندارد.
اما مشکلات محتوای تکراری در داخل سایت سختی کمتری دارند چون قابل کنترل هستند. محتوای تکراری در سایت عموماً از معماری بد سایت ناشی می شود. یک معماری قوی پایه و اساس یک وب سایت قوی است.
وقتی توسعهدهندگان بهترین شیوههای جستجو را دنبال نمیکنند، میتوانید فرصت ارزشمندی برای رتبهبندی محتوای خود به دلیل این رقابت شخصی از دست بدهید. برخی هستند که ضد نیاز به معماری خوب استدلال می کنند و به تبلیغات گوگل در مورد اینکه چگونه گوگل می تواند آن را “پیدا کند” استناد می کنند. مشکل آن این است که به گوگل برای کشف چیزها متکی است.
بله، گوگل می تواند تعیین کند که برخی از محتوای تکراری باید یکسان در نظر گرفته شود، و الگوریتم ها می توانند این موضوع را هنگام تجزیه و تحلیل سایت شما در نظر بگیرند، اما این تضمینی نیست.
یک مثال برای درک موضوع این است که فقط به این دلیل که فرد باهوشی را میشناسید، لزوماً به این معنی نیست که او میتواند از شما در برابر حماقت شما محافظت کند! اگر کارها را به گوگل بسپارید و گوگل شکست بخورد، دچار مشکل شده اید.
اکنون، بیایید به برخی از مشکلات و راه حل های رایج محتوای تکراری در سایت بپردازیم.
بسیاری از سایت های تجارت الکترونیک از این نوع تکراری رنج می برند. این اغلب توسط سیستم های مدیریت محتوا ایجاد می شود که به شما امکان می دهد محصولات را بر اساس دسته بندی سازماندهی کنید، جایی که یک محصول واحد می تواند در چندین دسته برچسب گذاری شود.
این به خودی خود بد نیست و می تواند برای بازدید کننده عالی باشد، اما با انجام این کار، سیستم یک URL منحصر به فرد برای هر دسته ایجاد می کند که در آن یک محصول منفرد در آن نمایش داده می شود.
فرض کنید در یک سایت تعمیر خانه هستید و به دنبال کتابی در مورد نصب کفپوش حمام هستید. ممکن است با دنبال کردن یکی از این مسیرهای پیمایش کتاب مورد نظر خود را پیدا کنید:
هر یک از اینها یک مسیر ناوبری قابل اجرا هستند، اما مشکل زمانی ایجاد می شود که یک URL منحصر به فرد برای هر مسیر ایجاد شود:
من دیدهام که سایتهایی مانند این تا ده URL برای هر محصول ایجاد میکنند و یک وبسایت محصول 5k را به سایتی با 45 هزار صفحه تکراری تبدیل میکنند. این یک مشکل است. اگر محصول مثال بالا ما ده لینک ایجاد می کرد، این پیوندها به سه صورت تقسیم می شوند.
در حالی که، اگر صفحه رقیب برای یک محصول همان ده لینک را داشته باشد، اما فقط به یک URL واحد، کدام URL در جستجو بهتر عمل می کند؟ رقیب!
نه تنها این، بلکه موتورهای جستجو پهنای باند خزیدن خود را محدود می کنند تا بتوانند آن را برای ایندکس کردن محتوای منحصر به فرد و ارزشمند صرف کنند. وقتی سایت شما دارای این تعداد صفحات تکراری است، این احتمال وجود دارد که موتور قبل از اینکه حتی کسری از محتوای منحصر به فرد شما ایندکس شود، خزیدن را متوقف کند.
این بدان معناست که صدها صفحه ارزشمند در نتایج جستجو در دسترس نخواهند بود و آنهایی که ایندکس شده اند تکراری هستند که با یکدیگر رقابت می کنند.
یکی از راهحلهای مشکلات محتوای تکراری در دسته بندی ها این است که فقط محصولات را برای یک دسته به جای چند دسته برچسبگذاری کنید. این مسئله مشکلات محتوای تکراری را حل می کند، اما بهترین راه حل برای خریداران نیست. زیرا سایر مسیرهای های ناوبری را برای یافتن محصول مورد نظر آنها حذف می کند. بنابراین، این راه حل مورد پسند ما نیست.
راه حل دیگر حذف هر نوع دسته بندی از URL ها است. به این ترتیب، بدون توجه به مسیر پیمایشی که برای یافتن محصول استفاده می شود، URL خود محصول همیشه یکسان است و ممکن است چیزی شبیه به این باشد:
https://www.myfakesite.com/products/fake-book-by-fake-author
این کار تکراری را بدون تغییر نحوه حرکت بازدیدکننده به محصولات برطرف می کند. نقطه ضعف این روش این است که شما کلمات کلیدی دسته بندی را در URL از دست می دهید. در حالی که این یک مزیت کوچک برای کل سئو فراهم می کند، هر ذره کوچکی می تواند کمک کند.
اگر میخواهید راهحل خود را به سطح بعدی ببرید، با بهینهسازی بیشترین ارزش ممکن و در عین حال تجربه کاربری را حفظ کنید، گزینهای بسازید که به هر محصول اجازه میدهد علاوه بر سایر محصولات، به یک دسته «مستر» اختصاص داده شود.
هنگامی که یک دسته اصلی در حال بازی است، محصول را می توان از طریق مسیرهای پیمایش متعدد پیدا کرد، اما صفحه محصول با یک URL واحد که از دسته اصلی استفاده می کند قابل دسترسی است.
ممکن است URL چیزی شبیه به این باشد:
https://www.myfakesite.com/flooring/fake-book-by-fake-authorOR
https://www.myfakesite.com/bathroom/fake-book-by-fake-authorOR
https://www.myfakesite.com/books/fake-book-by-fake-author
این راه حل دوم در مجموع بهترین است، اگرچه نیاز به برنامه نویسی اضافی دارد. با این حال، یک “راه حل” نسبتا آسان دیگر برای پیاده سازی وجود دارد، اما من آن را تنها تا زمانی که یک راه حل واقعی اجرا شود، یک چسب زخم می دانم.
از آنجا که گزینه طبقهبندی اصلی همیشه برای راهحلهای CMS یا تجارت الکترونیک خارج از جعبه در دسترس نیست، یک گزینه جایگزین وجود دارد که به حل مشکل محتوای تکراری «کمک میکند».
این شامل جلوگیری از ایندکس کردن همه URL های غیر متعارف توسط موتورهای جستجو می شود. در حالی که این می تواند صفحات تکراری را از فهرست جستجو دور نگه دارد، مشکل تقسیم اعتبار صفحه را برطرف نمی کند. هر مقدار پیوند ارسال شده به یک URL غیرقابل نمایه سازی از بین خواهد رفت.
راه حل بهتر چسب زخم استفاده از برچسب های متعارف است. این شبیه به انتخاب یک دسته اصلی است، اما عموماً به برنامهنویسی اضافی کمی نیاز دارد. شما به سادگی یک فیلد برای هر محصول اضافه میکنید که به شما امکان میدهد یک URL متعارف اختصاص دهید، که فقط یک روش فانتزی برای گفتن «URL مورد نظر شما در جستجو است».
تگ canonical به شکل زیر است:
<link rel=”canonical” href=”https://www.myfakesite.com/books/fake-book-by-fake-author” />
با وجود آدرس اینترنتی که بازدیدکننده در آن قرار دارد، برچسب متعارف پشت صحنه در هر URL تکراری به یک URL واحد اشاره می کند.
این بیشتر اوقات کار می کند، اما در واقعیت، موتورهای جستجو فقط از برچسب متعارف به عنوان “سیگنال” استفاده می کنند. سپس آنها تصمیم میگیرند که آن را به دلخواه اعمال کنند یا نادیده بگیرند. ممکن است تمام اعتبار پیوند به صفحه صحیح منتقل شود یا نتوانید، و ممکن است صفحات غیر متعارف را از فهرست خارج کنید یا نگذارید. من همیشه پیادهسازی یک تگ متعارف را توصیه میکنم، اما چون غیرقابل اعتماد است، آن را تا زمانی که راهحل رسمیتری پیادهسازی شود، بهعنوان جایبانی در نظر بگیرید.
یکی از اساسی ترین مسائل معماری وب سایت حول نحوه دسترسی به صفحات در مرورگر است. به طور پیش فرض، تقریباً هر صفحه از سایت شما با استفاده از یک URL کمی متفاوت قابل دسترسی است. اگر علامت نزنید، هر URL دقیقاً به همان صفحه با محتوای دقیقاً مشابه منتهی می شود.
با در نظر گرفتن صفحه اصلی به تنهایی، احتمالاً می توان با استفاده از چهار URL مختلف به آن دسترسی داشت:
http://site.com
http://www.site.com
https://site.com
https://www.site.com
و هنگامی که با صفحات داخلی سروکار دارید، می توانید یک نسخه اضافی از هر URL را با اضافه کردن یک اسلش انتهایی دریافت کنید:
http://site.com/page
http://site.com/page/
http://www.site.com/page
http://www.site.com/page/
این تا هشت URL جایگزین برای هر صفحه است! البته گوگل باید بداند که همه این URL ها باید به عنوان یکی در نظر گرفته شوند، اما کدام یک؟
غیر از تگ کنونیکال راه حل این است که مطمئن شوید که همه نسخه های جایگزین URL ها به URL کنونیکال هدایت می شوند.
به خاطر داشته باشید، این فقط یک مشکل صفحه اصلی نیست. همین مسئله در مورد هر یک از URL های سایت شما صدق می کند. بنابراین، تغییر مسیرهای اجرا شده باید جهانی باشد.
مطمئن شوید که هر تغییر مسیر را به نسخه کنونیکال هدایت کنید. به عنوان مثال، اگر URL متعارف https://www.site.com باشد، هر تغییر مسیر باید به آنجا اشاره کند. بسیاری با اضافه کردن جهش های تغییر مسیر اضافی که ممکن است شبیه به این باشد، اشتباه می کنند:
Site.com > https://site.com > https://www.site.com
Site.com > www.site.com > https://www.site.com
در عوض، تغییر مسیرها باید به این صورت باشد:
http://site.com > https://www.site.com/
http://www.site.com > https://www.site.com/
https://site.com > https://www.site.com/
https://www.site.com > https://www.site.com/
http://site.com/ > https://www.site.com/
http://www.site.com/ > https://www.site.com/
https://site.com/ > https://www.site.com/
با کاهش تعداد جهشهای تغییر مسیر، سرعت بارگذاری صفحه را افزایش میدهید، پهنای باند سرور را کاهش میدهید و مواردی را که ممکن است در طول مسیر دچار مشکل شوند، کاهش مییابد. در نهایت، باید مطمئن شوید که تمام لینک های داخلی سایت به نسخه canonical نیز اشاره دارند.
در حالی که تغییر مسیر باید مشکلات محتوای تکراری را حل کند، اگر مشکلی در سرور یا اجرا پیش بیاید، تغییر مسیرها ممکن است با شکست مواجه شوند. اگر این اتفاق بیفتد، حتی به طور موقت، پیوند داخلی فقط صفحات متعارف می تواند به جلوگیری از افزایش ناگهانی مشکلات محتوای تکراری کمک کند.
پارامترهای URL برای بیرون کشیدن محتوای تازه از سرور، معمولاً بر اساس یک یا چند فیلتر یا انتخابی که انجام می شود، استفاده می شود.
دو مثال زیر نشانیهای اینترنتی جایگزین را برای یک URL نشان میدهند: site.com/shirts/. اولی پیراهنها را بر اساس رنگ، اندازه و سبک فیلتر شده نشان میدهد. نشانی اینترنتی دوم پیراهنهایی را نشان میدهد که بر اساس قیمت مرتب شدهاند، سپس تعداد معینی از محصولات را برای نمایش در هر صفحه نشان میدهد.
Site.com/shirts/?color=red&size=small&style=long_sleeve
Site.com/shirts/?sort=price&display=12
تنها بر اساس این فیلترها، سه URL قابل اجرا وجود دارد که موتورهای جستجو می توانند پیدا کنند. اما ترتیب این پارامترها می تواند بر اساس ترتیبی که انتخاب شده اند تغییر کند، به این معنی که ممکن است چندین URL در دسترس دیگر مانند زیر دریافت کنید:
و اینها:
می بینید که این می تواند URL های زیادی تولید کند که اکثر آنها هیچ نوع محتوای منحصر به فردی ندارد. از پارامترهای بالا، تنها موردی که ممکن است بخواهید برای آن محتوای فروش بنویسید، سبک است. بقیه، نه چندان
برنامهریزی استراتژیک ناوبری و ساختار URL برای پیشی گرفتن از مشکلات محتوای تکراری بسیار مهم است. بخشی از این فرآیند شامل درک تفاوت بین داشتن یک صفحه فرود قانونی و صفحهای است که به بازدیدکنندگان اجازه میدهد نتایج را فیلتر کنند.
سپس هنگام ایجاد URL برای آنها، مطمئن شوید که با این موارد مطابق با آنها رفتار کنید. URL های صفحه فرود باید شبیه به این باشند:
Site.com/shirts/long-sleeve/
Site.com/shirts/v-neck/
Site.com/shirts/collared/
و URL نتایج فیلتر شده چیزی شبیه به این خواهد بود:
Site.com/shirts/long-sleeve/?size=small&color=red&display=12&sort=price
Site.com/shirts/v-neck/?color=red
Site.com/shirts/collared/?size=small&display=12&sort=price&color=red
با ساخت صحیح URL های خود، می توانید دو کار را انجام دهید:
اگر دائماً از پارامترها فقط برای فیلتر کردن و مرتبسازی محتوا استفاده میکنید، دیگر نگران این نخواهید بود که به طور تصادفی به گوگل بگویید که پارامتر ارزشمندی را بررسی نکند. زیرا هیچکدام از آنها اینطور نیستند. اما از آنجایی که تگ کنونیکال فقط یک سیگنال است، برای بهترین نتیجه باید مرحله دو را کامل کنید. به یاد داشته باشید که این فقط روی گوگل تاثیر می گذارد. شما باید همین کار را با بینگ انجام دهید.
نکته توسعهدهنده حرفهای: موتورهای جستجو معمولاً هر چیزی را که در سمت راست نماد پوند «#» در URL قرار دارد نادیده میگیرند. اگر آن را در هر URL قبل از هر پارامتری برنامه ریزی کنید، دیگر لازم نیست نگران باشید که canonical فقط یک راه حل کمکی است:
اگر هر موتور جستجویی به URL های بالا دسترسی داشته باشد، فقط بخش متعارف URL را ایندکس می کند و بقیه را نادیده می گیرد.
بازاریابان نسخههای متعددی از محتوای مشابه ایجاد می کنند، چه به عنوان صفحه فرود برای تبلیغات، یا برای اهداف تست A/B. این میتواند دادهها و بازخوردهای خوبی برای شما به ارمغان بیاورد، اما اگر آن صفحات برای موتورهای جستجو باز باشد، میتواند مشکلات محتوای تکراری ایجاد خواهد کرد.
به جای استفاده از یک تگ کنونیکال برای اشاره به صفحه اصلی، راه حل بهتر اضافه کردن یک متا تگ noindex به هر صفحه است تا به طور کلی از فهرست موتورهای جستجو دور بماند. این صفحات معمولا یتیم هستند و هیچ لینک مستقیمی از داخل سایت به آنها وجود ندارد. اما باز هم موتورهای جستجو می توانند آن ها را پیدا کنند.
تگ کنونیکال برای انتقال ارزش و اعتبار صفحه به صفحه اصلی طراحی شده است. اما از آنجایی که این صفحات نباید مقداری را جمع آوری کنند، دور نگه داشتن آنها از فهرست ترجیح داده می شود.
یکی از رایج ترین افسانه های سئو این است که محتوای تکراری جریمه دارد. محتوای تکراری جریمه ندارد اما به این معنی نیست که عواقب هم ندارد. زمان هایی هم وجود دارد که می خواهید از محتوای تکراری برای برندسازی استفاده کنید. ممکن است محتوای خود را در چندین وب سایت دیگر منتشر کنید. خیلی از سایت ها که پذیرنده محتوای شما هستند این را دوست ندارند. آنها حق دارند محتوایی را بخواهند که منحصر بفرد باشد. سایت هایی هم که بی اعتنا به تکراری بودن محتوا هستند معمولا ارزش پایینی دارند و چه بسا نتیجه ای را که تمیل دارید به دست نیاورید.
به هر حال این شما هستید که تصمیم می گیرید. حالت های مختلف را بسنجید. اگر انتشار محتوای وب سایت تان در جاهای مختلف به مشکلات سئوی شما اضافه نمی کند و به برندسازی تان کمک می کند تکراری را که برای تان سودمند است دنبال کنید. اما در نهایت وب سایت شما باید دارای محتوای ارزشمند و منحصر بفرد باشد.
سوال شده است که آیا درصدی وجود دارد که میزان محتوای تکراری را نشان دهد؟ مثلا 72% محتوا منحصر بفرد باشد؟ جان مولر جواب داده هیچ عددی وجود ندارد.
روش گوگل برای شناسایی محتوای تکراری سال هاست که به طرز قابل توجهی مشابه است.
در سال 2013، Matt Cutts ، یک مهندس نرم افزار در آن زمان در گوگل، ویدیوی رسمی گوگل را منتشر کرد که توضیح می داد چگونه گوگل محتوای تکراری را تشخیص می دهد.
او این ویدئو را با بیان اینکه مقدار زیادی از محتوای اینترنتی تکراری است و این یک اتفاق عادی است، شروع کرد:
مهم است که بدانید اگر به محتوای موجود در وب نگاه کنید، چیزی حدود 25٪ یا 30٪ از کل محتوای وب محتوای تکراری است. … مردم یک پاراگراف از یک وبلاگ را نقل قول می کنند و سپس به وبلاگ پیوند می دهند، این نوع چیزها.
او ادامه داد که از آنجایی که بسیاری از محتوای تکراری بی گناه و بدون هدف اسپم هستند، گوگل آن محتوا را جریمه نمی کند. او گفت که جریمه کردن صفحات وب برای داشتن محتوای تکراری تأثیر منفی بر کیفیت نتایج جستجو خواهد داشت. کاری که گوگل هنگام یافتن محتوای تکراری انجام می دهد این است:
«…سعی کنید همه آنها را با هم گروهبندی کنید و طوری رفتار کنید که انگار فقط یک قطعه محتوا است.»
مت ادامه داد:
«این فقط به عنوان چیزی تلقی میشود که باید آن را بهدرستی خوشهبندی کنیم. و ما باید مطمئن شویم که این رتبه بندی درست است.»
او توضیح داد که گوگل سپس انتخاب می کند که کدام صفحه را در نتایج جستجو نشان دهد و صفحات تکراری را فیلتر می کند تا تجربه کاربر را بهبود بخشد.
گوگل در سال 2020 یک قسمت پادکست Search Off the Record را منتشر کرد که در آن موضوع محتوای تکراری به زبان بسیار مشابهی توضیح داده شده است.
دقیقه 06:44 از آن پادکست:
گری آیلیس: و اکنون به مرحله بعدی رسیدیم که در واقع متعارف سازی و تشخیص فریب است.
مارتین اسپلیت: آیا این یکسان نیست، تشخیص فریب و متعارف سازی، به نوعی؟
گری ایلیس: ابتدا باید فریبها را شناسایی کنید، اساساً آنها را با هم جمع کنید و بگویید که همه این صفحات فریبهای یکدیگر هستند. و سپس باید اساساً یک صفحه رهبر برای همه آنها پیدا کنید. … و آن متعارف سازی است. بنابراین، شما تکثیر را دارید، که کل اصطلاح است، اما در درون آن، خوشهسازی دارید، مانند ساختن خوشهای فریبنده، و متعارفسازی.
گری در ادامه توضیح می دهد که دقیقاً چگونه این کار را انجام می دهند. اساساً، گوگل واقعاً درصدها را دقیقاً بررسی نمی کند، بلکه به مقایسه چکسامها میپردازد. می توان گفت که یک چک سام نمایشی از محتوا به صورت مجموعه ای از اعداد یا حروف است. بنابراین اگر محتوا تکراری باشد، توالی اعداد چک جمع مشابه خواهد بود.
گری آن را اینگونه توضیح داد:
بنابراین، برای تشخیص فریبکاری، کاری که ما انجام می دهیم، خوب، ما سعی می کنیم فریبکاران را شناسایی کنیم. نحوه انجام این کار شاید بیشتر افراد در سایر موتورهای جستجو این کار را انجام میدهند، که اساساً محتوا را به یک هشتم یا چکسوم کاهش میدهند و سپس چکسامها را با هم مقایسه میکنند. گری گفت که گوگل این کار را به این صورت انجام می دهد زیرا آسان تر است.
بنابراین وقتی در مورد محتوای تکراری صحبت میشود، احتمالاً یک آستانه درصد نیست، جایی که تعدادی وجود دارد که گفته میشود محتوا تکراری است. اما در عوض، محتوای تکراری با نمایشی از محتوا در قالب یک چکسوم شناسایی میشود و سپس آن چکسامها با هم مقایسه میشوند.
یک نکته دیگر این است که به نظر می رسد تمایزی بین زمانی که بخشی از محتوا تکراری است و تمام محتوا تکراری وجود دارد.