Duplicate Content là gì? Nguyên nhân và cách khắc phục

Duplicate Content hiểu đơn giản đây là nội dung bị trùng lặp trên một website hoặc trên các website khác nhau. Việc trùng lặp này có ảnh hưởng rất tiêu cực đến SEO. Vậy đâu là nguyên nhân dẫn đến việc trùng lặp này và những ảnh hưởng của nó là gì? Cùng nhau tìm hiểu qua bài viết dưới đây của ddi.vn nhé!

Duplicate Content là gì
Duplicate Content là gì

Duplicate Content là gì?

Duplicate Content hiểu theo nghĩa tiếng việt là nội dung trùng lặp, cụ thể đây là việc các nội dung giống nhau hệt nhau hoặc giống nhau một phần nào đó xuất hiện trên cùng website bạn hay trên nhiều website khác. 

Google không hề thích điều này bởi nó sẽ gây khó khăn cho Google trong việc quyết định đâu phiên bản nào là bản gốc, với trường hợp không tìm được bản gốc Google sẽ phải chọn phiên bản tốt nhất, và nếu phiên bản được chọn chỉ là bản sao thì đây sẽ là thiệt hại to lớn cho bản gốc. Để tránh tình trạng Duplicate Content diễn ra quá mức, Google sẽ hạn chế hiển thị các nội dung có sự trùng lặp.

Xem thêm: Tuyệt chiêu tối ưu UX 

Ảnh hưởng của Duplicate Content 

Ảnh hưởng của Duplicate Content 
Ảnh hưởng của Duplicate Content

Đối với công cụ tìm kiếm

  • Công cụ tìm kiếm sẽ không biết nên sử dụng hay loại trừ phiên bản nào của bạn.
  • Công cụ tìm kiếm sẽ không biết nên định hướng các chỉ số liên kết với một trang hoặc giữ nó tách biệt giữa nhiều phiên bản. 
  • Công cụ tìm kiếm không biết phiên bản nào là bản gốc để xếp hạng cho kết quả truy vấn. 

Đối với SEO website 

  • Giảm hiệu quả của Backlink

Khi một nội dung được đăng trên nhiều trang với nhiều URL khác nhau, mỗi URL sẽ thể thu hút lượng Backlink cho riêng mình. Điều đó dẫn đến sự phân chia giá trị liên kết (Link Equity) giữa các URL và vấn đề SEO của trang web cũng bị ảnh hưởng.

  • Ảnh hưởng đến xếp hạng website

Với mục đích cung cấp trải nghiệm tìm kiếm tốt nhất cho người dùng thì các công cụ tìm kiếm sẽ tránh việc hiển thị nhiều phiên bản với cùng một nội dung và do đó nó buộc phải chọn phiên bản có khả năng là kết quả tốt nhất. Và bạn nghĩ sao nếu Google cho hiển thị bài viết của một website khác lên đầu tiên trong khi nội dung bài viết ấy lại là sao chép từ chính website của bạn? 

Vì vậy, hãy chú ý đến vấn đề chính bạn cho phép website khác xuất bản lại nội dung của bạn hoặc ai đó cố tình sao chép nội dung của bạn khi chưa được sự cho phép. 

  • Làm chậm quá trình thu thập thông tin

Thông qua việc quét và hiểu nội dung trên toàn bộ website, Google sẽ thu thập thông tin và hiển thị ra kết quả khớp với từ khóa. Việc có quá nhiều kết quả tìm kiếm cũng có nghĩa khiến Google phải làm nhiều công việc hơn, làm ảnh hưởng tới tốc độ hiển thị kết quả và cho bộ máy của Google trở nên nặng nề hơn. 

Điều này sẽ ảnh hưởng đến tốc độ và tần suất Google thu thập dữ liệu các trang mới hoặc các cập nhật của trang web, có thể là làm chậm trễ việc lập chỉ mục các trang mới hay Index lại các trang đã cập nhật.

  • Xuất hiện URL không mong muốn hoặc không thân thiện trong kết quả tìm kiếm

Việc trùng lặp nội dung có thể gây ra việc nội dung trên một trang nhưng lại xuất hiện với nhiều URL khác nhau. Ví dụ như bên dưới:

  1. URL số 1 thân thiện với người dùng, là URL gốc của bài viết và có dạng như sau: domain.com/page/.
  2. URL số 2: domain.com/page/?utm_content=buffer&utm_medium=social.
  3. URL số 3: domain.com/category/page/.

Link số 1 sẽ hiển thị trong kết quả tìm kiếm, nhưng Google có thể không chọn link số 1 này đưa lên Top mà chọn một trong số hai link bên dưới. 

URL thay thế này có thể không thân thiện vì độ dài, không chứa từ khóa rõ ràng. Và đa số người dùng sẽ không thích nhấp vào các link không thân thiện như vậy. Điều này khiến website của bạn có thể nhận được ít lưu lượng truy cập tự nhiên hơn.

Xem thêm: Đầu tư SEO

Nguyên nhân gây nên Duplicate Content

Duplicate Content do sao chép

Duplicate Content do sao chép
Duplicate Content do sao chép

1. Nội dung Landing Page bị trùng

Landing Page là một trang web đơn được thiết kế để dẫn dắt, thuyết phục khách hàng cho một mục tiêu cụ thể. Vì nội dung landing page này thường được lấy hoặc có điều chỉnh từ trang trang web gốc do đó sẽ khá giống nhau nên dẫn đến tình trạng Duplicate Content là rất có thể.

Để khắc phục lỗi này, bạn cần thêm thẻ meta robots với lệnh “noindex” vào phần <head> của landing page để ngăn Google lập chỉ mục. Hay cách đơn giản nhất là không liên kết hoặc không đưa landing page vào sitemap website của bạn.

2. Bị “ăn cắp” nội dung

Đây chính là nguyên nhân phổ biến nhất gây ra Duplicate Content. 

Với những website mới lập, độ tin cậy chưa cao khiến tốc độ index còn chậm và đối thủ “lâu năm” hơn ăn cắp nội dung. Những website chất lượng, lâu năm thường được Google thu thập dữ liệu và index nhanh hơn. Điều này sẽ dẫn đến tình trạng website ăn cắp sẽ được coi là tác giả gốc và có xếp hạng cao hơn bạn.

Hãy đảm bảo rằng các bài viết trên website sau khi xuất bản phải được index sớm nhất có thể bằng cách submit URL với Google. Hoặc có thể gửi yêu cầu DMCA đến Google để yêu cầu gỡ bỏ bài đăng sao chép đó,

Duplicate Content do lỗi kỹ thuật

Duplicate Content do lỗi kỹ thuật
Duplicate Content do lỗi kỹ thuật

3. WWW/ non-WWW hoặc HTTP/HTTPS

URL của website có thể hiển thị ở các dạng www hay non-www như www.site.com hoặc site.com và website có thể sẽ xuất hiện ở cả 2 phiên bản này trên kết quả tìm kiếm do thao tác khi chuyển hướng tên miền không đúng cách. Điều này sẽ gây ra lỗi Duplicate Content vì các bot tìm kiếm không nhận ra đâu là phiên bản thứ hai của Website bạn và sẽ cho rằng bạn đang sao chép thông tin từ một website khác. 

Điều này cũng xảy ra tương tự với dạng URL http://https://.

Để khắc phục lỗi này, bạn nên dùng lệnh chuyển hướng 301 nhằm thông báo cho Google biết đâu là trang web chính xác để tiến hành việc xếp hạng.

4. Lỗi do phân loại bài viết

Phân loại là chức năng phân nhóm nội dung, chức năng này thường dùng trong CMS (Hệ thống quản trị nội dung) nhằm hỗ trợ các danh mục và thẻ.

Giả sử bạn có một bài viết được phân loại vào 3 danh mục a,b,c và bài đăng được truy cập thông qua cả 3 URL:

  • https://www.example.com/category-a/topic/
  • https://www.example.com/category-b/topic/
  • https://www.example.com/category-c/topic/

Điều này chắc chắn sẽ làm Google “bối rối” và xếp vào lỗi Duplicate Content. 

Khắc phục lỗi này bằng chuẩn hóa cách đặt URL cho thống nhất, đảm bảo một hệ thống website chuẩn và thân thiện với bot tìm kiếm.

5. URL có dấu ”/” và không có “/”

Google coi các URL có và không có dấu gạch chéo ở cuối là 2 URL  hoàn toàn độc lập với nhau. 

Ví dụ cụ thể như 2 url sau: ddi.vn/oi-ich-khi-seo-webddi.vn/loi-ich-khi-seo-web/ được Google coi là 2 URL khác nhau.

  • Nếu URL không có dấu “/” được chuyển hướng tới URL chứa dấu “/” (hoặc ngược lại), thì đây không được tính là Duplicate. 
  • Nếu có thể truy cập được ở cả hai URL này, thì điều đó có thể dẫn đến vấn đề Duplicate Content.

6. URL hình ảnh đính kèm

Với những trang chỉ chứa hình ảnh mà không chứa nội dung, khi trang khác sử dụng lại hình ảnh này cũng có thể dẫn đến trùng lặp nội dung.

Trong trường hợp này, cách tốt nhất bạn không nên tạo danh mục chỉ chứa hình ảnh. Trường hợp bắt buộc phải tạo thì hãy dùng lệnh “noindex” để ngăn Google index phần này.

7. Website có phiên bản cho Mobile

Do hiện nay số lượng người sử dụng thiết bị di động để truy cập web là rất lớn, nên một số website sẽ xây dựng thêm một phiên bản cho mobile. Ví dụ như www.example.com là phiên bản dành cho máy tính và m.example.com dành cho người dùng thiết bị di động. Hai phiên bản này có nội dung giống nhau nhưng khác URL. Điều này cũng có thể dẫn đến tình trạng Duplicate Content.

Để khắc phục lỗi này, trên trang dành cho máy tính bạn dùng thẻ rel=“alternate” trỏ đến URL tương ứng trên thiết bị di động, thẻ này giúp bot Google khám phá vị trí của các trang dành cho thiết bị di động trên trang web của bạn. Và sử dụng thẻ rel=“canonical” trỏ đến URL tương ứng dành cho máy tính, thẻ này giúp bot Google biết phiên bản nào là nội dung gốc để có thể xếp hạng

8. Lỗi do phân trang bình luận

Các CMS có tính năng cho phép các trang bình luận bị phân thành nhiều trang, các trang bình luận được phân trang sẽ hiển thị nội dung gốc, chỉ có những nhận xét ở dưới cùng là khác nhau. Điều này vô tình sẽ tạo ra các URL khác nhau những lại có nội dung giống nhau. 

Ví dụ minh họa:

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

Để khắc phục lỗi này là bạn nên tắt tính năng phân trang bình luận hoặc sử dụng các liên kết phân trang rel= “prev, next” để báo hiệu rằng đây là một loạt các trang được phân trang.

9. Session IDs – Phiên truy cập

Session IDs giúp lưu giữ thông tin khách hàng truy cập, do đó mỗi khi người dùng vào và thoát trang sẽ để lai một chuỗi số ID, ví dụ như www.example.com/page1?sessionid=12455. Việc này rất dễ gây ra Duplicate Content trên website của bạn vì nội dung các trang người dùng truy cập đều giống nhau. Để tránh mắc lỗi này, bạn nên chuẩn hóa URL ngay từ đầu.

Xem thêm: SEO web tổng thể

Một số công cụ kiểm tra độ trùng lặp nội dung

1. Copyscape

Copyscape ra đời năm vào năm 2004 do công ty, đây là công cụ kiểm tra đạo văn hay mức độ trùng lặp nội dung miễn phí. Đồng thời, công cụ này cũng đưa ra 2 giải pháp để ngăn chặn đánh cắp nội dung và lừa đảo.

Với phiên bản Copyscape Premium sẽ cung cập các tính năng cao cấp như sao chép & dán nội dung gốc, tìm kiếm hàng loạt, index, theo dõi từng trường hợp và tích hợp API thông minh.

2. Dupli Checker

Dupli Checker là công cụ kiểm tra đạo văn sử dụng đơn giản, chỉ cần sao chép và dán hay bạn có thể tải nội dung văn bản là có kết quả có nội dung trùng lặp mà bạn cần kiểm tra. Chức năng của phiên bản miễn phí:

  • Kiểm tra trùng lặp nội dung cho tối đa 1000 từ trên mỗi lần kiểm tra
  • Kiểm tra cả lỗi ngữ pháp, chính tả.
  • Kiểm tra tài liệu với 7 loại định dạng: tex, .txt, .doc, .docx, .odt, .pdf, .rtf và cũng có thể sử dụng URL tài liệu, bài viết hay trang web để kiểm tra.

Để sử dụng nhiều tính năng hơn, bạn sẽ phải trả phí cho tài khoản Pro.

3. Small Seo Tool 

Đây là một công cụ kiểm tra đạo văn online miễn phí với các tính năng tuyệt vời như:

  • Nếu bài viết bạn check có chứa tác phẩm đạo văn thì bạn chỉ cần xử lý bằng cách kích chuột vào tùy chọn viết lại “Rewrite Plagiarised Content”. Ngay lập tức bạn sẽ được đưa đến công cụ tự động diễn giải của trang web và nội dung bài viết của bạn sẽ được cập nhật lại luôn
  • Cho phép kiểm tra nhiều loại định dạng tài liệu như pdf, doc, txt, ppt, tex, rtf,…hoặc thông qua URL, Google Drive, Dropbox
  • Cho phép bạn tải báo cáo tìm kiếm đạo văn online mà bạn chạy. Qua đó bạn sẽ có một số bằng chứng để chứng minh cho bài viết của mình có đạo văn hay không và gửi chúng đi khi cần thiết.
  • Kiểm tra các lỗi ngữ pháp như chính tả, dấu câu, số lượng từ,…
  • Tương thích với tất cả các thiết bị như Windows, Mac, Android, iOS,..

Ngoài ra còn rất nhiều công cụ khác mà bạn có thể tham khảo: Plagiarism Checker, DoIT, Turnitin, SpinEditor, DMCA Scan,Dustball….

 

 

 

 

 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *