Canonical URL là gì? Cách tối ưu Canonical URL trong SEO

Canonical URL là gì?

Canonical URL là thành phần HTML nhằm ngăn chặn nội dung bị trùng lặp hoặc bị duplicate. Từ đó giúp công cụ tìm kiếm nhận biết là URL mà bạn muốn nó xuất hiện trong kết quả tìm kiếm và không bị đánh giá trùng lặp trang web.

Hiểu đơn giản như sau, nếu website của bạn có một vài phiên bản tương tự với cùng một nội dung, bạn chọn một phiên bản “canonical” và hướng các công cụ tìm kiếm vào đó. Điều này sẽ giải quyết vấn đề trùng lặp nội dung khi các công cụ tìm kiếm không biết phiên bản nội dung nào sẽ hiển thị trong kết quả của họ.

Canonical URL là gì
Canonical URL là gì

 Lý do cần sử dụng Canonical URL?

  • Để chỉ định URL sẽ hiển thị trong kết quả tìm kiếm.

Canonical URL giúp công cụ tìm kiếm nhận biết URL cần được hiển thị cho người dùng giữa những URL bị trùng lặp nội dung. Nếu không dùng Canonical, nhiều khả năng công cụ tìm kiếm sẽ lựa chọn ngẫu nhiên vì không biết đâu là URL gốc.

Search engine có thể chọn ngẫu nhiên một trong những URL sau để hiển thị:

https://fancytshirts.com/tshirts/bluewear/shirt

https://fancytshirts.com/tshirts/shirt?dawwe.html

Trong khi URL bạn muốn hiển thị trên công cụ tìm kiếm: https://www.fancytshirts.com/tshirts/blue/bluetshirt.html

  • Hợp nhất các URL có nội dung gần giống hoặc trùng lặp

Canonical trong SEO là một giải pháp giúp hợp nhất SEO value, những URL trùng lặp nội dung về một URL được chọn. Tất cả các SEO value thuộc URL khác nhau đều hợp nhất về một URL gốc, nên sẽ không có trường hợp cạnh tranh ranking/traffic giữa các URL.

  • Để tránh dành thời gian thu thập dữ liệu các trang trùng lặp.

Thay vì Googlebot phải dành nhiều thời gian để thu thập dữ liệu trên phiên bản dành cho máy tính để bàn và thiết bị di động của cùng một trang thì việc sử dụng canonical URL sẽ giúp Googlebot có thời gian để thu thập dữ liệu các trang mới (hoặc cập nhật) trên trang web của bạn.

  • Hạn chế việc công cụ tìm kiếm bỏ qua nội dung không trùng lặp

Việc công cụ tìm kiếm phải crawl quá nhiều nội dung bị trùng lặp hoặc gần giống nhau sẽ dẫn đến trường hợp bỏ sót những nội dung không trùng lặp (unique content). Khi sử dụng thẻ Canonical sẽ giúp khai báo với công cụ tìm kiếm về URL gốc.

Xem thêm: KPI SEO là gì?

Khi nào bạn nên sử dụng canonical URL

Những trường hợp cần sử dụng Khi nào bạn nên sử dụng canonical URL
Những trường hợp cần sử dụng Khi nào bạn nên sử dụng canonical URL
  1. Các trang trùng lặp chỉ khác nhau về tên miền phụ www hoặc giao thức http/https

Đây là trường hợp thường thấy nhất khi cùng một website có đến tận 4 URL trùng lặp như sau:

  • http://example.com
  • https://example.com
  • http://www.example.com
  • https://www.example.com
  1. Phiên bản máy tính và di động

Trường hợp này sẽ hiểu rằng, cùng một nội dung nhưng tùy vào thiết bị mà người dùng sử dụng, sẽ trỏ về những URL tương ứng với phiên bản máy tính hay di động, để tạo trải nghiệm sử dụng tốt và thân thiện với người dùng.

  • Phiên bản máy tính: https://example.com/
  • Phiên bản di động: https:/example.com/
  1. URL có dấu gạch chéo hoặc không ở cuối. 

Đây cũng là trường hợp thường gặp và cần được sử dụng canonical url. 2 trang dưới đây sẽ bị cho là trùng lặp nội dung:

  • http://example.com/home
  • http://example.com/home/
  1. Trang trùng lặp do bộ lọc (filter)

Việc sử dụng filter để lọc nội dung thường gây ra trùng lặp, dễ bắt gặp ở các trang web thương mại điện tử. Ví dụ, tìm kiếm một loại son môi theo các bộ lọc về màu sắc, thương hiệu và giá sẽ cho ra 3 URL khác nhau dù nội dung vẫn tương tự: 

  • https://example.com/lipstick/s10020
  • https://example.com/lipstick/s10021
  • https://example.com/lipstick/s10023

Ngoài ra, lý do cho việc nên sử dụng <rel = canonical> là liên kết tự nhiên chất lượng là vì: một trong những cách để Google xác định chất lượng của một liên kết đó là thông qua số lượng lượng truy cập và tỷ lệ nhấp. Và nếu trang web của bạn không có canonical link, lượng truy cập sẽ được phân chia giữa các URL riêng biệt mặc dù về mặt kỹ thuật thì chúng cùng một trang web.

Trong trường hợp không tự mình xác định được link gốc. Google sẽ thay bạn xem xét và quyết định loại hoặc chọn link tốt nhất. Tất nhiên, dựa vào Google như thế không phải là một ý tưởng hay. Vì họ có thể chọn ngẫu nhiên 1 URL mà bạn không thật sự muốn nó sẽ trở thành link gốc.

Hướng dẫn sử dụng  Canonical URL

1. Quy tắc khi sử dụng Canonical URL

Quy tắc 1: Sử dụng URL tuyệt đối

John Mueller của Google nói rằng cách tốt nhất là không dùng đường dẫn tương đối với phần tử rel=“canonical” . Thay vào đó, bạn nên dùng cấu trúc sau: <link rel=“canonical” href=“https://example.com/sample-page/” />. Trái ngược với cấu trúc này: <link rel=“canonical” href=”/sample-page/” />

Quy tắc 2: Sử dụng chữ viết thường trong URL

Google thường coi các URL viết hoa và viết thường là hai link khác nhau. Tuy nhiên, bạn nên dùng chữ viết thường trong URL trên máy chủ của mình, sau đó dùng link viết thường cho Canonical Tag.

Quy tắc 3: Sử dụng đúng phiên bản miền HTTPS hay HTTP

Nếu bạn đã chuyển sang SSL, hãy đảm bảo rằng bạn không khai báo bất kỳ URL không phải SSL (tức là HTTP) nào trong việc sử dụng thẻ Canonical Tag. Làm như vậy về mặt lý thuyết dẫn đến nhầm lẫn và kết quả không mong muốn. 

Đối với secure domain, hãy đảm bảo rằng bạn dùng phiên bản URL sau:<link rel=“canonical” href=“https://example.com/sample-page/” />

Còn nếu bạn không dùng HTTPS thì hãy dùng dạng URL này: <link rel=“canonical” href=“http://example.com/sample-page/” />

Quy tắc 4: Sử dụng Canonical Tag tự tham chiếu

John Mueller cho rằng mặc dù không bắt buộc nhưng Canonical tự tham chiếu vẫn là sự lựa chọn đáng cân nhắc. Vì nó giúp Google hiểu rõ bạn muốn index trang nào hoặc link sẽ có cấu trúc như thế nào khi được index. Về cơ bản, tự tham chiếu là Canonical trên một trang mà trỏ link đến chính nó.

Ví dụ, nếu URL là https://example.com/sample-page, thì Canonical tự tham chiếu trên trang đó sẽ là: <link rel=“canonical” href=“https://example.com/sample-page” />. Hầu hết các CMS phổ biến hiện đại đều tự động thêm các URL tự tham chiếu. Còn với CMS tùy chỉnh, bạn nhờ đến các nhà phát triển web  hardcode nó.

Quy tắc 5: Sử dụng 1 Canonical Tag cho mỗi trang

Nếu 1 trang có nhiều hơn 1 Canonical Tag, Google sẽ bỏ qua tất cả. Vì thế, mỗi trang chỉ nên sử dụng 1 thẻ thôi bạn nhé. Có năm cách để chỉ định link gốc với các tín hiệu chuẩn hóa sau:

  • HTML tag
  • HTTP header
  • Sitemap
  • 301 redirect*
  • Liên kết nội bộ (Internal links)

2. Cách cài đặt thẻ Canonical

Cách 1: Cài đặt Canonical URL bằng thẻ rel = “canonical” trong HTML

Dùng thẻ rel = canonical là cách đơn giản và rõ ràng nhất để chỉ định link gốc. Bước Bước 1: Chọn 1 trong số các trang trùng lặp làm phiên bản chuẩn. Đây là URL bạn đánh giá là quan trọng nhất hoặc có thể ưu tiên chọn URL có lưu lượng truy cập cao hoặc được liên kết với nhiều trang khác. 

Bước 2: Thêm đoạn code dưới đây vào các trang trùng lặp. Khi đó URL trùng lặp sẽ liên kết đến Canonical URL trong phần <head> của trang như sau: 

 <link rel = “canonical” href = “url-chuan”>

Thay “url-chuan” bằng URL được chọn ở bước đầu tiên. Thực hiện theo cách này tương tự với việc “hợp nhất” hai trang thành một từ góc nhìn của các công cụ tìm kiếm. 

Cách 2: Cài đặt Canonical URL trong WordPress

  • Bước 1: Đăng nhập vào tài khoản admin WordPress và cài đặt Plugins Yoast SEO.
  • Bước 2: Chọn bài viết trùng lặp cần cần đặt thẻ <link rel= “canonical”
  • Bước 3: Cuộn trang xuống phía cuối bài viết, chọn vào phần Advanced.
  • Bước 4: Copy URL chuẩn đã chọn, dán vào phần Canonical URL
Cài đặt Canonical URL trong WordPress
Cài đặt Canonical URL trong WordPress

Xem thêm: SEO bất động sản

Cách nhận biết Canonical URL đã được cài đặt hay chưa

Cách 1: View-source

Canonical URL có thể được nhận biết trong HTML thông qua thẻ thuộc tính rel = “canonical”. Nó là yếu tố chỉ có các công cụ tìm kiếm nhìn thấy và người dùng internet cũng không bị ảnh hưởng bởi nó. 

Trong hầu hết các trình duyệt, bạn có thể nhấp chuột phải > chọn “Xem nguồn trang” hoặc bấm tổ hợp phím Ctrl + U để mở view-source. Trong mã nguồn, bạn sẽ tìm được thẻ canonical như hình sau:

Nhận biết thẻ Canonical trong view-source
Nhận biết thẻ Canonical trong view-source

Cách 2: Sử dụng MozBar

MozBar là một công cụ SEO miễn phí giúp bạn dễ dàng nhận biết các thẻ canonical trên bất kỳ trang web nào. Sau khi cài đặt, chỉ cần nhấn vào tab “Phân tích trang” và chọn “Thuộc tính chung” (General Attributes). Tại đây sẽ hiển thị các thông tin về trang web trong đó có ref = “canonical”.  

Nhận biết thẻ Canonical bằng công cụ MozBar
Nhận biết thẻ Canonical bằng công cụ MozBar

Những lỗi phổ biến khi dùng Canonical URL

  • Sử dụng nhầm cho những phân trang. 

Chẳng hạn như trang blog hay trang danh mục sản phẩm , bạn không nên làm cách chỉ định Canonical Url. Trên thực tế, khi đó nội dung trên những trang khác nhau khá nhiều, người dùng không nên sử dụng Canonical Url để tránh trường hợp bị bỏ sót trang không được lập chỉ mục. Thay vào đây, bạn nên sử dụng những tính năng phân trang với thuộc tính rel = “next” và rel = “prev” 

  • Quên không sử HTTP sang HTTPS trong Url chuẩn. 

Khi cài đặt trong chuyển hướng tự động từ giao thức http sang https xong, bạn cần cập nhật trong Url sang dạng HTTPS.

  • Tham chiếu các phiên bản URL trên mobile của mình bằng thẻ canonical.

Cách chính xác để làm điều đó là thêm một thẻ canonical chỉ từ URL mobile vào URL desktop và cũng có một thẻ alternate (thay thế) tương ứng trỏ từ URL desktop vào URL mobile.

  • Đặt nhầm thẻ rel=canonical trong phần Body

Rel = canonical chỉ nên xuất hiện trong <head> của tài liệu. Thẻ chuẩn trong phần <body> của web rất dễ bị bỏ qua. Mặc dù mã nguồn của một trang có thể có thẻ rel = canonical ở đúng vị trí, nhưng khi nó thực sự được tạo trong trình duyệt hoặc được hiển thị bởi Google thì sẽ có nhiều vấn đề xảy ra như: thẻ không được đóng, JavaScript bị chèn hoặc <iframes> trong phần <head>,… khiến <head> phải kết thúc sớm trong khung trình duyệt.

  • Sử dụng Noindex với rel = canonical

Nếu bạn không muốn trang của mình được lập chỉ mục và không xuất hiện hoặc có thể xếp hạng trong các công cụ tìm kiếm, thì bạn nên sử dụng noindex. Thẻ Canonical có cơ hội bị bỏ qua nhiều hơn so với thẻ noindex. Tuy nhiên, do các thẻ canonical cũng vượt link equity, bạn nên xem xét chúng. Có thể có ai đó có thể liên kết đến trang noindex đó của bạn.

Noindex là một cách tốt để xử lý nội dung trùng lặp. Bạn cũng có thể làm việc này thông qua tệp Robots.txt. Tuy nhiên, hãy nhớ rằng với một thẻ canonical, bạn sẽ vượt qua link equity, trong khi với noindex bạn không có. 

  • Có quá nhiều thẻ rel=canonical

Trường hợp các bạn dùng nhiều các plugin SEO, mỗi plugin sẽ tạo một thẻ Canonical dẫn đến các URL cũng khác nhau, từ đó xuất hiện nhiều thẻ trên một trang. Điều này sẽ khiến Google dễ dàng bỏ qua tất cả. Đây là lý do tại sao nhiều plugin có tùy chọn ghi đè đảm bảo chúng là nguồn duy nhất cho các Canonical URL.

Công cụ tìm kiêm sẽ bỏ qua nếu trang web được thiết lập nhiều hơn 1 thẻ Canonical
Công cụ tìm kiêm sẽ bỏ qua nếu trang web được thiết lập nhiều hơn 1 thẻ Canonical

Cũng có nhiều trường hợp thẻ rel = canonical được thêm vào bởi JavaScript. Google chấp thuận trường hợp này chỉ khi URL gốc không xuất hiện trên HTML và sau đó bạn thêm thẻ rel = canonical với JavaScript. Ngược lại, nếu HTML đã có thẻ rồi mà bạn lại tiếp tục hoán đổi page khác ưa thích bằng JavaScript. Thì có lẽ bạn đang làm khó Google bởi hàng loạt tín hiệu hỗn hợp đấy. 

Xem thêm: SERP analysis là gì?

Một số lưu ý khi sử dụng thẻ Canonical

  • Chủ động chuẩn hoá trang chủ

Do các bản sao của trang chủ là rất phổ biến, có thể liên kết đến trang chủ của bạn theo nhiều cách mà bạn rất khó kiểm soát chúng (ví dụ: trường hợp đặt UTM tracking hoặc A/B testing). Vì vậy đặt một thẻ chuẩn trên trang chủ để ngăn ngừa các sự cố là rất cần thiết.

Chủ động chuẩn hoá trang chủ bằng Canonical URL
Chủ động chuẩn hoá trang chủ bằng Canonical URL
  • Trong một vài trường hợp nên dùng chuyển hướng thay vì sử dụng Canonical Url. Đặc biệt là đối với những phiên bản có www và không có www, hay giao thức http và https.
  • Chỉ nên sử dụng thuộc tính rel=”canonical” khi 2 hay nhiều trang có 1 nội dung bị trùng lặp là đáng kể. Nếu dùng lặp ít thì không nên thông báo, còn nếu không thì bạn đã làm lãng phí nguồn lực khi khai báo có 1 trang có url phụ đồng thời sẽ không được tính vào kho dữ liệu của bạn.
  • Khi thông báo UR chuẩn và công cụ tìm kiếm (SE) đánh giá cao việc này thì SE không có nghĩa vụ phải sử dụng URL chuẩn. Các công cụ tìm kiếm có thuật toán riêng để đánh giá, và do đó vẫn có khả năng tự quyết định đâu mới là URL chuẩn trong số những trang được coi là trùng lặp nội dung.

Trên đây là những chia sẽ chi tiết về Canonical Url mà ddi.vn muốn gửi đến cách bạn. Hy vọng những kiến thức này sẽ giúp ích được các bạn phần nào trong quá trình làm việc nhé!

 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *