Duplicate Content là gì? Nguyên nhân, Ảnh hưởng và Cách khắc phục

5
(1)

Nội dung trùng lặp có thể ảnh hưởng công việc SEO của bạn. Vì vậy, bạn cần tìm hiểu Duplicate Content là gì, phương pháp kiểm tra, sửa lỗi chúng hiệu quả.

Duplicate Content là gì mà nó lại trở thành một nỗi lo lắng thường trực đối với nhiều chủ sở hữu trang Web? Theo khảo sát gần đây, có 25–30% trang Web có các nội dung trùng lặp. Việc biết cách tránh và khắc phục các lỗi này sẽ rất hữu ích cho quá trình SEO của bạn, cũng như giúp trang Web đặc biệt hơn so với đối thủ cạnh tranh.

Duplicate Content là gì?

Duplicate Content là nội dung bị trùng lặp với nội dung đã xuất hiện trên Website khác.
Duplicate Content là nội dung bị trùng lặp với nội dung đã xuất hiện trên Website khác.

Duplicate Content là nội dung chính xác, hoặc gần giống với các nội dung đã xuất hiện trên nội bộ Website, bên ngoài Website trên Internet. Nó có thể xảy ra trên một trang Web hoặc Cross-Domain. Hầu hết các Duplicate Content xuất hiện do vô tình hoặc do kỹ thuật thực hiện bị lỗi. Nếu không được liên kết chính xác, cả các trang AMP của bạn cũng có thể tính là Duplicate Content.

Ví dụ: Bạn đăng một bài giới thiệu dịch vụ mới trên danh mục sản phẩm, sau đó lại đăng trên Page tin tức. Đây sẽ được xem là nội dung trùng lặp. Kể cả khi bạn đăng lại bài viết trên một Website khác thì đó vẫn tính là Duplicate Content.

Duplicate Content gây hại gì cho công việc SEO?

Hãy cùng Navee tìm hiểu chi tiết những tác hại có thể gây ra cho công việc SEO khi có Duplicate Content là gì. Thông qua đó, hy vọng bạn có thể hiểu hơn tầm quan trọng của việc khắc phục lỗi trùng lặp.

Xuất hiện URL không mong muốn hoặc không thân thiện trong kết quả tìm kiếm

Không ít trường hợp một Page với nội dung như nhau lại xuất hiện trên ba URL khác nhau. Ví dụ như bên dưới:

  • URL số 1 thân thiện với người dùng, là URL gốc của bài viết và có dạng như sau: domain.com/page/.
  • URL số 2: domain.com/page/?utm_content=buffer&utm_medium=social.
  • URL số 3: domain.com/category/page/.

Link số 1 sẽ hiển thị trong kết quả tìm kiếm, nhưng Google có thể hiển không chọn Link này để đưa lên Top mà chọn một trong số hai Link bên dưới. Nếu điều đó xảy ra, một URL không mong muốn có thể thay thế Link ban đầu. 

URL thay thế này có thể không thân thiện vì tên dài, không có từ khóa rõ ràng. Đa phần người dùng sẽ e ngại và không muốn nhấp vào một Link không thân thiện. Do đó, bạn có thể nhận được ít lưu lượng truy cập tự nhiên hơn.

Nếu một nội dung được đăng trên nhiều trang với nhiều URL khác nhau, mỗi URL đó có thể thu hút các Backlink cho riêng mình. Điều đó dẫn đến sự phân chia giá trị liên kết (Link Equity) giữa các URL.

Làm chậm quá trình thu thập thông tin

Nội dung trùng lặp có thể làm việc Index trang bị chậm trễ.
Nội dung trùng lặp có thể làm việc Index trang bị chậm trễ.

Google quét và hiểu nội dung mới trên trang Web của bạn thông qua việc thu thập thông tin. Có nghĩa là chúng đi theo các liên kết từ các trang hiện có đến các trang mới. Google cũng thu thập lại dữ liệu các trang cũ để xem có điều gì thay đổi không.

Vậy mức độ ảnh hưởng mà quá trình này gặp phải khi có Duplicate Content là gì? Các nội dung trùng lặp sẽ tạo thêm công việc cho Google. Điều đó có thể ảnh hưởng đến tốc độ và tần suất họ thu thập dữ liệu các trang mới hoặc các cập nhật của bạn.

Hậu quả gây ra có thể là làm chậm trễ việc lập chỉ mục các trang mới, hay Index lại các trang đã cập nhật.

Nội dung được phân phối trên nhiều nền tảng gây hại tới Ranking

Bạn có thể cho phép một trang Web khác xuất bản lại nội dung của bạn, đó được gọi là phân phối nội dung. Hoặc các trang Web có thể lấy nội dung của bạn và xuất bản lại mà không được phép.

Cả hai trường hợp này đều dẫn đến nội dung trùng lặp trên nhiều tên miền, nhưng chúng thường không gây ra vấn đề. Chỉ khi nội dung xuất bản lại có thứ hạng cao hơn nội dung gốc trên trang Web của bạn thì vấn đề mới phát sinh. Bạn nên xem xét lại việc phân phối nội dung này. Nếu nó không mang lại lợi ích cho bạn thì có thể dừng lại, yêu cầu các trang đánh cắp thông tin gỡ bài viết.

Các lý do gây nên Duplicate Content

Các SEOer đa phần đều không mong muốn nội dung trên trang Web xảy ra trùng lặp. Tuy nhiên, vì nhiều lý do mà tình trạng này vẫn xảy ra. Vậy cụ thể những lý do gây nên Duplicate Content là gì? Bài viết sẽ liệt kê cụ thể những nguyên nhân phổ biến nhất.

URL

Tính năng Filter trong Website

Tính năng này cho phép người dùng có thể lọc và sắp xếp các mục trên trang. Các trang Web thương mại điện tử sử dụng Filter rất nhiều. Tính năng này sẽ gắn các tham số vào cuối URL, ví dụ như ảnh bên dưới.

Tính năng Filter trong Website cho ra nhiều URL khác nhau
Tính năng Filter trong Website cho ra nhiều URL khác nhau

Bởi vì thường có nhiều sự kết hợp của các bộ lọc này, mỗi bộ lọc gắn một tham số cuối khác nhau cho URL. Kết quả dẫn đến là có nhiều nội dung trùng lặp hoặc gần trùng lặp.

URL có gạch chéo và không có gạch chéo

Google coi các URL có và không có dấu gạch chéo ở cuối là hoàn toàn độc lập với nhau. Ví dụ cụ thể như hai trang Web sau: navee.asia/page/ và navee.asia/page đều được Google coi là 2 URL khác nhau.

Để kiểm tra đây có phải là 2 URL riêng biệt hay không, thử load lại trang có dấu “/” và không có dấu “/”:

  • Nếu URL không có dấu “/” được chuyển hướng tới URL chứa dấu “/”, đó không được tính là Duplicate. 
  • Nếu có thể truy cập được ở cả hai URL này, thì điều đó có thể dẫn đến vấn đề nội dung trùng lặp.

Trang Web có phiên bản cho Mobile

Web có phiên bản Mobile thường tồn tại các URL thân thiện với thiết bị di động.
Web có phiên bản Mobile thường tồn tại các URL thân thiện với thiết bị di động.

Các URL thân thiện với thiết bị di động là các URL trùng lặp với các URL trên máy tính để bàn. Để giải quyết vấn đề này, bạn chỉ cần chuẩn hóa phiên bản thân thiện với thiết bị di động thành phiên bản gốc. Sử dụng Rel = “Alternate” để cho Google biết rằng URL thân thiện với thiết bị di động là phiên bản thay thế của nội dung trên máy tính để bàn.

HTTP, HTTPS, WWW

Hầu hết các trang Web đều có thể truy cập được ở một trong bốn biến thể sau:

  • https://example.com (https, không có www)
  • https://www.example.com (https, www)
  • http://example.com (http, không có www)
  • http://www.example.com (http, www)

Vậy lý do tạo nên Duplicate Content là gì? Nếu bạn không định cấu hình chính xác máy chủ của mình, trang Web của bạn sẽ có thể truy cập được ở hai hoặc nhiều biến thể này. Điều đó không tốt và có thể dẫn đến các vấn đề trùng lặp về nội dung.

Yếu tố Onpage cơ bản

Thẻ Heading

Để tránh các vấn đề về nội dung trùng lặp, hãy đảm bảo rằng mỗi trang trên Website của bạn có tiêu đề duy nhất trong mã HTML của trang. Đồng thời, các tiêu đề H1, H2, H3,… khác với các trang khác trên Website của bạn.

Thẻ Meta Description

Việc trùng lặp Meta Description cũng tạo nên Duplicate Content.
Việc trùng lặp Meta Description cũng tạo nên Duplicate Content.

Việc đảm bảo Meta Description không bị trùng lặp cũng vô cùng quan trọng. Phần nội dung này nếu Copy cho tất cả các bài viết sẽ gây trùng lặp, khó khăn cho Google thu thập thông tin, hiểu nội dung của các trang khác nhau. Nếu bạn không có điều kiện viết Meta Description duy nhất cho mỗi trang, hãy để trống mục này. Google sẽ lấy các đoạn trích từ nội dung của bạn và trình bày nó dưới dạng mô tả Meta.

Content có độ trùng lặp cao

Nội dung do vô tình hay cố ý bị trùng lặp thì đều có thể gây ảnh hưởng đến việc SEO. Nội dung có thể bị trùng lặp do trang Web khác đăng lại nội dung của bạn. Hoặc bạn đăng một bài viết trên nhiều trang của mình. Nếu các nội dung này ảnh hưởng đến quá trình tối ưu hóa công cụ tìm kiếm, bạn cần loại bỏ nội dung trùng lặp.

Các công cụ kiểm tra độ trùng lặp nội dung

Ngay cả khi bạn chắc chắn rằng nội dung trang web của mình không bị ăn cắp ý tưởng, bạn cũng nên kiểm tra để đảm bảo rằng không có nội dung nào bị sao chép ngoài ý muốn. Vậy các công cụ bạn nên sử dụng để kiểm tra Duplicate Content là gì? Có thể kể đến một số công cụ như:

Copyscape

Copyscape cung cấp tính năng tìm kiếm URL miễn phí, với kết quả chỉ sau vài giây. Mặc dù phiên bản miễn phí không cho phép bạn thực hiện tìm kiếm sâu, nhưng kết quả của nó có độ chính xác cao.

Dupli Checker

Dupli Checker là công cụ kiểm tra trùng lặp nội dung được nhiều SEOer sử dụng.
Dupli Checker là công cụ kiểm tra trùng lặp nội dung được nhiều SEOer sử dụng.

Công cụ này cho phép bạn thực hiện tìm kiếm văn bản, hoặc tệp văn bản và tìm kiếm URL. Nó hoàn toàn miễn phí với các tìm kiếm không giới hạn khi bạn đăng ký. Trước khi đăng ký, bạn có thể sử dụng thử một lần. Quá trình quét kiểm tra trùng lặp sẽ hoàn tất chỉ sau vài giây.

Siteliner

Với công cụ này, bạn chỉ cần dán của URL Website vào công cụ, nó sẽ quét nội dung trùng lặp, thời gian tải trang, số từ trên mỗi trang, liên kết nội bộ và bên ngoài,… Tùy thuộc vào kích thước trang Web, quá trình quét có thể mất vài phút, nhưng kết quả rất đáng để chờ đợi.

Cách khắc phục Duplicate Content

Trong một vài trường hợp, Google nhận thấy rằng nội dung trùng lặp có thể được hiển thị với mục đích thao túng thứ hạng và đánh lừa người dùng. Lúc này, họ sẽ thực hiện các điều chỉnh trong việc Index và xếp hạng của các Website liên quan. Do đó, thứ hạng của trang Web có thể bị ảnh hưởng, hoặc trang Web có thể bị xóa hoàn toàn khỏi chỉ mục của Google, không còn xuất hiện trong kết quả tìm kiếm nữa.

Hiểu được cách khắc phục Duplicate Content là gì, bạn có thể chủ động giải quyết các vấn đề và đảm bảo khách truy cập sẽ thấy nội dung bạn muốn.

Dùng Redirect 301

Bạn có thể dùng Redirect 301 để khắc phục Duplicate Content.
Bạn có thể dùng Redirect 301 để khắc phục Duplicate Content.

Bạn hoàn toàn có thể sử dụng chuyển hướng 301 (“RedirectPermanent”) trong tệp “.htaccess” của mình để khắc phục Duplicate Content. Điều này sẽ giúp bạn chuyển hướng người dùng, Googlebot và các trình thu thập dữ liệu khác theo ý muốn. Khi người dùng truy cập một URL có nội dung bị trùng lặp, họ sẽ được điều hướng sang trang gốc, hoặc trang bạn muốn. Bạn có thể thực hiện việc này trong IIS thông qua bảng điều khiển quản trị, hoặc có thể thực hiện việc này trong Apache bằng tệp .htaccess.

Xây dựng liên kết hợp lý

Hãy cố gắng giữ liên kết nội bộ của bạn nhất quán. Đừng để xuất hiện vấn đề URL có dấu gạch chéo cuối Link, hay nội dung trùng ở các URL WWW, HTTP và HTTPS,…

Sử dụng Top-Level Domain

Để Google cung cấp phiên bản phù hợp nhất cho các tài liệu, bài viết, bạn hãy sử dụng các Top Level Domain (tên miền cấp cao nhất) bất cứ khi nào có thể để xử lý nội dung theo quốc gia, lĩnh vực cụ thể. Top Level Domain là phần mở rộng sau cuối của tên miền, nằm sau dấu chấm ở cuối cùng. 

Ví dụ, sử dụng “https://domain.vn” chứa nội dung tập trung vào người dùng tại Việt Nam sẽ được Google ưu tiên hơn là “https://domain.com/vn”.

Phân phối nội dung hợp lý cho từng nền tảng khác nhau

Nếu bạn cung cấp nội dung của mình trên các trang Web khác, Google sẽ luôn hiển thị phiên bản mà họ nghĩ là phù hợp nhất cho người dùng trong mỗi tìm kiếm nhất định. Kết quả tìm kiếm có thể không phải phiên bản bạn muốn. 

Vậy đối với trường hợp này, cách để khắc phục hậu quả không mong muốn của Duplicate Content là gì? Hãy đảm bảo rằng mỗi trang Web, bài viết có Copy nội dung của bạn sẽ có gắn Backlink về bài viết gốc của bạn. 

Bạn cũng có thể yêu cầu những người sử dụng nội dung của bạn sử dụng thẻ Meta Noindex để ngăn các công cụ tìm kiếm lập chỉ mục phiên bản nội dung của họ.

Tránh việc để Google Index những nội dung chưa hoàn thiện

Bạn có thể dùng thẻ Meta Noindex để ngăn Google lập chỉ mục nội dung chưa hoàn thiện.
Bạn có thể dùng thẻ Meta Noindex để ngăn Google lập chỉ mục nội dung chưa hoàn thiện.

Người dùng sẽ không thích nhìn thấy các trang trống, không có nội dung. Vì vậy, hãy tránh xuất bản các trang mà bạn chưa có nội dung thực. Nếu bạn muốn tạo các trang để giữ chỗ, hãy sử dụng thẻ Meta Noindex để chặn lập chỉ mục các trang này.

Giảm thiểu tối đa các nội dung tương tự nhau

Nếu bạn có nhiều trang giống nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang thành một. Ví dụ: nếu bạn có một Website du lịch với các trang riêng biệt cho hai thành phố, nhưng thông tin giống nhau trên cả hai trang. Lúc này, bạn có thể hợp nhất các trang thành một trang về cả hai thành phố, hoặc bạn có thể tạo nội dung khác biệt hơn, mở rộng mỗi trang để chứa nội dung duy nhất về mỗi thành phố.

Cách hạn chế Duplicate Content khi SEO Local Map

Khi SEO Local Map điều bạn cần thực hiện để tránh Duplicate Content là gì? Thông thường, các trang Web kinh doanh tạo một trang chứa thông tin về tất cả các vị trí của họ. Tuy nhiên, bạn nên tạo một trang được tối ưu hóa riêng cho từng vị trí của doanh nghiệp. Hãy đảm bảo rằng mỗi trang chứa đầy nội dung phong phú và độc đáo bao gồm:

  • Tên, địa chỉ và số điện thoại chính xác (NAP).
  • Bản đồ Google được nhúng đánh dấu vị trí doanh nghiệp.
  • Nội dung độc đáo dành riêng cho vị trí đó: Nội dung này có thể bao gồm một số thông tin về khu vực lân cận, thông tin tiểu sử của nhân viên và ảnh, các đánh giá của khách hàng,…

Để hiểu rõ hơn, bạn có thể tham khảo bài viết “Hướng dẫn SEO Local Map“.

Kết luận

Hiểu được Duplicate Content là gì, các ảnh hưởng của nó đến quá trình SEO có vai trò vô cùng quan trọng đối với các SEOer, đặc biệt là những nhà cung cấp dịch vụ SEO. Có rất nhiều lý do làm xuất hiện các nội dung trùng lặp. Điều quan trọng là chúng ta phải kiểm tra và phải loại bỏ chúng kịp thời.

Nội dung có hữu ích cho bạn?

Bình chọn 5 sao nếu bạn tìm được thông tin hữu ích!

Xếp hạng: 5 / 5. Lượt bình chọn: 1