Home Feed Your MindSEOOn-Page SEO Duplicate Content, phải xử lý như nào?

Duplicate Content, phải xử lý như nào?

by Ngoc Anh

1. Duplicate Content (Nội dung trùng lặp) là gì?

Nội dung trùng lặp là nội dung xuất hiện trên Internet nhiều hơn 1 địa điểm. “Địa điểm” ở đây có nghĩa là địa chỉ web (URLs), do đó, nếu nội dung của bạn xuất hiện ở nhiều hơn 1 URLS, chúc mừng, bạn đã có nội dung trùng lặp 😀 

2. Nội dung trùng lặp gây ra những hậu quả gì? 

2.1. Với SEO 

Nội dung bị trùng lặp quá nhiều, mà thêm quả thin content, spam content nữa thì khả năng cao các bạn sẽ bị phạt và rơi vào sandbox. Thuật toán của Google giờ quá đỉnh (Sau nhiều lần cập nhật) và dễ dàng phát hiện ra nội dung trùng lặp và cũng dễ dàng khiến thứ hạng SEO của bạn bị ảnh hưởng. 

Tuy nhiên, mình vẫn thấy nhiều trang copy mà vẫn lên top được. Điển hình là hội báo chí rất hay copy và đăng lại nội dung của nhau. Do thường báo chí có độ uy tín (trust) cao rồi, mà báo cập nhật càng nhiều thông tin thì càng tốt cho người đọc. Nên Google chắc vì thế mà bỏ qua. 

Các trường hợp website khác copy lại mà lên top nhanh hơn, cũng thường là do trang đó có độ uy tín cao hơn và có cách để index nhanh hơn bạn. Lúc này, hãy nhờ tới DMCA nhé (chi tiết bên dưới)

2.2. Với bot Google 

Nội dung trùng lặp sẽ khiến các bạn bot bị confused, hoang mang không biết đâu là trang gốc, không biết đâu là trang bạn muốn rank (trường hợp trùng lặp nội dung trên cùng  1 website), không biết đâu là trang nên thêm vào/bỏ ra khỏi trang kết quả tìm kiếm 

2.3. Cho người đọc 

Boring, nhàm chán, không tìm kiếm được thông tin hữu ích.

Mấy cái này ai cũng biết, nên thôi t skip đến phần quan trọng nhé 

3. Nguyên nhân gây ra nội dung trùng lặp là gì?

3.1. Url parameter 

Nói 1 cách dễ hiểu, parameter là các tham số tạo nên url động. Có 2 loại: 

  • Tham số URL chủ động (Active Parameter URL): là dạng url sinh ra khi bạn lọc, sắp xếp thứ tự trên trang, ví dụ: từ cao đến thấp, từ mới nhất đến cũ nhất…. 

Ví dụ: 

http://yourdomain.com/products/dresses/?sort=price_highhttp://yourdomain.com/products/dresses/?sort=price_low
  • Tham số URL bị động (Passive Parameter URL) không làm ảnh hưởng hay thay đổi nội dung trên web, thường sinh ra do sesion id, utm … 

Ví dụ: 

https://yourdomain.com/products/dresses/?sort=price_highhttps://yourdomain.com/products/dresses/?sort=price_lowhttps://yourdomain.com/products/dresses/search?color=red&size=8https://yourdomain.com/products/dresses/?sessionid=12345

Tất cả các url trên Google đều coi là trùng lặp nội dung 

3.2. Http-Https, www-non-www

Nếu bạn có 2 site riêng biệt (www và non-www) hoặc http và https, và nội dung tồn tại trên 2 trang đó thì bạn sẽ bị trùng lặp nội dung 

3.2. Đạo văn 

Chính là đi copy paste về đó 

4. Cách xử lý nội dung trùng lặp 

Mỗi nguyên nhân ở trên có cách giải quyết riêng nhé.

4.1. Trùng lặp do đạo văn 

Tốt nhất là viết lại, biên tập nội dung cho khác biệt. Sắp xếp lại thứ tự câu từ, dùng từ đồng nghĩa trái nghĩa. Biên tập xong, nhớ check lại bằng các công cụ kiểm tra đạo văn nhé. Mình hay dùng plagiarism checker, hoặc bạn search các cụm trên google. 

4.2. Redirect 301 

Nếu trùng lặp do cặp đôi www – non-www hoặc cặp http – https thì bạn dùng 301 redirect. 

Ví dụ: bạn thống nhất trang của mình sẽ là https://yourdomain.com, thì phải đảm bảo redirect 301 cả 3 phiên bản  http://yourdomain.comhttps://www.yourdomain.com, http://www.yourdomain.com về trang kia. 

Để làm việc này,  bạn cài đặt chuyển hướng http về https, www về non-www trong htaccess nhé: 

To redirect non-www to www

RewriteCond %{HTTP_HOST} ^your_domain.com$

RewriteRule ^(.*)$ http://www.your_domain.com/$1 [R=301]

To redirect www to non-www

RewriteRule ^(.*)$ http://your_domain.com/$1 [R=301]
RewriteCond %{HTTP_HOST} ^www.your_domain.com$

To redirect non-www to www (while using SSL)

RewriteCond %{HTTP_HOST} ^your_domain.com$
RewriteRule ^(.*)$ https://www.your_domain.com/$1 [R=301]

To redirect www to non-www (while using SSL)

RewriteCond %{HTTP_HOST} ^www.your_domain.com$
RewriteCond %{SERVER_PORT} ^443
RewriteRule ^(.*)$ https://your_domain.com/$1 [R=301]

Nếu bạn chưa biết redirect 301 là gì, thì đọc bài này nhé!!

4.3. Canonical 

Yay, đây là 1 thứ mình khá thích vì nó khá thú vị. Mấy lần làm web, mình đè mấy ông dev ra bắt làm thẻ tag này. Và lần nào cũng mất chục phút giải thích những vấn đề này: 

Dev hỏi : Thẻ này để làm gì, vì sao em muốn làm thẻ này?

NA trả lời: thẻ này dùng trong trường hợp website có nhiều trang trùng lặp nội dung hoặc nội dung tương tự nhau. Cài thẻ này để nói cho Google biết em ưu tiên trang nào được index trên trang kết quả tìm kiếm của Google. Hỉu hông?

Dev hỏi tiếp: Thẻ đó trông như thế nào? Anh không biết làm đâu 

NA hỏi: ơ nó đơn giản lắm, anh chỉ cần chèn 1 cái code trông như này vào thôi: 

<link rel=”canonical” href=”https://yourdomain.com/abc-xyz”/> 

Chú ý cái đoạn   <link rel=”canonical” href=”…”/>

Dev vẫn không dừng hỏi: Ủa thế nếu không phải web tự code, người dùng wordpress xử lý sao 

NA từ tốn giải thích: người ta cài plugin đó nội :)) Yoast SEO các thứ làm được nhé!! 

Canonical còn nhiều vấn đề lắm, muốn tìm hiểu tiếp thì đọc ở đây nhé. Ngoài ra, anh dev nào muốn học thêm về SEO thì liên hệ với bạn NA nhé. Biết đâu, chúng ta có thể hợp tác chuyện business sau này :)) Welcome welcome!

4.4. Meta robot no-index 

Không cho trang đó index trên trang kết quả tìm kiếm của google luôn. Yoast SEO có chỗ tick vào ô là no-index. Còn website của t, ngay từ đầu t đã yêu cầu web code tính năng này rồi nên rất easy. Meta robot trông như này này 

Bạn có thể đọc thêm về robots.txt và meta robot ở đây! 

4.5. Sử dụng tính năng “parameter URLs” trên search console 

Bạn có thể thêm rất nhiều kiểu tham số vào phần “Parameter URLs” trên search console để google không index những trang này

Google lúc nào cũng khuyên và mình cũng khuyên “Bạn phải cẩn thận. Nếu bạn thực sự hiểu tính năng này, bạn mới lên dùng nhé. Tránh trường hợp no-index những trang quan trọng”

You may also like

Leave a Comment