본문 바로가기

카테고리 없음

사라진 콘텐츠 2 (Pages Disappears)

반응형
사라진 콘텐츠 2  Pages Disappears
 
■ 지난 10년간의 웹페이지
특정 시점에 존재하는 인터넷 스냅샷을 주기적으로 수집하는 인터넷 아카이브 서비스 Common Crawl의 아카이브에서 100만 개 미만의 웹페이지 중 무작위로 2013년~2023년 동안 매년 연간 약 9만 페이지 샘플을 기준으로 존재 여부를 확인했다. 두 가지 유형의 손상을 합한 수치다. 2013년 스냅샷 수집된 페이지 중 38%는 2023년에 작동하지 않았다. 2021년 수집 경우 불과 2년 후 약 5분의 1이 사라졌댜.
 
■ 정부 웹사이트 링크
연방, 주, 지방 자치 정부 등 사이트 중 약 50만 웹페이지를 표본으로 했다. 모든 링크를 찾아 무작위로 대상 페이지가 존재하는지 확인했다. 약 4,200만 개 링크가 있었다. 86%는 내부 링크였다. 약 4분의 3에는 페이지 내 링크가 하나 이상 포함되어 있고 전체적으로는 많은 링크가 콘텐츠에 포함되어 있다. 상위 10%에는 190~740개의 링크가 존재했다. 대다수는 보안 HTTP URL 페이지로 이동한다. 6%는 PDF 문서 같은 파일로 이동하며 16%는 원래 지정한 URL이 아닌 다른 URL로 연결되었다(리디렉션). 따라가보니 그중 6%는 더 이상 접근할 수 없는 페이지를 가리켰다. 내부/외부 유사 공유도 작동하지 않았다. 전반적으로 정부 웹페이지 중 21%에 깨진 링크가 하나 이상이 있었다. 페이지에 최소 14% 끊어진 링크가 있었다.
 
■ 뉴스 웹사이트 링크
23%는 하나 이상의 깨진 링크가 존재했다. ComScore에서 "뉴스/정보"로 분류한 2,063개 웹 사이트의 50만 페이지를 표본으로 했다. 외부 웹 사이트를 가리키는 1,400만 개 이상 링크가 포함되어 있었다. 약 94%에 외부 링크가 하나 이상, 중앙 페이지에는 약 20개의 링크가 포함되어 있다. 링크 수 기준으로 상위 10%는 평균 56개의 링크가 있다. 정부 웹사이트와 마찬가지로 대부분 보안 HTTP 페이지로 이동한다. 약 12%는 PDF 등 파일로 연결된다. 링크 중 32%는 다른 URL로 리디렉션되었다. 정부 사이트의 외부 링크의 39%보다 약간 적은 수치다. 그중 5%는 접근할 수 없었다. 샘플링한 전체 페이지 중 23%에는 깨진 링크가 하나 이상 포함되어 있었다. 뉴스 사이트 트래픽 기준 상위 20%의 페이지 중 약 25%에는 끊어진 링크가 하나 이상 있다. 20%에 해당하는 사이트 26%와 거의 동일했다.
 



반응형