2013 年的网页有 38% 今天已无法访问
皮尤研究中心的一项分析发现,2013 年的网页到 2023 年 10 月有 38% 已无法访问。研究结果凸显了在线内容寿命的短暂。研究人员利用了 Common Crawl 存档的网页,该服务定期存档互联网快照。从 2013 年到 2023 年研究人员每年收集了约 9 万个网页的样本,检查网页今天是否还能访问。结果发现,截至 2023 年 10 月,所有网页有四分之一无法访问,无法访问的情况分两种:16% 是网页不存在但域名还在,9% 是域名都没了。2013 年快照收集的网页中,有 38% 在 2023 年无法访问;2021 年收集的快照两年后有五分之一无法访问。研究人员使用 Common Crawl 于 2023 年 3/4 月的快照分析了 50 万个政府网页,检查网页上的链接是否有效。在 4200 万个链接中 86% 是站内链接,这些政府网页绝大多数使用 HTTPS,6% 指向静态文件如 PDF,16% 的链接被重定向,6% 的网页无法访问,21% 的网页至少包含一个坏链。对新闻网站网页的分析发现,23% 的网页至少包含一个坏链,高流量新闻网站和低流量新闻网站网页包含的坏链比例基本相同。54% 的维基百科网页参考链接至少包含一个死链。研究人员还在 2023 年春天分析了 X/Twitter 上的实时推文样本,发现接近五分之一的推文在 3 个月就基本不可见。其中六成是因为账号被设为私有、冻结或删除。四成是因为账号发布者自己删除,但账号本身还活跃。
- https://www.solidot.org/story?sid=78207
- https://www.pewresearch.org/data-labs/2024/05/17/when-online-content-disappears/