互联网档案馆(Internet Archive)是一个非营利性的数字图书馆组织。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供数字数据如网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。迄至2012年10月,其信息储量达到10PB。
其数据是由自带的网络爬虫自动搜集的,其网站典藏档案馆网站时光机,抓取了超过1500亿的网页。
其年度预算约为1000万美元,来源则是其网页爬虫服务、合作关系、赞助以及卡利-奥斯丁基金会。总部位于旧金山里奇蒙德区,此地雇员只有数十人,大部分雇员工作于书籍扫描中心,在红木城也有数据中心。
该数据库是国际互联网保存联盟成员,2007年被加利福尼亚州选为官方指定图书馆[10]。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏。
时光机
网站时光机是互联网档案馆最重要的服务之一。其名取自一部名为The Rocky and Bullwinkle Show的美国卡通片,时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。年份 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 存档页面的数量
(亿) 400 850 850 850 1500 1500 1500 1500 3730 4000
Archive-It
Archive-it是一款帮助机构和个人创建存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的Robots.txt访问,该网页将会成为时光机的一部分。截至2014年3月,Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。
如何从互联网档案馆下载网站历史数据
WAYBACK MACHINE DOWNLOADER则是专门用来下载 archive.org 上某个网站档案的工具,它会帮你把 html、css、图片、js 全部拉回来并且转换好本地链接,让你在电脑上就可以打开。
只需要先去 archive.org 获得网址,输入进 WAYBACK 机器即可。需要等待一段时间才能下载,青小蛙尝试速度较慢。
下载地址:
https://websitedownloader.io/wayback-machine-downloader/
一点就转 :收集和分享实用网站资源,推荐国内外知名、实用、、优质的网站资源!本站收录的"互联网档案馆|提供网络历史数据查询“信息均来其官方网站或互联网的开放资源,具有时效性,因域名、网站名称及内容会受域名过期、网站服务器故障、域名所有者更替等不确定因素,而存内容失效、错误等情况,请您谅解。如您发现网站失效或者无法访问请通过邮箱或者QQ(97302255)的形式告诉本站。