这是http://cssfingerprint.com
我有一个网站一个相当大的数据库(〜100M行)。 这既包括主域(二者2LD和3LD)和特定的URL从这些域刮下(是否托管有[像大多数博客]或仅链接从它[如Digg],并与参考到主机域)。
我也凑了Alexa的顶部万美元,Bloglines的顶部1000,谷歌的PageRank,Technorati的前100名,和Quantcast顶部万元排名。 许多领域不会有任何的排名虽然,或仅部分集; 和几乎所有的子域网址具有比谷歌的PageRank的0-10所有其他无排名(有些甚至没有这一点)。
我可以添加任何新的必要的碎屑,假设它不需要蜘蛛的巨量。
我也有关于先前用户已经访问过的网站的信息相当多。
我需要的是,这些订单的网址访问者是如何可能已经访问过的网址不当前访问者的任何知识的算法。 (它可以,但是,使用有关以前的用户聚集的信息。)
这个问题是只是相对固定的(或至少聚集的)先验排名; 还有另一个问题 ,与得到一个动态排名交易。
既然我已经有限的资源(包括计算和金融),什么是对我已经参观了他们的先验概率的顺序对这些网站的最佳方式?