Javascript is required

高精准IP地址定位技术-基于数据挖掘的方式

作者: IP数据云

栏目: 技术解读

发布时间: 2023-01-06 10:52:09

IP地址定位技术,是通过设备的IP地址来确定其地理位置。目前在互联网行业基于位置的服务已经成为趋势,基于地理位置的网络应用层出不穷,IP地址定位已广泛应用于网络安全、在线广告投放、在线安全支付、大数据分析、反欺诈风控、大数据征信等领域,这些也都可以通过ip数据云实现。高精准IP地址定位技术在互联网领域中越来越重要,那ip地址的数据是怎么挖掘的呢,以下整理了一些方式:

1、 基于DNS. Davis等人提出了一种基于DNS的方法。这种方法在资源记录(Resource Record)中增加位置字段。然而,这种方式实施起来仍有一定难度。这是因为管理员对于修改或者更新资源记录缺乏动力。此外,研究人员表明DNS的错误命名是具有普遍性的,这种错误有可能将互联网的拓扑映射毁掉。

2、基于Whois. Moore等人指出,地理位置定位也可以通过挖掘Whois数据库获得。然而,正如作者自己指出的那样,大型的机构可以把它们的机器分散在不同地点,但是却把这些机器的地理位置注册在公司的总部位置。举一个例子,许多现有使用此方法的IP地址定位数据库都把Google分布在世界各地的服务器错误的定位到了Mountain View,加州,美国。

3、基于主机. 路由器的主机名有时可以暗示出机器的地理信息。Padmanabhan和 Subramanian的GeoTrack首先找到离被探测目标最近的路由器,然后从这个路由器的主机名上来判断出该接入路由器的位置。最终,GeoTrack认为路由器的位置信息即是被探测目标的位置信息。然而,这种方法受到多种因素的影响。第一,并不是所有的机器名称中都包含地理位置信息。其次,管理员可以非常有创意地来命名他们的机器,因此,从技术上来说,解析全部命名格式是十分困难的。再次,由于最后一跳路由器可能和目标主机相差很远,因此用最后一跳路由器的位置来替代目标主机的位置可能带来很大的错误。

4、基于Web. Guo等人的Structon,从Web网页中挖掘地理位置信息。尤其是Structon建立了一个地理定位表,并在一个非常大的数据集的每个网页页面上使用正则表达式提取地理位置信息。由于Structon不把他们发掘的基准点与延迟测量向结合,它只实现了较粗颗粒度的定位精度,如城市级别。他们从网页上提取所有与地理位置有关的信息,而不仅仅是邮政地址信息,而且对于一个网站,他们考虑这个网站域名下的所有网页所提供的地理位置信息。事实上,这种办法很容易出错。此外,把一个/24的IP段都考虑为同一个城市忽略了在这一个网段中IP地址的更细颗粒度的特点。由于Hosting即数据中心、网页地址不正确、traceroute经过的路由未知等因素,会有很大一部分IP地址无法定位或者定位错误,该方法要达到一个较高的精准度是很困难的。

5、其他来源. Padmanabhan和Subramanian的GeoCluster使用在BGP路由表中IP地址的前缀把IP地址首先聚成集群。此外,通过一些私有的资源,GeoCluster找到集群中部分IP地址的地理位置信息。这些私有资源有很多种,其中一个例子是用户在使用Hotmail服务时,登记自己的地理位置信息。最终,根据这些部分IP地址的地理位置信息,GeoCluster推导出整个群集的所有IP地址的地理位置信息。该方法的正确性高度取决于用户的输入。并且这些私有的位置信息一般情况下是不公开的。