CN104268246A

CN104268246A - 生成访问互联网站点指令脚本的方法及访问方法和装置

Info

Publication number: CN104268246A
Application number: CN201410517556.8A
Authority: CN
Inventors: 王恺; 王拓宇; 王升; 张传文; 李阳; 张树
Original assignee: BEIJING WISEWEB TECHNOLOGY Co Ltd
Current assignee: BEIJING WISEWEB TECHNOLOGY Co Ltd
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2015-01-07
Anticipated expiration: 2034-09-30
Also published as: CN104268246B

Abstract

本发明提供一种生成访问互联网站点指令脚本的方法以及使用该脚本访问互联网站点的方法，首先获取用户的所有执行操作，并提取各个执行操作所对应的网站页面的信息；然后顺序保存上述过程中用户的所有操作信息以及网站页面信息，生成指令脚本。该方案，通过记录整个用户操作过程和网站处理过程的方式，来生成指令脚本，使得用户下一次访问该站点时，可以通过后台直接运行上述脚本的过程，自动完成整个访问过程，该访问过程的结果，与用户通过上次繁琐的过程完成的结果是一致的，因此后续用户对该网站的所有操作都可以被支持。

Description

生成访问互联网站点指令脚本的方法及访问方法和装置

技术领域

本发明涉及互联网领域，具体地说是一种访问互联网站点的方法和生成该访问脚本的方法和装置。

背景技术

随着互联网技术的发展和普及，互联网中的信息量日益庞大，随着互联网的崛起，越来越多的人使用互联网，互联网已经成为人们生活中的一部分。每个用户都有自己访问网络的习惯，按照自己的习惯去访问一些自己感兴趣的站点，来阅读相关的内容。但是，由于在网站中很多信息都是通过分类索引的方式存储的，要找到这些信息经常需要登录、搜索等重复的步骤。为了找到这些内容，用户每次打开web浏览器都做着同样繁琐的操作去访问互联网找到他们想要的阅读内容，不仅费时而且费事。有一些浏览器，已经支持记住最后访问的页面的功能，但一旦开启它，每次关闭时的所有的最后页面，在下次开启浏览器时都会被打开，无论该页面是否是用户关心的页面。此外，还有一些浏览器支持通过书签来实现快速导航，但是由于某些页面需要用户输入信息或者选择等操作，快速导航无法直接到达目标页面。

在中国专利文献CN102065572A中公开了一种互联网页面访问方法，移动浏览器在请求访问互联网页面之前，判断本地是否保存有待访问互联网页面对应的模板，有模板时，网关返回待访问互联网页面的内容数据，移动浏览器合并该内容数据与待访问互联网页面对应的模板后呈现。该方案中的互联网页面访问方法，通过设置模板的方式，提高了用户上网浏览的速度，降低了网关和用户端需求的计算资源。虽然该方案可以减少数据处理量，节约流量，但是对于用户访问的页面，还是需要加载模板后通过页面返回的数据来转到用户访问的网页，无法实现对用户访问过的页面的快速访问。

发明内容

为此，本发明所要解决的技术问题在于现有技术中用户访问互联网站点时需要繁琐的操作才能打开目标站点的问题，从而提出一种可以快速访问目标站点的访问互联网站点的方法和系统。

为解决上述技术问题，本发明的提供一种访问互联网站点的方法和系统。

一种生成访问互联网站点指令脚本的方法，包括如下步骤：

获取用户的所有执行操作，并提取各个执行操作所对应的网站页面的信息；

顺序保存上述过程中用户的所有操作信息以及网站页面信息，生成指令脚本。

优选地，所述获取用户的所有执行操作的步骤包括：

判断用户的操作信息中是否存在对DOM项的操作，

判断为是，提取网站页面的信息，通过DOM查找规则获得所有被操作的DOM项，并获取用户的执行操作；

否则，获取用户的执行操作及其执行时的相关参数；

循环该过程，对用户的所有操作进行处理

优选地，所述DOM查找规则包括：

使用DOM项的特征进行匹配；与/或

通过使用DOM路径进行匹配。

优选地，所述执行操作动作包括鼠标输入动作、键盘输入动作，数据流读写动作、数据库读写动作、加载页面中的一个或多个的任意组合。

此外，本发明还提供一种生成访问互联网站点指令脚本的装置，包括：

提取单元：获取用户的所有执行操作，并提取各个执行操作所对应的网站页面的信息；

生成单元：顺序保存上述过程中用户的所有操作信息以及网站页面信息，生成指令脚本。

优选地，所述提取单元包括：

判断单元：判断用户的操作信息中是否存在对DOM项的操作，

第一提取单元：判断为是，提取网站页面的信息，通过DOM查找规则获得所有被操作的DOM项，并获取用户的执行操作；

第二提取单元：判断为否，获取用户的执行操作及其执行时的相关参数；

循环单元：循环该过程，对用户的所有操作进行处理

优选地，所述DOM查找规则包括：

使用DOM项的特征进行匹配；与/或

通过使用DOM路径进行匹配。

优选地，所述执行操作包括鼠标按下、鼠标弹起、鼠标移动、鼠标单击、鼠标双击、按下键盘按键、键盘按键弹起、输入URL、输入文本、写入数据、读取数据、加载页面中的一个或多个的任意组合。

本发明还提供一种访问互联网站点的方法，运行所生成的指令脚本，访问互联网站点。

本发明还提供一种访问互联网站点的装置，包括：

生成装置，如所述生成访问互联网站点指令脚本的装置；

还包括执行装置，运行所述装置生成的指令脚本，访问互联网站点。

本发明的上述技术方案相比现有技术具有以下优点，

（1）本发明提供一种生成访问互联网站点指令脚本的方法以及使用该脚本访问互联网站点的方法，首先获取用户的所有执行操作，并提取各个执行操作所对应的网站页面的信息；然后顺序保存上述过程中用户的所有操作信息以及网站页面信息，生成指令脚本。该方案，通过记录整个用户操作过程和网站处理过程的方式，来生成指令脚本，使得用户下一次访问该站点时，可以通过后台直接运行上述脚本的过程，自动完成整个访问过程，该访问过程的结果，与用户通过上次繁琐的过程完成的结果是一致的，因此后续用户对该网站的所有操作都可以被支持。而现有技术中的导航、历史记录等方式，访问上次访问的网站实际上只是对超链接进行访问，对于需要用户进行输入或者选择的情况，不能完全跳转到上次用户的最终界面。而本技术方案中最终生成的脚本，是可以复制的，它不依赖于用户的访问历史，通过该方式进行访问的最终界面，与用户上次访问的界面完全一致，对于登录、选择、输入等情况，也可以很好的实现。

（2）本发明还提供一种生成访问互联网站点指令脚本的装置以及访问互联网站点的装置，包括提取单元和生成单元，实现了对用户访问过程的全部记录，并将该访问过程转化为指令序列，以指令脚本的方式存储，后续通过直接运行该指令脚本的方式，自动执行指令完成用户上次的访问过程，这样无需用户的繁琐操作即完成了对站点的访问，解决了需要用户输入操作信息才能进行下一步的操作的问题，如登录、搜索等。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1 是本发明实施例1的访问互联网站点的方法流程图；

图2 是本发明实施例2的访问互联网站点的方法流程图；

图3 是本发明是实施例4的访问互联网站点的系统的结构框图。

具体实施方式

实施例1：

本实施例提供一种生成访问互联网站点指令脚本的方法，首先，获取用户的所有执行操作，并提取各个执行操作所对应的网站页面的信息，并判断用户的操作信息中是否存在对DOM项的操作，判断为是，提取网站页面的信息，通过DOM查找规则获得所有被操作的DOM项，并获取用户的执行操作；否则，获取用户的执行操作及其执行时的相关参数；循环该过程，对用户的所有操作进行处理；顺序保存上述过程中用户的所有操作信息以及网站页面信息，生成指令脚本。

本实施例中还提供一种访问互联网站点的方法，使用上述生成的指令脚本，在用户需要访问网站时，通过直接运行该脚本的方式，后台运行上述脚本进行访问，到达访问的网站，无需复杂的操作。

如用户通过登录、选择、搜索等操作对互联网中的网页进行多次切换后，到达了最终页面，当用户对该站点再次进行访问时，则无需重复上述繁琐的过程，而是后台自动运行上述访问过程，到达最终页面。

具体的建立访问网站的指令脚本以及使用该指令脚本访问网站的过程如下，流程图如图1所示：

（1）获取用户的操作信息，此处的操作信息包括用户是否打开了浏览器、是否有输入内容、以及用户执行的操作等等。

（2）判断用户的操作信息中是否存在DOM项的操作，DOM即 Document Object Model，文档对象模型，DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。DOM是表示和处理一个HTML或XML文档的常用方法。DOM项是指网页中一个可以被用户操作的项，如网站中可以被选择的按钮（搜索、输入按钮）、可被编辑的文本框、可以被点击的链接、标签等等，网站中所有的可以被操作的对象都对应着一个DOM项，通过获取该DOM项也就得到了用户操作的对象。通过判断是否存在DOM项的操作，可以判断是否打开了网页，还是浏览器开启尚未访问网页。

当存在DOM项的操作时，判断为是，提取网站页面的信息并通过DOM查找获得被操作的DOM项。首先，在浏览器上选择被操作的DOM项，然后配置DOM查找规则，找到需要操作的DOM项。DOM查找规则可以使用DOM项的特征进行匹配；或者通过使用DOM路径进行匹配，或者采用其他的匹配方式或者匹配方式的组合来实现匹配。在获取被操作的DOM项后，获取用户执行的操作。

当不存在DOM项的操作时，获取用户的执行操作及其执行时的相关参数。执行操作包括鼠标按下、鼠标弹起、鼠标移动、鼠标单击、鼠标双击、按下键盘按键、键盘按键弹起、输入URL、输入文本、写入数据、读取数据、加载页面中的一个或多个的任意组合。在此过程中，有些操作还需要配置操作的相关参数。如对于鼠标单击或者双击，选择的参数是在屏幕上的操作位置等。

循环上述过程，对用户的所有操作进行处理。

（3）用户操作完成后，浏览器进入最终的操作页面，此时顺序保存用户的所有操作信息以及网站页面的信息，并将整个操作过程转换为可执行的指令序列，生成指令脚本。

（4）后续运行所述指令脚本，则直接访问用户上述最终的操作页面。

该方案，通过记录整个用户操作过程和网站处理过程的方式，使得用户下一次访问该站点时，可以通过后台直接运行上述脚本的方式，自动完成整个访问过程，而该访问过程的结果，与用户通过上次繁琐的过程完成的结果是一致的，因此后续用户对该网站的所有操作都可以被支持。而现有技术中的导航、历史记录等方式，访问上次访问的网站实际上只是对超链接进行访问，对于需要用户进行输入或者选择的情况，不能完全跳转到上次用户的最终界面。而本技术方案中最终生成的脚本，是可以复制的，它不依赖于用户的访问历史，通过该方式进行访问的最终界面，与用户上次访问的界面完全一致，对于登录、选择、输入等情况，也可以很好的实现。

实施例2：

本实施例中提供另外一种生成访问互联网站点指令脚本及访问互联网站点的方法，可以通过机器模拟人的行为进行互联网站点的访问，此方法中需要使用到Web浏览器，或简称浏览器，它可以被任何具备编程接口的浏览器，浏览器控件及其它不具备编程接口，但实现了处理HTTP/HTTPS协议并将返回的HTML与用户交互的其它程序所替代，具体包括以下步骤，流程图见图2：

（1）等待用户操作，此步骤是判断用户是否还有操作，是否已经完成操作。

（2）若用户已经完成操作，则转到步骤（10），否则转到步骤（3）；

（3）判断用户操作中是否存在对DOM项的操作，若操作无DOM项的操作，并转到步骤（6），否则转到步骤（4）；

（4）判断对于存在DOM项的操作，是否需要获取DOM项的属性文本信息，若不需要获取，则可以直接转到步骤（6）。如需要获取DOM项的属性文本信息，则在浏览器上选择将被操作的DOM。此步骤用于选择被操作操作需要的操作项。

（5）然后针对步骤（4）中选择的DOM项，选择性地配置DOM的查找规则，包括通过使用DOM中的特征进行匹配；通过使用DOM路径进行匹配等，此步骤的目的在于通过一种查找方式或多种查找方式的组合，准确地找到需要操作的DOM项；此步骤可由任何其它的，用于到查找到目标DOM的方法或步骤所替代，常见的有字符串查找相关的算法，树结构有关的查找算法,项属性匹配方法等。

（6）配置上一步骤中无DOM的操作的执行操作，或将要在选定的DOM项上执行的操作，此处的执行操作由一个或若干个动作组成。动作包括鼠标输入动作，键盘输入动作，数据流读写动作、数据库读写动作、加载页面等，以及这些操作的任意组合；此步骤的目的在于说明需要做什么，也就是通常所说的做什么。

（7）若上一步中的操作，不需要操作参数，包括必须的参数或可选择的参数均不需要，则转到步骤（9），否则转到步骤（8）。

（8）若是可选参数且不需要被配置则转到步骤（9）。配置操作的相关参数，例如导航到URL，则需要目标URL作为参数；对于单击，双击，这样的操作，就有参数可选，一种是被操作的项，通常是步骤（4）中选定的项，另一种可以指定在屏幕上操作的位置。其目的在于告知此操作操作什么，也就是通常所说的怎么做。

（9）Web浏览器响应用户的操作，同时转到步骤（1）。其目的是告诉用户以上步骤执行的结果是什么，并为用户的下一步操作，提供界面交互的支持。

（10）将用户的所有操作保存成文件，此过程将整个操作过程转换为执行的指令序列，生成指令脚本。以后通过打开此脚本，由机器替代人，快速访问这些繁琐操作的页面，并到达用户最终操作的页面。

本实施例中的访问互联网的方法，更多地考虑了减少用户每次为到达特定页面所做的大量繁琐工作，规避了因为开启浏览器记录最后页面功能，而每次打开浏览器时都自动打开很多网页，而这些页面中的部分页面，并不是用户当前想要的页面的问题。该方案中通过摸拟人的操作行为，很好地解决了由于需要用户输入操作信息才可进行下一步操作的问题，例如登录，搜索等。现有技术中的浏览器对于打开最后页面的记录，是历史行为，而本技术方案中最终生成的脚本，是可以复制的，它不依赖于用户的访问历史。

实施例3：

本实施例中提供一个应用实例，例如：某用户喜欢阅读新闻，喜欢体育新闻，但他最关注的是体育新闻中和足球相关的新闻，在新闻网站中并没有足球新闻的直接导航，用户需要首先打开浏览器，然后输入新闻网址转到新闻首页，在该新闻首页中选择分类中的体育导航到体育新闻，然后在该页面中输入足球，这样就获得了足球相关的体育新闻。该过程需要通过多个步骤实现，每次访问时都要重复这个复杂的过程。

用户使用本实施例中的访问互联网站点的方法，过程如下：

首先，用户打开浏览器输入网址，由于网页并未打开，此时没有DOM项，因此获取用户的执行操作即输入新闻网址的过程，此时用户的执行操作为输入网址，其输入过程中的相关参数为输入网址所在的输入栏，在该输入栏中输入网址，输入后需要点击“转到”按钮或图标，点击是用户的操作，该操作对应的参数为用户的上述操作对象。或者输入网址完成后按回车，回车是用户的执行操作，回车所在的位置则是该执行操作的参数。

当浏览器转到新闻首页后，用户选择分类导航中的体育这个分类，此过程中存在DOM项，操作的DOM项就是“体育”这个标签，此时需要通过DOM查找的方式找到该DOM的属性。

然后用户通过单击的方式打开“体育”这个网页，此过程中用户的执行操作为单击，其项为“体育”对应的DOM项，通过这个过程打开了分类为“体育”的网址；

在体育网址中，用户输入“足球”这一个关键词，此过程中用户执行的操作是输入，输入项为“足球”，输入的位置为搜索条目所在的窗口中的位置，此位置的DOM项为搜索输入框，然后用户通过单击“搜索”按钮，完成搜索，此处记录用户的操作为单击，操作的项为“搜索”按钮对应的DOM项，完成搜索后，用户的操作完成，达到最终网页。

在此过程中，后台记录了用户的所有操作以及此过程中的浏览器的所有操作，将这些转化为指令序列，并生成指令脚本。

当下次用户想看足球相关的体育新闻时，直接运行该脚本，则后台通过自动执行指令的过程，完成这个过程，将最终的网页展现给用户。

实施例4：

本实施例中提供一种生成访问互联网站点指令脚本的装置，包括：

其中，所述提取单元包括：

判断单元：判断用户的操作信息中是否存在对DOM项的操作，

循环单元：循环该过程，对用户的所有操作进行处理。

上述所述DOM查找规则包括：使用DOM项的特征进行匹配；与/或通过使用DOM路径进行匹配。

具体地，上述执行操作包括鼠标输入、键盘输入、数据流读写，数据库读写、加载页面等的一个或多个的任意组合。

实施例5：

本实施例中还提供一种访问互联网站点的装置，包括上述的生成访问互联网站点指令脚本的生成装置，还包括执行装置，运行所述装置生成的指令脚本，访问互联网站点。结构框图如图3所示。

生成装置用于生成访问互联网站点指令脚本，其包括

提取单元：获取用户的操作信息；

处理单元：判断用户的操作信息中是否存在DOM项的操作，判断为是，提取网站页面的信息并通过DOM查找获得被操作的DOM项，然后获取用户的执行操作；否则，直接获取用户的执行操作；循环该过程，对用户的所有操作进行处理。具体包括：选择子单元：在浏览器上选择被操作的DOM项；查找子单元：配置DOM查找规则，找到需要操作的DOM项。查找子单元还包括：第一匹配模型：使用DOM项的特征进行匹配；第二匹配模块：通过使用DOM路径进行匹配。第一匹配模式和第二匹配模式，存在“与”或者“或”的关系。此外，上述执行操作鼠标输入动作，键盘输入动作，数据流读写动作、数据库读写动作、加载页面等中的一个或多个的任意组合。在此过程中，有些操作还需要配置操作的相关参数。如对于鼠标单击或者双击，选择的参数是被操作的项或者在屏幕上的操作位置等。

转化存储单元：用户操作完成后，浏览器进入最终的操作页面，此时顺序保存用户的所有操作信息以及网站页面的信息，并将整个操作过程转换为可执行的指令序列，生成指令脚本。

执行装置运行上述生成装置生成的所述指令脚本，则直接达到用户上述最终的操作页面。

本实施例中的一种访问互联网站点的装置，包括生成装置和执行装置，实现了对用户访问过程的全部记录，并将该访问过程转化为指令序列，以指令脚本的方式存储，后续通过直接运行该指令脚本的方式，自动执行指令完成用户上次的访问过程，这样无需用户的繁琐操作即完成了对站点的访问，解决了需要用户输入操作信息才能进行下一步的操作的问题，如登录、搜索等。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种生成访问互联网站点指令脚本的方法，其特征在于，包括如下步骤：

2. 根据权利要求1所述的方法，其特征在于，所述获取用户的所有执行操作的步骤包括：

判断用户的操作信息中是否存在对DOM项的操作，

否则，获取用户的执行操作及其执行时的相关参数；

循环该过程，对用户的所有操作进行处理。

3.根据权利要求2所述的方法，其特征在于，所述DOM查找规则包括：

使用DOM项的特征进行匹配；与/或

通过使用DOM路径进行匹配。

4.根据权利要求1或2或3所述的方法，其特征在于，所述执行操作动作包括鼠标输入动作、键盘输入动作，数据流读写动作、数据库读写动作、加载页面中的一个或多个的任意组合。

5.一种生成访问互联网站点指令脚本的装置，其特征在于，包括：

6. 根据权利要求5所述的装置，其特征在于，所述提取单元包括：

判断单元：判断用户的操作信息中是否存在对DOM项的操作，

循环单元：循环该过程，对用户的所有操作进行处理。

7.根据权利要求6所述的装置，其特征在于，所述DOM查找规则包括：

使用DOM项的特征进行匹配；与/或

通过使用DOM路径进行匹配。

8.根据权利要求5或6或7所述的装置，其特征在于，所述执行操作包括鼠标按下、鼠标弹起、鼠标移动、鼠标单击、鼠标双击、按下键盘按键、键盘按键弹起、输入URL、输入文本、写入数据、读取数据、加载页面中的一个或多个的任意组合。

9. 一种访问互联网站点的方法，其特征在于，运行权利要求1-4所述的方法所生成的指令脚本，访问互联网站点。

10.一种访问互联网站点的装置，其特征在于，包括：

生成装置，如所述权利要求5-8所述生成访问互联网站点指令脚本的装置；