阅读下列说明和图,回答问题,将解答填入答题纸的对应栏内。阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。【说明】指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页的特征向量。设两个新闻网页的特征向量分别为:甲(a1,a2,…,ak)、乙(b1,b2,…,bk),则计算这两个网页的相似度时需要先计算它们的内积S=a1b1+a2b2+…+akbk。一般情况下,新闻网页特征向量的维数是巨大的,但每个特征向量中非零元素却并不多。为了节省存储空间和计算时间,我们依次用特征向量中非零元素的序号及相应的词频值来简化特征向量。为此,我们用(NA(i),A(i)|i=1,2,…,m)和(NB(j),B(j)|j=1,2,…,n)来简化两个网页的特征向量。其中:NA(i)从前到后描述了特征向量甲中非零元素A(i)的序号(NA(1)下面的流程图描述了计算这两个将征向量内积S的过程。
阅读下列说明和图,回答问题,将解答填入答题纸的对应栏内。
阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。
【说明】
指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页的特征向量。
设两个新闻网页的特征向量分别为:甲(a1,a2,…,ak)、乙(b1,b2,…,bk),则计算这两个网页的相似度时需要先计算它们的内积S=a1b1+a2b2+…+akbk。一般情况下,新闻网页特征向量的维数是巨大的,但每个特征向量中非零元素却并不多。为了节省存储空间和计算时间,我们依次用特征向量中非零元素的序号及相应的词频值来简化特征向量。为此,我们用(NA(i),A(i)|i=1,2,…,m)和(NB(j),B(j)|j=1,2,…,n)来简化两个网页的特征向量。其中:NA(i)从前到后描述了特征向量甲中非零元素A(i)的序号(NA(1) 下面的流程图描述了计算这两个将征向量内积S的过程。
阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。
【说明】
指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页的特征向量。
设两个新闻网页的特征向量分别为:甲(a1,a2,…,ak)、乙(b1,b2,…,bk),则计算这两个网页的相似度时需要先计算它们的内积S=a1b1+a2b2+…+akbk。一般情况下,新闻网页特征向量的维数是巨大的,但每个特征向量中非零元素却并不多。为了节省存储空间和计算时间,我们依次用特征向量中非零元素的序号及相应的词频值来简化特征向量。为此,我们用(NA(i),A(i)|i=1,2,…,m)和(NB(j),B(j)|j=1,2,…,n)来简化两个网页的特征向量。其中:NA(i)从前到后描述了特征向量甲中非零元素A(i)的序号(NA(1)
参考解析
解析:(1)0
(2)S+A(i)B(j)或等价表示
(3)i>m或i=m+1或等价表示
(4)j>n或j=n+1或等价表示
(5)i>m or j>n或i=m+1 or j=n+1或等价表示
【解析】
本题是简化了的一个大数据算法应用之例。世界上每天都有大量的新闻网页,门户网站需要将其自动进行分类,并传送给搜索的用户。为了分类,需要建立网页相似度的衡量方法。流行的算法是,先按统一的关键词组计算各个关键词的词频,形成网页的特征向量,这样,两个网页特征向量的夹角余弦(内积/两个向量模的乘积),就可以衡量两个网页的相似度口因此,计算两个网页特征向量的内积就是分类计算中的关键。
对于存在大量零元素的稀疏向量来说,用题中所说的简化表示方法是很有效的。这样,求两个向量的内积只需要在分别从左到右扫描两个简化向量时,计算对应序号相同(NA(i)=NB(j))时的A(i)*B(j)之和(其他情况两个向量对应元素之乘积都是0)。因此,流程图中(2)处应填S+A(i)*B(j),而累计的初始值S应该为0,即(1)处应填0。
流程图中,NA(i)m或i=m+1(如果成立,则扫描结束)。因此(3)处应填i>m或i=m+1。
流程图中,NA(i)>NB(j)时,下一步应再比较NA(i)n或j=n+1(如果成立,则扫描结束)。因此(4)处应填j>n或j=n+1。
(5)处应填扫描结束的条件,i>m or j>n或i=m+1 or j=n+1,即两个简化向量之一扫描结束时,整个扫描就结束了。
(2)S+A(i)B(j)或等价表示
(3)i>m或i=m+1或等价表示
(4)j>n或j=n+1或等价表示
(5)i>m or j>n或i=m+1 or j=n+1或等价表示
【解析】
本题是简化了的一个大数据算法应用之例。世界上每天都有大量的新闻网页,门户网站需要将其自动进行分类,并传送给搜索的用户。为了分类,需要建立网页相似度的衡量方法。流行的算法是,先按统一的关键词组计算各个关键词的词频,形成网页的特征向量,这样,两个网页特征向量的夹角余弦(内积/两个向量模的乘积),就可以衡量两个网页的相似度口因此,计算两个网页特征向量的内积就是分类计算中的关键。
对于存在大量零元素的稀疏向量来说,用题中所说的简化表示方法是很有效的。这样,求两个向量的内积只需要在分别从左到右扫描两个简化向量时,计算对应序号相同(NA(i)=NB(j))时的A(i)*B(j)之和(其他情况两个向量对应元素之乘积都是0)。因此,流程图中(2)处应填S+A(i)*B(j),而累计的初始值S应该为0,即(1)处应填0。
流程图中,NA(i)
流程图中,NA(i)>NB(j)时,下一步应再比较NA(i)
(5)处应填扫描结束的条件,i>m or j>n或i=m+1 or j=n+1,即两个简化向量之一扫描结束时,整个扫描就结束了。
相关考题:
阅读下列说明,回答问题1至问题2,将解答填入对应栏内。【说明】利用Windows Server 2008架设邮件服务器,回答相应问题。邮件服务器通常提供POP3和SMTP两种服务,它们各有什么作用?
阅读下列说明,回答问题1至问题4,将解答填入答题纸的对应栏内。[说明]下面是用小王用Dreamweaver MX编写的一个网页,如图12-2所示。从这个图片上,我们可以看出小王使用了Dreamweaver MX的哪些功能?
阅读下列说明,回答问题1至问题3,将解答填入对应栏内。【说明】在Windows的网络配置中,对网络协议进行IP地址配置,出现图5-1所示的对话框。什么场合下,可选择自动获取IP?什么场合下,选择人工配置IP?
阅读下面的说明,回答问题1~问题4,将解答填入答题纸对应的解答栏内。[说明]阅读以下说明,回答问题1~问题4,将解答填入答题纸对应的解答栏内。windows Server 2003是一个多任务多用户的操作系统,能够以集中或分布的方式实现各种应用服务器角色,是目前应用比较广的操作系统之一。Windows内置许多应用服务功能,将下表中(1)~(5)处空缺的服务器名称填写在答题纸对应的解答栏内。(1)
阅读下列说明,回答问题1至问题2,将解答填入答题纸的对应栏内。[说明]小舟很喜欢网上购物,不但自己经常上网买东西,还自己经营了一家商业网站,大到卖电器,衣物,小到可以和注册用户交换东西等等。图2-15是网上小舟经营的网站的购物流程图,请把空缺的部分补充完整。
阅读以下说明和关系表,回答问题1~5,将解答填入对应的解答栏内。[说明]试用SQL查询语句表达下列对教学数据库中的3个基本表STUDENT,COURSE,SC的查询[关系表]查询全体学生的姓名和年龄。
阅读以下关于软件测试的说明,回答司题l至问题3,将解答填入答题纸的对应栏内。【说明】使用在汽车、飞机中的嵌入式软件, 日于直接影响人的生命及财产安全,测试要求更为严格。语句覆盖、判定覆盖、条件覆盖和MC/DC覆盖是通常对这类软件的要求。以下是一段C语言代码,请仔细阅读并回答相关问题:【问题1】(6分)请根据测试要求,简要说明语句覆盖、判定覆盖、条件覆盖和MC/DC覆盖的含义。将答案填写在答题纸的对应栏中。【问题2】(5分)画出以上代码的流程图,将答案填写在答题纸的对应栏中。【问题3】(4分)请根据【说明】中的C语言代码,计算满足MC/DC覆盖要求的用例数量及条件取值范围,将答案填写在答题纸的对应栏中.
阅读下列说明,回答与数据库相关的下列问题,将解答填入答题纸的对应栏内。数据模型是数据库系统的核心和基础,它通常由哪三部分组成?Oracle、DB2、Sybase等是基于哪种数据模型的数据管理系统?
阅读下列说明,回答问题1 至问题3,将解答填入答题纸的对应栏内。【说明】某城市双创平台成立后,拟建设中小企业服务管理信息系统,主要工作计划如下。【问题1】(4分)结合案例,请问活动A和活动C的历时分别是多少。【问题2】(8分)请补充完整该管理信息系统的双代号网络图。【问题3】(4分)请给出关键路径和项目总工期
阅读以下说明,回答问题1至问题2,将解答填入答题纸对应的解答栏内。【说明】某公司为推广洗涤新产品,需要进行用户体检调查。图4-1为调查表填写页面,表4-1所示为利用Microsoft Access创建的数据库,它将记录被调查用户的姓名、性别、年龄、了解产品方式和评价等信息。
阅读下列C程序,回答问题1至问题3,将解答填入答题纸的对应栏内。【问题1】(3分)请针对上述C程序给出满足100%DC(判定覆盖)所需的逻辑条件。【问题2】(8分)请画出上述程序的控制流图,并计算其控制流图的环路复杂度V(G)。
阅读下列程序,回答问题1至问题3,将解答填入答题纸的对应栏内。【说明】逻辑覆盖法是设计白盒测试用例的主要方法之一,它是通过对程序逻辑结构的遍历实现程序的覆盖。针对以下由C 语言编写的程序,按要求回答问题。main( ){int i,n; //1for(i=1;i
阅读下列C程序,回答问题1至问题3,将解答填入答题纸的对应栏内。问题1:(3分) 请针对上述C程序,给出满足100%DC(判定覆盖)所需的逻辑条件。问题2:(7分)请画出上述程序的控制流图,并计算其控制流图的环路复杂度V(G)。问题3:(3分)请给出【问题2】中控制流图的线性无关路径。
阅读下列说明和C++代码,回答问题,将解答填入答题纸的对应栏内。【说明】某航空公司的会员积分系统将其会员划分为:普卡 (Basic)、银卡(Silver)和金卡 (Gold) 三个等级。非会员 (NonMember) 可以申请成为普卡会员。会员的等级根据其一年内累积 的里程数进行调整。描述会员等级调整的状态图如图 5-1 所示。现采用状态 (State) 模式实现上述场景,得到如图 5-2 所示的类图。【问题1】(15分)阅读上述说明和C++代码,将应填入 (n) 处的字句写在答题纸的对应栏内。
阅读以下说明,回答问题1至问题4,将解答填入答题纸对应的解答栏内。【说明】某企业采用Windows Server 2003配置了DHCP、DNS和WEB服务。【问题1】(每空1分,共4分)DHCP服务器地址池192.168.0.1~192.168.0.130,其中192.168.0.10分配给网关,192.168.0.11~192.168.0.15分配给服务器,192.168.0.20分配给网络管理员。