-
如何计算文档相似性
所属栏目:[大数据] 日期:2021-01-31 热度:149
最近课题需要,整理一下文档相似性的一些研究,主要是参考知乎上面的回答和52nlp的相关文章。以备后期综述使用。具体还需要好好细读链接。 主要思路 01/one hot representation,BOW+tf-idf+LSI/LDA体系. docsim方法:gensim包,使用corpora.Dictionary(text[详细]
-
关联规则挖掘——Apriori算法
所属栏目:[大数据] 日期:2021-01-31 热度:147
前言 大二的时候,一个老师为了勾起我们对数据挖掘的兴趣,老是问我们这个问题:你们知道超市为什么要把啤酒跟尿布放在一起吗?但是从来没告诉我们答案。现在,很多人都听过这个问题,觉得很平常,但是那时的我真觉得挺神奇的。直到后来,了解了关联规则挖掘[详细]
-
在「不稀缺」的商业世界,如何挖掘稀缺的资源?
所属栏目:[大数据] 日期:2021-01-31 热度:179
要生存壮大,就要找到新的稀缺资源, 并且想尽办法掌握在自己手中。 文 | 曲凯 编者按:本文来源42章经(ID:MyFortyTwo),一家生产原创优质内容的科技媒体,誓同有趣、有料、有企图心的灵魂共成长。 “Technology increases access to what is scarce. ”[详细]
-
新闻中文本地域信息标签的抽取
所属栏目:[大数据] 日期:2021-01-31 热度:135
这里主要是基于规则的新闻地域提取方法,这里简要记录一下思路。 首先我们拥有了地域信息数据库,并且标注了省市的layer层信息。主要思路是利用nlp库,分词得到标有地名属性词,在于地域数据库匹配。 第一步,提取正文分词得到标注为地名的词语。 第二步,匹[详细]
-
视音频数据处理入门:H.264视频码流解析
所属栏目:[大数据] 日期:2021-01-31 热度:54
===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB、YUV像素数据处理 视音频数据处理入门:PCM音频采样数据处理 视音频数据处理入门:H.264视频码流解析 视音频数据处理入门:AAC音频码流解析[详细]
-
序列模式挖掘——GSP算法
所属栏目:[大数据] 日期:2021-01-31 热度:162
序列模式挖掘的基本概念 项目全集I、项集X和事务集合T的概念和文章关联规则挖掘——Apriori算法 中定义的一致。一个序列(Sequence)是一个有序的项集列表,这个有序通常是指时间有序。我们将序列s表示为: a 1 a 2 . . . a r 其中, a i 是一个项集,也称为s[详细]
-
科普丨五个角度浅析大数据与BI的区别,教你迅速把握大数据的精髓
所属栏目:[大数据] 日期:2021-01-31 热度:69
作者:咨行天下 BI(Business Intelligence),中文翻译是商务智能,是一套完整的解决方案,用来将组织中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助组织做出明智的业务经营决策。 大数据(Big Data)是从收集的海量数据中,通过算法将这[详细]
-
HDU 1042 N! N的阶乘(大数)
所属栏目:[大数据] 日期:2021-01-27 热度:87
N! Time Limit: 10000/5000 MS (Java/Others)????Memory Limit: 262144/262144 K (Java/Others) Total Submission(s): 75303????Accepted Submission(s): 21981 Problem Description Given an integer N(0 ≤ N ≤ 10000),your task is to calculate N! ? In[详细]
-
如何在企业硬件设备中挖掘安全漏洞
所属栏目:[大数据] 日期:2021-01-26 热度:111
研究发现,亚马逊上销量最好的50种消费级路由器都存在有安全漏洞,其中20款是出厂固件就可被黑客利用。但功能之战和利润收窄可能会导致进入不安全路由器时代。为确定该问题是否仅局限于消费市场,有必要对企业网络应用的无线路由器进行评估。 买得起的消费级[详细]
-
如何挖掘nand flash I/O性能
所属栏目:[大数据] 日期:2021-01-26 热度:186
NAND Flash 芯片是构成 SSD 的基本存储单元, NAND Flash 芯片工艺的发展、结构的变化将会推动整个闪存存储产业的高速发展。在设计闪存存储系统的时候,特别是在设计 NAND Flash 控制器、 SSD 盘或者卡的时候,都需要深入的了解 NAND Flash 的操作方法、接口[详细]
-
hdu5834Magic boy Bi Luo with his excited tree(树形DP)
所属栏目:[大数据] 日期:2021-01-26 热度:179
Magic boy Bi Luo with his excited tree Time Limit: 8000/4000 MS (Java/Others)????Memory Limit: 131072/131072 K (Java/Others) Total Submission(s): 823????Accepted Submission(s): 222 Problem Description Bi Luo is a magic boy,he also has a mi[详细]
-
HDU 5834 Magic boy Bi Luo with his excited tree(树形dp)
所属栏目:[大数据] 日期:2021-01-26 热度:130
题 意 是 给 你 一 个 树 , 让 你 求 出 以 任 意 一 个 点 为 起 点 , 走 到 的 最 大 权 值 和 , 走 过 一 个 点 , 权 值 只 能 获 得 一 次 , 每 走 过 一 条 边 , 就 要 花 费 c o s t 这 题 需 要 维 护 4 个 数 组 , d f s 两 次 A 数 组 表 示[详细]
-
hdoj 5834 Magic boy Bi Luo with his excited tree 树形dp
所属栏目:[大数据] 日期:2021-01-26 热度:51
假设 1 为 根节点 dp[i][0] 代表从自己出发选择到儿子节点最后必须返回自己的最大价值 dp[i][1] 代表从自己出发选择到儿子节点最后可选择不回来的最大价值 并记录最后选择的离开节点 id[i] 树形dp先跑一遍出来 再第二遍 dfs 因为每个节点也可以流向父节点所[详细]
-
HDOJ 5832 A water problem(高精度 大数取模)
所属栏目:[大数据] 日期:2021-01-26 热度:95
A water problem Time Limit: 5000/2500 MS (Java/Others)????Memory Limit: 65536/65536 K (Java/Others) Total Submission(s): 826????Accepted Submission(s): 428 Problem Description Two planets named Haha and Xixi in the universe and they were c[详细]
-
业务渗透思路总结
所属栏目:[大数据] 日期:2021-01-26 热度:137
-
【Ligth-oj】-1370 - Bi-shoe and Phi-shoe(欧拉函数+素数打表
所属栏目:[大数据] 日期:2021-01-25 热度:82
1370 - Bi-shoe and Phi-shoe ??? PDF (English) Statistics Forum Time Limit:? 2 second(s) Memory Limit:? 32 MB Bamboo Pole-vault is a massively popular sport in Xzhiland. And Master Phi-shoe is a very popular coach for his success. He needs[详细]
-
数据处理之——dplyr
所属栏目:[大数据] 日期:2021-01-25 热度:97
dplyr 简介 关于 R 中的数据处理,上期我们介绍了 plyr ,这期我们接着介绍数据处理相关包 dplyr 。 dplyr 其实可以看做是 plyr 的升级版, dplyr 中的 d 指 dataframe ,它专注于做基于数据框的处理。如果你熟悉了 dplyr 的这一套处理函数,它将会大大提升[详细]
-
【技术帝】扒一扒中国女排夺冠幕后数据分析师袁灵犀和数据分析软
所属栏目:[大数据] 日期:2021-01-25 热度:133
天善智能导读: 在今天的中国女排夺冠的团队中,大家意外发现一个以前很少注意到的职位- 数据分析师——袁灵犀 。 大家在好奇袁灵犀是谁?他作为数据分析师在中国排球队到底使用了什么样的数据分析软件?记录了什么样的数据,分析了什么?分析的结果是什么?[详细]
-
Dynamic CRM BI Report
所属栏目:[大数据] 日期:2021-01-24 热度:154
BI综述: BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。转自百科。 Dynamic CRM: Microsoft Dynamics CRM是全球唯一以销售[详细]
-
Hdu 5834 Magic boy Bi Luo with his excited tree(从树上每个点
所属栏目:[大数据] 日期:2021-01-24 热度:80
传送门:Hdu 5834 Magic boy Bi Luo with his excited tree 题意:给你一棵树,有n个点,每个点都有一个利润,每条边都有一个花费,问从每个点出发,获得的最大的利润为多少(每个点上的利润只能取一次,每条边每走一次就要花费) 思路:我们任意选取一个根,每个点都保[详细]
-
BI中事实表和维度表的定义
所属栏目:[大数据] 日期:2021-01-24 热度:199
?? 一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。? ?????? 首先介绍下数据库结构中的星型结构,该[详细]
-
BI进行中,重新设计改造质检数据管理系统(图文)
所属栏目:[大数据] 日期:2021-01-24 热度:146
最近在做一个质检系统BI项目的过程中个,发现原有的系统设计有很大问题,数据特别混乱,主要问题有:指标设计结构不合理,将指标直接与产品关联,而且每个车间的产品都使用独立id加以区分,这样的后果就是有很多重复的产品和大量的指标,当在BI系统中对数据[详细]
-
51nod1030 大数进制转换
所属栏目:[大数据] 日期:2021-01-24 热度:192
题目描述 给出一个36进制的大数A(0-9,A-Z),将其转为10进制并输出。 每一位用’0-9”,’A-Z’来表示,A的长度 = 100000) a进制数k转b进制问题 第一位(最低位)=k%b 第二位=k/b%b 第三位=k/b^2%b …… (这个应该是比较显然的) 然而A的长度 = 100000,太大了,[详细]
-
一位电商数据分析师的经验总结
所属栏目:[大数据] 日期:2021-01-24 热度:154
报道大数据企业: 大数据产品、大数据方案、 ? 大数据人物 分享大数据干货: 大数据书籍、大数据报告、 大数据视频 本文系大数据人精选自网络。欢迎更多优质原创文章投稿给大数据人:289585305@qq.com 08年毕业,不知不觉的混进了电子商务行业,又不知不觉的[详细]
-
HDU 5834 Magic boy Bi Luo with his excited tree (树形DP)
所属栏目:[大数据] 日期:2021-01-24 热度:101
这题很典型的树形dp可以看出来,但是要处理好所有的细节并不easy……至少对我来说是这样。 先dfs一遍处理出: dp[u][0], 最后一次不回来最大, dp[u][1],不回来次大, dp[u][2],回来; (以上都是在子树范围下)(想象一下,dp[u][i]是包含了其所有子树信[详细]