-
[bigdata-041] python3+re 正则表达式 手机号微信号qq号
所属栏目:[大数据] 日期:2020-12-24 热度:169
import reREGEX_PHONE = re.compile(r'1d{10}',re.IGNORECASE)REGEX_QQ = re.compile(r'[1-9]d{4,10}',re.IGNORECASE)REGEX_WX1 = re.compile(u'微信[w,-]{1,20}'.encode('utf8'),re.IGNORECASE)#正则手机号码def get_all_phone_num(s1): global REGEX_PH[详细]
-
数据挖掘:手把手教你做文本挖掘
所属栏目:[大数据] 日期:2020-12-24 热度:124
1 文本挖掘定义 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 ? 2 文本挖掘步骤 1)读取数据库或本地外部文本文[详细]
-
蓝桥杯-区间k大数查询
所属栏目:[大数据] 日期:2020-12-24 热度:140
从题目上看,用int类型数据就够了,没必要考虑long这些~~ 在题目中,直接用了Collection工具类中的sort方法,是从小到大排序,据了解,Java自带的排序算法应该是优化过的快速排序,算法可靠。 package 区间k大数查询 ; import java .util .ArrayList ; impor[详细]
-
数据挖掘中的模式发现(五)挖掘多样频繁模式
所属栏目:[大数据] 日期:2020-12-24 热度:106
挖掘多层次的关联规则(Mining Multi-Level Associations) 定义 项经常形成层次。 如图所示 那么我们可以根据项的细化分类得到更多有趣的模式,发现更多细节的特性。 Level-reduced min-support 使用的是Level-reduced min-support方法来设置最低支持度,即,[详细]
-
关于评论话题挖掘的研究及其实现代码(一)LDA
所属栏目:[大数据] 日期:2020-12-24 热度:116
引言 在 2016年中,我们参加了一个由厦门信研院举办的大数据比赛。当时,我们拿到的题目为影迷关注点分析。数据是来自于微博与豆瓣的影迷评论数据,其数据量达600多万条评论数据,分别对应于2000多部不同的电影。我们的想法是将影迷关注点分析尽量往评论话题[详细]
-
数据挖掘中的模式发现(六)挖掘序列模式
所属栏目:[大数据] 日期:2020-12-24 热度:150
序列模式挖掘 序列模式挖掘(sequence pattern mining)是数据挖掘的内容之一,指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。。 其涉及在数据示例之间找到统计上相关的模式,其中数据值以序列被递送。通常假设这些值是离散的,[详细]
-
关于评论话题挖掘的研究及其实现代码(二)词图切分
所属栏目:[大数据] 日期:2020-12-24 热度:69
引言 在上一篇的博客谈到使用LDA的方法挖掘影迷关注点可谓是无功而返。后来我思考了许久,决定将原来的向量空间模型转变为词语网(WordNet),然后通过社区检测算法来把网络划分不同的社区,从而确定为不同的话题。 社区检测算法 现实世界中的许多系统都可以[详细]
-
《MySQL必知必会》学习笔记五(数据处理函数)------掌握部分
所属栏目:[大数据] 日期:2020-12-24 热度:134
MySQL必知必会知识预览 第一章——了解SQL 第二章——MySQL简介 第三章——使用MySQL 第四章——检索数据 第五章——排序检索数据 第六章——过滤数据 第七章——数据过滤 第八章——用通配符进行过滤 第九章——用正则表达式进行搜索 第十章——创建计算字[详细]
-
数据挖掘 : 手把手教你做文本挖掘
所属栏目:[大数据] 日期:2020-12-24 热度:182
文本挖掘定义 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 ? 2 文本挖掘步骤 1)读取数据库或本地外部文本文件[详细]
-
[bigdata-036] mit-scheme试用
所属栏目:[大数据] 日期:2020-12-24 热度:104
1. 安装Mit-scheme apt-get install mit-scheme 2. 写一个hello wold代码, hi.scm (begin (display "Hello,World!") (newline)) 3. 在命令行执行 scheme,进入交互界面,然后输入命令 (load 'hi.scm') 将执行这个文件,然后输出 "Hello,World!" 4. scheme语[详细]
-
[bigdata-037] docker hue 用SQL获取数据以及可视化
所属栏目:[大数据] 日期:2020-12-24 热度:60
1. hue官网 https://github.com/cloudera/hue http://gethue.com/ 2. hue的功能 有py2+django开发,提供Hive,Impala,MySQL,Oracle,PostgreSQL,Spark SQL,Solr SQL,Phoenix...等SQL数据获取和页面展示 3. 用docker 安装hue docker pull gethue/hue 4. hue ima[详细]
-
[bigdata-037]apache hue 用SQL获取数据以及可视化
所属栏目:[大数据] 日期:2020-12-24 热度:199
1. hue官网 https://github.com/cloudera/hue http://gethue.com/ 2. hue的功能 有py2+django开发,提供Hive,Impala,MySQL,Oracle,PostgreSQL,Spark SQL,Solr SQL,Phoenix...等SQL数据获取和页面展示 3. 用docker 安装hue docker pull gethue/hue 4. hue ima[详细]
-
[bigdata-038] tushare 金融数据 安装使用
所属栏目:[大数据] 日期:2020-12-24 热度:51
1. 安装 pip install tushare 2. 获取股票的基本面 #!/usr/bin/env python3#!-*- coding:utf-8 -*-import tushare as ts#显示基本信息res = ts.get_stock_basics()print(res)print(type(res)) res是的类型是pandas.core.frame.DataFrame,3114? x 22 的矩阵[详细]
-
3.21.1、BI之SSIS之数据流转换(渐变维度-混合模式)
所属栏目:[大数据] 日期:2020-12-24 热度:93
BI之SSIS之数据流转换(渐变维度-混合模式) ? ? 1??????????3.21中介绍了普通模式的渐变维度,即通过时间标志来对维度属性值的变化进行记录,这种方式可以很直观的看到变化的时间点,但是在使用时却比较麻烦,因为你需要通过时间字段去判断 ? 2??????????这[详细]
-
[bigdata-039] pysql+pymongo+py3把数据从sql 导入 到mongo的通
所属栏目:[大数据] 日期:2020-12-24 热度:79
#!/usr/bin/env python3#! coding:utf-8 -*-import pymysqlimport pymongodef trans_data_from_mysql_to_mongo(source_param,target_param,trans_type,where_clause,ignore_columns=[]): # 创建mysql连接 mysql_conn = pymysql.connect(host=source_param['d[详细]
-
使用机器学习和大数据预测心脏病
所属栏目:[大数据] 日期:2020-12-24 热度:81
编者按: 现在公众号有置顶功能了,大家把微信更新到最新版本,点开“大数据实验室”公众号。点“ 置顶公众号 ”键,就可以置顶了,这样。不管我们什么时候更新,您都能容易找到。 大数据和机器学习的组合是一项革命性的技术,如果以恰当的方式使用它,它可[详细]
-
[bigdata-040] cloudera manager web服务故障处理
所属栏目:[大数据] 日期:2020-12-24 热度:149
1. cloudera manager的web服务挂了 2. 根据文档进行重启 https://www.cloudera.com/documentation/enterprise/5-4-x/topics/cm_ag_server.html sudo service cloudera-scm-server start 无效,在10.14.x.x:7180上没有服务 lsof -i:7180上能看到端口占用。 检[详细]
-
HDU 2054 大数比较
所属栏目:[大数据] 日期:2020-12-24 热度:87
题目传送门:http://acm.hdu.edu.cn/showproblem.php?pid=2054 ???? ?? A这个水题也没有什么意思,主要巩固前面Java大数类和一些方法的学习。 ??? ?? 题目如果直接用Java.Biginteger.equals()方法的话会WA,在API说明里面,对于2.00,和2.0值相等,标度不等[详细]
-
成为技术高手:想更了解自己的偶像么?教你用技术手段挖掘他#92
所属栏目:[大数据] 日期:2020-12-24 热度:141
点击上方“云栖社区”可以订阅哦 摘要 是否在不同的电影中,总是能看到那些熟悉却叫不上名字的演员们,想知道他们之间相互的关系么?本文将带你一步一步地挖掘出他们的关系。想更了解自己的偶像么,那就试试吧。 以下为译文 我最近换了个工作,在入职之前,[详细]
-
文思海辉与达梦完成产品兼容互认证
所属栏目:[大数据] 日期:2020-12-17 热度:65
继文思海辉与国产IT厂商南大通用、数腾软件完成产品兼容互认证,近日,文思海辉又与武汉达梦数据库股份有限公司(以下简称:达梦公司)完成产品兼容性互认证。[详细]
-
净利润同比下滑超60%,少了小米后华米科技能否独立“行走”?
所属栏目:[大数据] 日期:2020-12-17 热度:142
北京时间11月23日美股盘前,华米科技发布了2020财年第三季度的财务报告。在财报发布后,华米科技当天盘前股价累计下跌7.6%。在23日美股三大股指集体收涨情况下,[详细]
-
奏响5G“主旋律”,MWC将于明年2月重返上海
所属栏目:[大数据] 日期:2020-12-17 热度:69
如果没有因为疫情而停办,2021年将是MWC世界移动通信大会落地上海的第十年。按计划,它将在明年的6月份举办。但由于疫情的影响,2020年的MWC上海展没能如期举行,或许也因为如此,明年的大会比原计划来得更早一些。 据主办方GSMA近日宣布,2021年MWC上海展[详细]
-
戴尔全新产品搭载新一代NVIDIA高性能显卡
所属栏目:[大数据] 日期:2020-12-17 热度:183
历经数次迭代升级,戴尔于近日推出多款重磅新品。搭载新一代NVIDIA GeForce RTX 3070显卡的全新ALIENWARE Aurora游戏台式机、戴尔XPS设计旗舰台式机、G5智能电竞台式机,以更加强悍的性能、令人惊叹的视觉效果及极致的细节功能,为游戏爱好者打造了栩栩如[详细]
-
字节跳动Byte Camp冬令营报名启动,高质量赛题带你线下备战ICPC!
所属栏目:[大数据] 日期:2020-12-17 热度:82
12月7日,字节跳动 Byte Camp 冬令营宣布回归,开启第三期训练营报名。 Byte Camp 冬令营是针对ACM国际大学生程序设计竞赛(ICPC),面向全球顶尖高校在校生举办的国际顶级训练营,旨在提高 ICPC 参赛者竞赛实力,并为所有计算机精英提供国际性的技术交流[详细]
-
第十届吴文俊人工智能科学技术奖名单出炉 云天励飞荣获一等奖
所属栏目:[大数据] 日期:2020-12-17 热度:111
日前,2020年度第十届吴文俊人工智能科学技术奖获奖名单正式出炉,云天励飞荣获吴文俊人工智能专项奖芯片项目一等奖。 吴文俊人工智能科学技术奖被誉为中国智能科学技术最高奖,是人工智能领域的最高荣誉象征。 值得一提的是,这是云天励飞第二次斩获吴文[详细]