-
[转]文本相似性算法:simhash/minhash/余弦算法
所属栏目:[大数据] 日期:2021-01-18 热度:200
数据挖掘之lsh(局部敏感hash) minhash、simhash 在项目中碰到这样的问题: 互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。 算法的原理很简单[详细]
-
[转]TF-IDF与余弦相似性的应用
所属栏目:[大数据] 日期:2021-01-18 热度:189
TF-IDF与余弦相似性的应用(一):自动提取关键词 作者:?阮一峰 日期:?2013年3月15日 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预[详细]
-
大数相乘 C++实现
所属栏目:[大数据] 日期:2021-01-18 热度:52
12*34=? 乘数:12 被乘数:34 先把乘数列出来,第i行列左起第i位数,列N次(N为乘数的位数) 第二行起每次右移一位 (1) (1) ??? (2) (2) 写入被乘数,按先列后行的方式 (1,3) (1,4) ????? (2,3) (2,4) 将()内的数两乘 (1,3=3) (1,4=4) ??????? (2,3=6) (2,4=[详细]
-
大数据分析 购物自动化会如何改变营销策略?
所属栏目:[大数据] 日期:2021-01-18 热度:100
报道大数据企业: 大数据产品、大数据方案、 ? 大数据人物 分享大数据干货: 大数据书籍、大数据报告、 大数据视频 本文系大数据人精选自网络。欢迎更多优质原创文章投稿给大数据人:289585305@qq.com 译者:ChaRlIEHeatHadJaNI 许多营销策略是公司为了影响[详细]
-
BI Publisher(rtf)模板开发语法大全(转)
所属栏目:[大数据] 日期:2021-01-17 热度:121
Rtf 模板开发例如背景,纹理分栏等等功能都能用 word 工具实现不再具体总结大家可以参考 word 教程。。。。。 ? 一 . 组 定义一个组的目的是告诉 XMLPublisher 对重复的数据行进行循环显示,也就是说需要使用 for-each 进行数据记录的循环显示 ?for-each:XML[详细]
-
OMXCodec数据处理过程
所属栏目:[大数据] 日期:2021-01-17 热度:145
OMXCodec数据处理过程 (2011-09-02 23:25:39) 转载 ▼ 标签: 杂谈 ? buffer的处理主要由以下4个命令来进行驱动 OMXCodec使用 OMX_EmptyThisBuffer 传递未解码的buffer给component, component收到该命令后会读取input port buffer中的数据,将其组装成帧进行[详细]
-
已用1.6亿份病例训练人工智能,大数医达要把机器培养成中级医生
所属栏目:[大数据] 日期:2021-01-17 热度:135
同一个治疗方案的疗效,因人而异,存在很大的不确定性。而且治疗过程不可逆,永远回不到昨天。这些特点,给训练模型造成了很大技术障碍。 文 | 刘涌 从医院信息系统,到电子病历系统,到跨系统的集成平台,到基于人工智能技术的临床诊疗辅助决策系统,新技术[详细]
-
基于VGI签到类目关联规则挖掘
所属栏目:[大数据] 日期:2021-01-17 热度:164
用c#语言写的一个数据挖掘的算法,数据是深圳和香港的2015新浪微博签到数据。 1.数据分析 签到数据中能够体现用户行为特性的只有[Category]。这个字段下的数据都可以表示用户当前的一个行为。用户每一条签到数据代表了该用户当下的一个行为,所以用户所有的[详细]
-
家电产品如何创新?挖掘产品性能和市场需求是关键
所属栏目:[大数据] 日期:2021-01-17 热度:56
最近几年,国内家电行业不太景气,根据国家统计局的数据,今年上半年零售额方面,彩电同比下跌4%、冰箱下跌7%、洗衣机下跌3%、空调下跌1.9%、冰柜大跌14.8%。这些数据均反映出国内家电市场正处于前所未有的困境之中。 不过,家电行业所面临的问题并不能完全[详细]
-
HDU 5901 大数素数计数
所属栏目:[大数据] 日期:2021-01-17 热度:124
Count primes Time Limit: 12000/6000 MS (Java/Others) ? ?Memory Limit: 65536/65536 K (Java/Others) Total Submission(s): 1234 ? ?Accepted Submission(s): 679 Problem Description Easy question! Calculate how many primes between [1...n]! ? Inpu[详细]
-
有奖话题讨论—大数据预测黄金周
所属栏目:[大数据] 日期:2021-01-17 热度:179
“大数据”到底是什么? 这个概念乍看上去相当模糊, 却越来越多的渗入到了我们日常的生活。 无论你从事什么行业, 无论你学的什么专业, 只要能从实际出发写下你对黄金周的预测, 都有机会获得奖品! 角度不限, 内容不限。 活动目的 每天全球膨大的物流网[详细]
-
分享 :大数据人才应如何挖掘与培养?
所属栏目:[大数据] 日期:2021-01-17 热度:152
优秀的人才是成事的根本。当开始真正做事的时候,人们会发现:优秀的人才是短缺的。于是,竞争的高端变成了人才的竞争。对于大数据这样新兴的发展方向来说,更是如此。 大数据的热头,今年虽然有被人工智能和虚拟现实掩盖的趋势,但其势头依然火热。而且 更[详细]
-
【快讯】工业大数据深度挖掘应用与技术实现“技术·前沿”讲座成
所属栏目:[大数据] 日期:2021-01-17 热度:71
2016 年 9 月 20 日晚,清华大数据“技术·前沿”系列讲座——工业大数据深度挖掘应用与技术实现在清华大学 FIT 楼多功能厅顺利举办,本期讲座有幸邀请到清华经研 95 级校友朱喻先生。朱喻先生先后供职于华为公司、用友软件,目前于优奕数据科技有限公司领导[详细]
-
2017校招数据分析岗笔试#92;/面试知识点总结
所属栏目:[大数据] 日期:2021-01-17 热度:129
2017校招正在火热的进行,后面会不断更新涉及到的相关知识点。 尽管听说今年几个大互联网公司招的人超少,但好像哪一年都说是就业困难,能够进去当然最好,不能进去是不是应该也抱着好的期望去找自己满意的呢? 最近笔试了很多家公司校招的数据分析和数据挖掘[详细]
-
// 对于一个数组返回第二大数
所属栏目:[大数据] 日期:2021-01-17 热度:154
// 对于一个数组返回第二大数int GetSecondMax(int arr[]){int max = arr[0],secondMax = arr[0];for(int i = 0; i sizeof(arr); i++){if(arr[i] secondMax){secondMax = arr[i];if(secondMax max){max = max + secondMax;secondMax = max - secondMax;max =[详细]
-
BigData学习2_分布式基础(1):CAP原理、BASE思想和最终一致性
所属栏目:[大数据] 日期:2021-01-17 热度:83
CAP,BASE和最终一致性是NoSQL数据库存在的三大基石。 CAP ? C:? C onsistency 一致性 A:? A vailability 可用性(指的是快速获取数据) P: Tolerance of network? P artition 分区容忍性(分布式) ????在足球比赛里,一个球员在一场比赛中进三个球,称之为 帽[详细]
-
[ZJOI 2013] bzoj3110 K大数查询 【树套树】
所属栏目:[大数据] 日期:2021-01-17 热度:180
Description 有N个位置,M个操作。操作有两种,每次操作如果是1 a b c的形式表示在第a个位置到第b个位置,每个位置加入一个数c 如果是2 a b c形式,表示询问从第a个位置到第b个位置,第C大的数是多少。 Input 第一行N,M 接下来M行,每行形如1 a b c或2 a b[详细]
-
超全面的2017校招数据分析岗笔试、面试知识点大总结
所属栏目:[大数据] 日期:2021-01-17 热度:134
2017校招正在火热的进行,后面会不断更新涉及到的相关知识点。 尽管听说今年几个大互联网公司招的人超少,但好像哪一年都说是就业困难,能够进去当然最好,不能进去是不是应该也抱着好的期望去找自己满意的呢? 最近笔试了很多家公司校招的数据分析和数据挖掘[详细]
-
大数据处理项目相关
所属栏目:[大数据] 日期:2021-01-17 热度:140
mapReduce部分 * MapReduce MAP :映射 reduce :归纳* 简单来说,一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如,有人发现所有学生的成绩都被高估了一分,他可以定义一个“减一”的映射函[详细]
-
TF-IDF与余弦相似性的应用(二):找出相似文章
所属栏目:[大数据] 日期:2021-01-17 热度:186
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来[详细]
-
KaraTsuba乘法——高效的大数乘法
所属栏目:[大数据] 日期:2021-01-16 热度:188
今天看Coursera课程时,看到一个牛逼的算法,叫KaraTsuba乘法。普通乘法复杂度一般都是O(n^2),而这个算法,仅有O( nlog3 )。下面,我就来介绍一下这个算法。 ? ? ? ? 首先来看看这个算法是怎么进行计算的,见下图: 图中显示了计算5678*1234的过程,首先是[详细]
-
BI主仓MPP分布式数据库迁移改造实战分享
所属栏目:[大数据] 日期:2021-01-16 热度:87
点击上方 蓝色字体 关注我们 汤人杰 ? ? ? ? ? 资深大数据架构师 骆似骏 ? ? ? ? ? 项目经理 刘刚 ? ? ? ? ? ? ?大数据工程师 徐彬馨 ? ? ? ? ? 大数据工程师 刘文兵 ? ? ? ? ? 大数据工程师 一、背景分析 DB2作为IBM公司开发的一套关系型数据库管理系统,被[详细]
-
【今日直播】工业大数据深度挖掘应用与技术实现
所属栏目:[大数据] 日期:2021-01-16 热度:52
大数据与工业数据的结合,使制造过程能进行分析、推理、判断、构思和决策等。通过人与机器的合作共事,去扩大、延伸和部分地取代人类专家在制造过程中的脑力劳动。它把制造自动化的概念更新,扩展到柔性化、智能化和高度集成化。然而,这一切又都必须服从企[详细]
-
学习总结--统计原理对数据分析的重要
所属栏目:[大数据] 日期:2021-01-16 热度:70
最近开始业余学习CDA的课程,就发现统计原理对自己来说是很难的。去年在学SAS的过程中,就听说过,如果你能把那么复杂的统计函数及统计公式全部理解清楚的话,那你需要达到统计学博士的水平。而就数据分析跟数据挖掘来说,统计知识好像又占到了很大的[详细]
-
干货推荐 |大数据分析在银行业的应用(附pdf)
所属栏目:[大数据] 日期:2021-01-16 热度:151
点击“阅读原文”,获取全文pdf。? 访问密码 c397 文章来源:数据猿[详细]