【文献笔记整理】数据挖掘技术(1) - 网站源码_资源分享

近年来，随着数据库和人工智能的兴起，数据挖掘技术也成为国内外研究人员的热议课题。本期内容主要是针对数据挖掘技术的文献整理笔记。

[1]孟志青,郑国杰,赵韵雯.网络投资者情绪与股票市场价格关系研究——基于文本挖掘技术分析[J].价格理论与实践,2018(08):127-130.

研究背景：网络媒体与股票市场的关系愈发密切，相比于传统投资者情绪的代理，网络情绪反映投资主体的心理变化与行为取向，具有更强的真实性与时效性，利用文本挖掘方法研究网络媒体中的投资者情绪与股票市场价格关系，可以为规范网络媒体运行和维护金融市场稳定提供依据。

(sh600519)、中信国安(sz000839)、浦发银行(sh600000)、苏宁云商(sz002024)、三一重工(sh600031)、中国宝安(sz000009)共6论用于情感词典的构建与扩展，去除所有无法识别的以及非交易日的股票评论，一共爬取到约90万条评论，帖子的发表时间跨度为2012年12月20日至2017年5月25日。

数据处理方法：利用哈工大社会计算研究中心研发ltp3.3进行中文分词，接着利用Google公司开发的word2vec工具包将词汇转换为词向量，得到283个看涨情感词和265个看跌情感词。然后使用经典的文本分类方法朴素贝叶斯进行情绪分类，引入ARMA-GARCH 模型，利用模型的残差检验研究网络情绪对个股股票收益的影响。

研究结论：该研究通过情感分析技术提取了网络股评所包含的投资者情绪，引入ARMA-GARCH 族模型，发现个股收益率的波动对网络情绪的波动存在影响，并且这种影响往往是持续性的。另外，在短期内，从网络媒体中提取的投资者情绪对个股收益率波动具有显著的影响，这说明不同个股收益的波动受到网络情绪影响程度可能是不一致的，但大部分个股的网络情绪对股票收益具有一定的预测效力。

与同类研究相比较的优缺点：相比于国外，国内研究对评论文本的分析并不深入，本文通过情感分析或文本挖掘技术从个股层面，深层次地探究网络情绪与股票市场的因果关联性。

阅读参考价值：本文运用了一系列文本挖掘技术，提取网络媒体中投资者情绪，在消除了趋势因素的基础上实证检验网络媒体情绪与股票市场价格的关系。可以学习该文本挖掘技术，将其应用到其他领域。

[2]ZHAO Ning, ZHENG Guang, LI Jian, ZHAO Hong-yan, LU Cheng, JIANG Miao, ZHANG Chi, GUO Hong-tao, LU Ai-ping. Text Mining of Rheumatoid Arthritis and Diabetes Mellitus to Understand the Mechanisms of Chinese Medicine in Different Diseases with Same Treatment[J].Chinese Journal of Integrative Medicine,2018,24(10):777-784.

研究背景：中医药在同一治疗方法治疗不同疾病时的作用机制不同。类风湿性关节炎和糖尿病是不同的疾病，然而最近的研究表明两者之间存在很强的相关性。

中文数据集来自SinoMed中2011年3月6日的数据，一个数据集包括7955条类风湿关节炎和32563条糖尿病的数据，英文数据集来自PubMed和国家中心截取至2011年3月22日的数据，包含104,481条类风湿关节炎数据和260,008条糖尿病数据。

数据处理方法：由于这两个数据集都是半结构化数据，所以进行预处理后进行下载，然后通过MS SQL Server 2008 R2进行文本挖掘，将所得数据导入Cytoscape 2.8.3进行可视化分析，进行CM通用性计算找出两种疾病的共性。

研究结论：通过文本数据挖掘确定了类风湿性关节炎和糖尿病设计的生物活动之间的共性，并且类风湿性关节炎和糖尿病可能在特定阶段对相同的干预有反应。

与同类研究相比较的优缺点：这项研究为基于CM模式分类的不同疾病之间的共性提供一个模型，以供将来进行调查。但是数据来自文本挖掘，所以结论并不绝对。

阅读参考价值：提到了两个较为全面的数据库资源，另外可以将文中所用模型运用于其他领域的研究当中。

[3]陈艳,褚光磊.关联规则挖掘算法在股票预测中的应用研究——基于遗传网络规划的方法[J].管理现代化,2014,34(03):13-15+39.

[4]施国良,段秋宇,王春宝.基于共现分析和关联规则的概念股共现网络研究[J].管理现代化,2020,40(02):16-20.

研究背景：大数据时代背景下，捕捉概念股之间的关联性对股票价格的影响成为一项创新议题。

[3]选取了上海证券交易所的股票交易数据，作为实证分析的样本数据集。数据的时间跨度是从2009年1月5日至2013年1月25日，大致为四年。文献[4]Tushare金融大数据平台，时间为2017年8月至2019年8月，数据中包含股票代码、上司公司名称、日涨跌幅、概念股等字段。数据中共包含361个概念股、3656只股票。

数据处理方法：文献[3]利用GNP对事务间类关联规则进行挖掘，分为训练与检验两个部分：2009年1月5日至2012年1月13日作为模型的训练阶段；2012年1月16日至2013年1月25日，作为模型的检验阶段，利用基于遗传网络规划的方法，对所设定的数据库进行事物间关联规则的挖掘。文献[4]，对概念股出现的频次进行统计，根据热点概念股的时间分布情况，将热点概念股划分到不同时段，各时段内热点概念股的频次凸显不同时段的投资热点。

研究结论：文献[3]将8只股票组成了一个简单的投资组合，利用事务间关联规则，以及分类器做出预测结论所得到的收益，要远大于常用的买入并持有策略。文献[4]表明，热点概念股与相关联的概念股因股票共现而表现出趋同效应，通过共现分析和关联规则相结合，精确计量了概念股关联性的强度和方向。

与同类研究相比较的优缺点：将关联规则挖掘技术应用于股票预测，为股市的投资研究提供了全新的决策思路。

阅读参考价值：实证表明，分类器的选择会影响到利用关联规则进行股票预测的收益，因此要想提高关联规则效率，需要选择合适的分类器。

[5]鞠建东,余心玎,卢冰,侯江槐.中美经贸实力对比及关联分析:量化视角下的综合考量[J].国际经济评论,2019(06):56-73+6.

[6]邢锋.金融业税收与经济增长关联分析——基于省际面板数据的实证研究[J].税务研究,2020(01):34-38.

研究背景：经济基础决定上层建筑，中美关系是当今世界上最重要的双边关系之一，当前中美经贸摩擦持续升温。另外，金融业是联结国民经济各环节的重要纽带，产业关联性大，其对社会资源的配置效率影响着整体经济的运行效率。经济问题一直是热点话题，这两篇文献介绍的是在经济领域应用关联分析技术。

[5]数据来自世界银行WDI数据库的各国GDP数据、贸易数据、基于购买力平价的GDP数据、分产业GDP数据，高技术制造业增加值数据根据WIOD所提供的世界投入产出表计算，投资数据来自UNCTAD数据库，进出口贸易数据来自UN COMTRADE数据库。文献[6]数据跨度为2001-2007鉴。

数据处理方法：文献[5]考察了中美在全球经济以及各自所处区域内的角色，对两国经济数据做描述性比较分析，之后从贸易、生产、消费三个角度，选取多类代表性指标，对两国的基础实力及发展潜力进行了更为细分的比较。文献[6]以经济增长率为因变量，分别以金融业税负和金融业税收总量为自变量，各建立一个模型，应用stata14.0软件对各个序列进行面板单位根检验，为了防止“伪回归”又进行了面板协整检验，然后进行了回归分析和稳健性检验。

研究结论：文献[5]可以看出当前中美经贸实力整体水平趋近，中美两国之间的经贸关联亦在快速加深。文献[6]得出结论，金融业税负和金融业税收总量的提高均会对人均GDP指数产生一定的负向影响。

与同类研究相比较的优缺点：从数据量化角度，通过关联分析分析经济问题，结论更具客观性。

阅读参考价值：提供了多个数据查找平台，对从多方面角度分析分析经济问题提供了案例支持。

[7]单汨源,陈立立,张人龙.基于KMV和关联规则算法的行业供应链信用风险传染研究[J].科技管理研究,2015,35(13):211-217.

研究背景：由于供应链企业之间存在大量债权债务、业务、抵押担保等相关关系，供应链中某企业信用风险会传染与其有直接关系的企业，进而沿着供应链网络冲击整条供应链。此外，信用风险传染在不同行业供应链中呈现显著性差异。

2011年1月1日－2012年12月31日和2012年1月1日－2013年12月31日宝钢供应链和九州通供应链上市企业市场数据。样本中市场数据包括已调整日收盘价、日股权价值、长期负债、短期负债、同期无风险利率等数据，剔除违约距离计算为负值的企业，优先选择国内上市A 股企业，剔除在国外上市企业。

数据处理方法：将数据导入到SPSS Clementine 12. 0 软件进行关联规则挖掘。设定最大前项数量为2，最低置信度阈值80%。

研究结论：本研究首先使用KMV模型对供应链中企业信用风险进行度量，然后在采用Apriori 算法进行关联规则挖掘，发现，医药流通行业供应链中企业的信用风险传染频率和传染强度都要高于钢铁行业供应链中的企业。

与同类研究相比较的优缺点：目前关于供应链信用风险传染研究以及各行业供应链信用风险传染差异性大部分采取定性的分析，或者是对传染影响因素的研究。在研究方法上采取数量建模较多，较少利用供应链企业实际的市场数据。但本研究选取供应链样本的过程中剔除了非上市公司，导致了研究结果有一定的偏差。

阅读参考价值：对研究行业供应链信用风险问题提供了定量的研究方法。另外可以将其中运用的关联规则拓展到其他领域。

[8]郭开元,杨夏菲,郑红丽.青年吸毒的影响因素分析——基于决策树方法的分析[J].中国青年社会科学,2020,39(02):115-123.

[9]赵广高,吕文娣,付近梅,孙顺利,胡吴进,牟顶红,陈晶,黄婷,何梓豪,肖稳.幼儿体质影响因素的决策树研究[J].体育科学,2020,40(02):32-39.

[10]吕文娣,赵广高,付近梅,孙顺利,陈晶,何梓豪,黄婷,胡超,陈晨.基于决策树模型的幼儿超重关键因素研究[J].成都体育学院学报,2020,46(01):86-93.

[11]张持晨,李咪咪,赵慧宁,郑晓,薛雅卿,候丽红,蔡圆.空巢老人焦虑状况及影响因素的logistic回归与决策树分析[J].中国心理卫生杂志,2019,33(08):598-600.

[12]田俊静,兰月新,夏一雪,张双狮,连芷萱.基于决策树方法的网络舆情反转识别与实证研究[J].情报杂志,2019,38(08):121-125+171.

研究背景：决策树是数据挖掘中的重要技术，主要分为分类树和回归树，通过一些潜在的规则信息进行分析，产生预测模型。目前国际上最有效的决策树方法是Quinlan于1986年提出的ID3法，而后Quinlan（1993）又提出了改进算法C4.5。其优点在于它可以直接显示结果的决策过程，比较直观；缺点在于处理复杂性数据时，容易出现分支多管理难度大，及决策缓慢等情况。目前已在多领域获得应用。

[8]、[9]、[10]、[11][8]选择的青年被试共2531 人，吸毒者1491人( 58.9%) ，非吸毒者1040人( 41.1%)，男性1125人( 44.4%) ，女性1406人( 55.6%)。文献[9]数据中体质测试与问卷调查且数据均完整有效的受试幼儿4621名（36～83月龄），包括男童2508名，女童2113名。文献[10]中，从南昌市6区3县中每个区县按照人口的比例抽取2～3所幼儿园，共计23所幼儿园，共募集3 ～6岁幼儿5870名，平均年龄( 4.05±0.86) 岁。文献[11]中，共发放问卷5000份，收回有效问卷4901份，其中男2546人，女2355人。文献[12]从2013年开始，搜狐网、新华网等国内主流网站都会对本年度的网络舆情反转事件进行盘点，收集了从2013－2018年之间的75个网络舆情反转事件的相关信息。

数据处理方法：文献[8]中，首先对缺失值进行处理，然后使用SPSS20.0软件对所选自变量指标进行描述统计分析，对离散自变量进行卡方检验，对连续自变量进行独立样本t检验。最后利用MATLAB软件，用决策树方法建构预测模型。文献[9]、[10]运用SPSS 22.0软件对幼儿体质与问卷信息进行匹配整合，剔除无效数据。采用软件IBM SPSS modeler创建决策树模型。文献[11]釆用Epidata建立数据库，使用SPSS22. 0进行数据分析，运用logistic回归和决策树模型分析空巢老人焦虑的影响因素，使用Microsoft Visio 绘制相关图表。文献[12]针对网络舆情反转事件的分类属性制定了相应的预案，在SQL Server中利用数据样本集进行决策树模型的构建，并加以分析。

研究结论：文献[8]通过青少年吸毒组与未吸毒组的数据比较，分析家庭结构、家庭教育、不良行为、朋辈关系等因素是青少年吸毒的高危诱发因素。文献[9]得出结论，身体活动与静坐行为、性别、钙摄入等对不同层次类型幼儿的体质促进具有决策意义。文献[10]研究发现身体活动尤其是室外身体活动与幼儿超重的关系最为密切，父母肥胖程度、父亲收入与受教育情况、喂养方式、静坐行为也是导致幼儿超重的关键性因素。文献[11]发现不能自理是空巢老人焦虑的危险因素，其次是不能完全自理。文献[12]研究指出，事件类型、持续时长、反转次数和反转时段等属性都是影响舆情反转事件分类的重要因素。

与同类研究相比较的优缺点：通过具体数据案例，将决策树的优点得以体现，文献[10]还将决策树方法与传统数据分析方法做了对比，并分析了决策树方法与传统分析方法得到的不同结果。

阅读参考价值：指出决策树的部分应用范围，可将其广泛应用于影响因素研究。

[13]马晓君,董碧滢,王常欣.一种基于PSO优化加权随机森林算法的上市公司信用评级模型设计[J].数量经济技术经济研究,2019,36(12):165-182.

[14]罗丽.基于随机森林算法的贫困精准识别模型研究[J].华中农业大学学报(社会科学版),2019(06):21-29+160.

[15]武峥,丁冲,景英川.基于稀疏降噪自编码器的随机森林模型[J].统计与信息论坛,2019,34(08):27-33.

[16]陈丹玲,卢新海,匡兵.基于随机森林的耕地利用效率测度模型构建及其应用[J].自然资源学报,2019,34(06):1331-1344.

[17]何云,黄翀,李贺,刘庆生,刘高焕,周振超,张晨晨.基于Sentinel-2A影像特征优选的随机森林土地覆盖分类[J].资源科学,2019,41(05):992-1001.

研究背景：随机森林(RF)是一种统计学习理论，通过组合多棵决策树的预测，投票得出最终预测结果，具有很高的预测准确率，对异常值和噪声具有很好的容忍度，且不容易出现过拟合，在医学、生物信息、管理学等领域有着广泛的应用。

[13]2016月1日1日至2016年12月31日的我国沪深两市Ａ股市场共有3569家上市公司财务数据为原始数据。文献[14]主要采用CFPS 2016年的调查数据，并按照构建的可持续生计多维贫困指标体系筛选出无缺失值的农村面板数据；其中家庭数7860户，个体样本数25382个。文献[15]选用的三种经典数据集均来自UCI，分别为Banknote Authentication Data Set、 Connectionist Bench Data Set以及经典的MINST数据集。文献[16]2004-2016年《中国农村统计年鉴》《中国城市统计年鉴》以及粮食主产区13个省、自治区及各地级市的官方统计资料。同时，样本中删除了济源市、神农架林区、天门市、潜江市、仙桃市、眉山市、资阳市、恩施土家族苗族自治州8市（区）。文献[17]数据为2015

数据处理方法：文献[13]初步选取26个财务比率指标，然后通过随机森林最终选取出12个财务特征指标，构建了加权随机森林模型。文献[14]采用对照表的形式，将贫困指标的符号数据根据指标定义一一对应转化为可以直接分析利用的贫困数据，对各个指标贫困数据进行归一化处理后，然后用R软件构建基于随机森林算法的贫困识别模型。文献[15]利用Python语言，对三类经典数据集分别应用普通随机森林、主成分随机森林作为参照模型，对稀疏降噪自编码随机森林进行分类效果比较。文献[16]首先构建了耕地利用效率测度指标体系，初步选取了19个指标，然后运用SPSS22.0进行指标关联性分析最终选择12 项指标建立指标体系。在2003-2015年的数据生成原始样本集，共2028组样本，随机选取60%，即1217 组数据作为训练样本，25%的数据作为测试样本，剩余15%的数据作为检验样本，建立随机森林模型。文献[17]使用灰度共生矩阵方法提取影像的纹理特征，共选取了10个光谱特征、4个指数特征、10个纹理特征共24个特征。然后使用Python进行特征重要性评估与优选，利用GDAL库读取训练样本数据，通过调用scikit-learn库中的随机森林分类器，分别利用全部24个原始特征和优选特征建立随机森林模型，对Sentinel-2A影像进行分类，并对两者的分类结果进行对比分析。

研究结论：文献[13]得出，采用PSO优化加权随机森林模型的上市公司信用评级准确率有所提高，其评级准确率普遍优于传统的决策树、支持向量机和随机森林模型。文献[14]指出，构建的基于随机森林的贫困精准识别模型在贫困人口识别方面识别精确率达到了95.02％，具有较高的精确率，能够从繁杂的贫困数据中精确地识别出贫困人口。文献[15]发现，利用稀疏降噪自编码神经网络进行特征提取所得到的特征，能够使随机森林的分类精度得到一定程度的提高。文献[16]中，从评价结果与现实的匹配度和精度表征参数来看，RF的测度结果与自然和社会经济发展等客观事实更相符。文献[17]结果表明，基于特征优选的随机森林方法能有效地区分自然植被和栽培作物，对旱地作物和水田作物的区分也具有优势，与原始随机森林方法相比，总体分类精度提高了2.91%，kappa系数提高0.0351，而且降低了计算复杂度，提高了分类速度，在Sentinel-2A影像土地覆盖分类中具有较好的适用性。

与同类研究相比较的优缺点：既反映了随机森林模型在不同领域的应用，又在传统随机森林模型的基础上，从不同方面对随机森林模型进行了优化。

阅读参考价值：为我们在自己的研究中使用随机森林模型提供了合理的优化思路。

[18]Liuyang ZHAN, Xiaohong MA, Weiqi FANG,Rui WANG, Zesheng LIU, Yang SONG, Huafeng ZHAO.A rapid classification method of aluminum alloy based on laser-induced breakdown spectroscopy and random forest algorithm[J].Plasma Scienceand Technology,2019,21(03):152-158.

研究背景：准确地对铝合金进行分类是一项重大的任务。近年来，已经报道了基于激光诱导击穿光谱法（LIBS）的分类方法。尽管LIBS是一种先进的检测技术，但有必要将其与某种算法结合起来以达到快速准确分类的目的。作为重要的机器学习方法，随机森林（RF）算法在模式识别和材料分类中起着重要作用。

数据处理方法：运用激光诱导击穿光谱法测出所需要的数据，将数据的80%用作训练集，20%用作测试集，通过随机森林进行分类。

研究结论：使用随机森林方法对铝合金样品进行分类可达到的最佳准确度为98.59％，平均为98.45％。采用RF算法的LIBS可以对铝合金进行有效，精确，快速，准确的分类

与同类研究相比较的优缺点：对铝合金进行分类的的方法中主要采用普通的分类技术，将其与机器学习方法相结合具有重要意义。

阅读参考价值：指出了在应用中可以将随机森林与其他技术相结合使用。将工业技术与先进算法相结合，可以大大提高研究效率。

[19]何刚,吴文青,夏杰.基于Simpson公式的灰色神经网络在GDP预测中的应用[J].统计与决策,2020,36(02):43-47.

[20]黄仕靖,陈国华,吴川徽,袁勤俭.基于改进AHP-BP神经网络的科研项目数据库评价指标模型构建[J].情报科学,2020,38(01):140-146.

研究背景：神经网络是目前最常用的数据挖掘技术之一，通过模拟生物神经网络，对一系列样本的进行训练学习，以区别不同样本间的特征模式。由于神经网络结构复杂，训练时间长，可解释性差等也使得神经网络技术的应用受限，因此研究学者对各种网络训练法不断进行优化，使神经网络技术应用率逐步扩大。

[19]中，中国GDP和6中国统计年鉴2017》。文献[20]数据为300份调查问卷，来自高校10位经常使用科研项目数据库的高校教师和在读博士生用户，对科研项目数据库的指标给出的评价。

数据处理方法：文献[19]利用MATLAB软件对中国GDP有关的影响因素进行相关性分析选取了六个指标，以1997—2011年的中国GDP的历史数据进行建模，以2012—2016年的GDP 数据对三种不同的预测模型，即梯形公式的GM(1,1)模型、Simpson公式的GM(1,1)模型和Simpson改进的灰色神经网络模型进行检验。文献[20]将数据划分为3份，其中训练集20份，验证集5份，测试集5份，应用Matlab神经网络工具箱实现BP神经网络的设计、训练、测试和验证。

研究结论：文献[19]对比分析GM(1,1)、Simpson公式改进的GM(1,1)、Simpson公式改进的灰色神经网络模型的计算结果，可明显看出基于Simpson公式改进的灰色神经网络预测精度最高。文献[20]指出，对于科研项目数据库来说，内容是最关键的评价指标，且改进的AHP-BP神经网络评价模型所得结果更加客观合理。

与同类研究相比较的优缺点：文献[19]利用Simpson积分公式对GM(1,1)的背景值进行改进，得到了改进的GM(1,1)模型，并在此基础上,将灰色系统的预测值和影响GDP总量的主要因素同时作为神经网络的输入，构建串联型灰色神经网络GDP预测模型。文献[20]中根据传统AHP法计算指标权重得到可供推广的AHP-BP神经网络模型。比起传统的神经网络模型，改进后的神经网络模型精准度更高。

阅读参考价值：可以将两篇文献中改进后的神经网络模型用于其他领域，并为各界学者对神经网络模型进行改进提供了新思路。

相关文章

微信