简介:拓数派旗下的Data Science Lab为企业设计以数据驱动的业务场景框架,赋能企业实现AI和机器学习、商业智能等价值创造,凭借PieCloudDB云原生数据计算平台的强大功能、团队专业的数学模型方法论和技术,让企业真正专注于从海量数据和高速计算中挖掘数据本身的价值。
数据科学在文本分析中的应用 :中英文 NLP(上) 网页内容抓取是从互联网上获取数据的方式之一。对于使用Python进行网页抓取的开发者,比较主流的工具有以下几种:。在这个过程中,BeautifulSoup会一定程度上读取这类文件的数据结构,并在此基础上提供许多与查找和获取数据内容相关的方程。除此之外,BeautifulSoup完善、易于理解的文档和活跃的社区使得开发者不仅可以快速上手,也能快速精通,并灵活运用于开发者自己的应用当中。不过正因为这些工作特性,相较于其他库而言,BeautifulSoup也有比较明显的缺陷。其次,由于BeautifulSoup需要提前读取和理解整个文件的数据框架以便之后内容的查找,从文件读取速度的角度来看,BeautifulSoup相对较慢。可运行于多种环境,不仅仅局限于Python。由于在获取景点评论的过程中需要应对搜索栏输入、弹出页面和翻页等情况,在本项目中,我们会使用Selenium进行网页文本数据的抓取。
后疫情时代,数据科学赋能旅游行业服务质量提升 通宵灯火人如织,一派歌声喜欲狂。新冠“乙类乙管”的实施加上春节假期的到来,使得人们的出行热情空前高涨。根据中国旅游研究院的调查显示,23年春节假期全国国内旅游出游达到了3.08亿人次,同比增长23.1%,期间旅游收入达3758.43亿元。以杭州西湖景区为例,该景区在春节期间招待游客292.86万人次,数量近上年的4倍。各大景区热闹非凡、游客络绎不绝的新闻也成为了人们对23年春节独特的回忆。在游客反馈方面,由于人次过少,景区非常容易陷入无法对游客需求进行准确判断的困境。了解游客的真实感受和评价,并根据这些信息对景区硬件、软件、管理等进行升级,是景区应对暴涨的游客需求和期待最有效的解决方案之一。面对后疫情时代下,旅游行业逐渐迈向复苏,景区该如何把握机会,通过提升服务来满足游客需求呢?基于以上背景,我们决定建立这样一个实验性项目,让数据来告诉大家答案。
PieCloudDB Database 云上商业智能的最佳实践 「商业智能」这个概念最早是Gartner在上个世纪九十年代提出的,它认为从功能上来说,商业智能是一种解决方案,其关键是处理企业来自多个来源的各种数据,提取有用的数据并清理,然后经过抽取、转换和加载,即ETL过程,合并到一个企业级的数据仓库里,按照一定的建模方式组织数据,再利用合适的商业智能工具来形成各种可视化的分析报表,将数据转化为洞察,为管理者的决策提供支持。PieCloudDBDatabase作为一款云原生数据库产品,搭建了底层业务系统数据源和可视化分析报表之间的桥梁,在整个商业智能解决方案中起到了承上启下的核心作用。PieCloudDBDatabase兼容PostgreSQL协议,支持ODBC、JDBC等标准数据库接口。对SQL的全面支持使得PieCloudDBDatabase可以无缝集成业内常见的ETL和BI工具;而对多种过程语言的支持为用户基于数据库的二次开发提供了便利。本文将借助一个商业智能场景,介绍如何使用Python编程语言和BI工具Tableau连接PieCloudDBDatabase,从而形成以下完整的商业智能解决方案:
数据科学,为企业创造更大的数据价值 随着全球数据总量快速增长、计算资源不断扩张,数据科学已然成为商业活动中复杂计算场景的“助推器”,它所创造的商业价值使其逐渐在全球各大企业中占据了重要地位。针对这一独特现象,沃尔玛便将尿布和啤酒放置在同一个区域,以方便顾客快速采购,这一策略使沃尔玛获得了巨大的销售收入。这就是历史上经典的“尿布与啤酒”案例,体现了早期数据分析在零售行业的商业价值。一套科学、标准的数据科学流程对于企业来说至关重要,而每个企业的数据科学流程又略微不同。产品管理模块是这套数据科学流程中的第一个步骤,涉及到多种跨职能的团队合作,其中主要包括业务人员、数据工程师、数据科学家、商业分析师等角色。
数据科学在量化金融中的应用:指数预测(下) 回顾上篇,我们对股票指数数据进行了收集、探索性分析和预处理。接下来,本篇会重点介绍特征工程、模型选择和训练、模型评估和模型预测的详细过程,并对预测结果进行分析总结。特征工程在正式建模之前,我们需要对数
数据科学在量化金融中的应用:指数预测(上) 自2018年末以来,全球金融基本盘由早期的稳步上升变得起伏不定。由于投资者对市场走向和未来展望的不确定,这样的市场情绪带动着大盘和指数起起伏伏。面对动荡的金融市场,政府和金融监管机构推行了各式各样的政策以应对疫情造成的影响,稳住经济与股票基本盘。在股票市场的风险管理中,金融从业者需要先查看价格变化是否在预期范围内,并判断这样的变化是由系统风险还是政策变化或重大事件所产生。如非系统风险,金融从业者则需要在对政策或重大事件充分的了解后,决定是否需要调整当下的策略,买入或出售相应的资产来保障机构金融层面的安全。判断系统风险的方法有多种,其中较为流行的方法是通过历史价格信息来预测未来价格,并比较真实价格与预测结果的差距。
数据科学的起源与发展 现如今,当人们被问到什么学科最火爆,就业率最高时,”数据科学”想必一定是其中的一个答案。《哈佛商业评论》曾一度将“数据科学家”这一职业评为21世纪最性感的工作。近年来,随着可用的数据量日益激增,数据挖掘和分析给企业带来了巨大的经济效应,数据科学领域也得到了蓬勃的发展。各行各业掀起了对数据科学家的招聘浪潮,越来越多的大学设立了数据科学相关学科来满足社会需求。在数据科学成立之前,数据研究一直都是学术统计学领域的工作,通过数据建模来对某种现象进行推论。随着数据的发展,越来越多的人发现数据本身的价值,通过对数据的分析和利用,我们可以解决许多生活中的实际问题,而不仅仅是停留在学术理论的研究。第一个提出对传统统计学进行改革的吹哨人是JohnW.Tukey,他发表的文章《TheFutureofDataAnalysis》一直被人们看做是数据科学的起源。他提出了数据分析这一新科学和其未来发展的可能性,并预言突破数理统计学边界的数据时代将会到来。