发现新版本
网站好像有新内容,是否更新(゚⊿゚)ツ?
2024-07-15
692 字
3 分钟
随机森林如何调参
随机森林是一种强大的集成学习方法,通过构建多个决策树并取它们的平均值来进行预测。为了获得最佳性能,需要对随机森林模型进行调参。以下是一些常见的参数和调参方法:
常见参数
n_estimators: 决策树的数量。通常,增加树的数量可以提高模型的性能,但也会增加计算成本。
max_depth: 每棵树的最大深度。限制树的深度可以防止过拟合。
min_samples_split: 内部节点再划分所需最小样本数。增加这个值可以防止过拟合。
min_samples_leaf: 叶子节点最少样本数。增加这个值可以防止过拟合。
max_features: 寻找最佳分割时要考虑的特征数量。通常,默认值(
2024-07-12
6.7k 字
22 分钟
数据分析之Tableau食用指南
Tableau:最易上手且功能强大的可视化操作BI工具
Tableau是一款广受欢迎的商业智能(BI)工具,以其直观的用户界面和强大的数据可视化功能而闻名。无论是数据分析师、业务用户还是IT专业人员,都能快速上手并利用Tableau进行高效的数据分析和可视化展示。
相对于Excel,Tableau可以处理以亿为级别的数据,展现出其卓越的数据处理能力。而Excel在处理几十万条数据的时候,往往会出现卡顿现象,限制了其在大型数据集上的应用。
相较于MySQL,Tableau不仅提供了强大的数据连接和处理功能,还以其可视化操作和丰富的图表选项著称。用户可以通过Tableau直观地展示数据,进行深入的
2024-07-02
8.5k 字
29 分钟
数据分析之Excel食用指南
Excel,作为微软公司开发的一款强大电子表格软件,不仅在数据分析、财务计算、项目管理、统计分析等领域发挥着重要作用,还因其丰富的数据处理和计算功能,以及多样化的图表和图形工具,成为高效管理和分析数据的得力助手。
如下图,是拉姆在系统学习Excel时制作的某店铺报表,其中利用了切片器灵活筛选美团、饿了么的数据情况,这是初级数据分析师所必须掌握的。接下来,我们要介绍关于excel的各类用法,帮助大家胜任数据分析师。
基础篇
首先,为了确保数据的安全性和便于分析计算结果,我们需采取以下步骤:
创建一个新的工作簿(例如工作簿2),专门用于存储和分析计算结果。
这样做的好处是可以避免在原始数据工
2024-06-15
2.4k 字
9 分钟
数据分析食用指南2-优化与连接
优化算法
曾经有一次面试的时候,HR问拉姆优化算法都是有哪些,拉姆很懵,因为拉姆下意识以为这是算法岗的内容,就磕磕绊绊得回答的很糟糕。
现在了解一下,其实数据分析和数据挖掘中常用的优化算法是有很多的,这些算法可以帮助我们找到最优或近似最优的解决方案。
以下是一些常见的优化算法及其应用场景:
梯度下降(Gradient Descent)
梯度下降是一种迭代优化算法,用于最小化一个函数。在机器学习中,它通常用于最小化损失函数,以找到模型的最佳参数。
应用场景:线性回归、逻辑回归、神经网络等模型的参数优化。
随机梯度下降(Stochastic Gradient Descent, SGD)
随机
2024-06-05
2k 字
7 分钟
回归与分类
回归(Regression)和分类(Classification)是机器学习中两种常见的监督学习任务,它们在目标和方法上有所不同。
回归(Regression)
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测一个具体的数值,如房价、股票价格、温度等。
关键特点:
目标变量:连续值。
输出:一个数值。
例子:线性回归、多项式回归、决策树回归、随机森林回归等。
应用场景:
房价预测
销售预测
股票价格预测
线性回归
线性回归(Linear Regression)是统计学和机器学习中最基础的预测建模技术之一,它用于建立和估计一个
2024-05-31
2.4k 字
8 分钟
数据分析之特征提取-PCA
常见方法
在数据分析中,特征提取是一个关键步骤,它涉及从原始数据中提取有意义的特征,以便用于后续的分析和建模。以下是一些常用的特征提取方法:
主成分分析(PCA):
PCA是一种线性降维技术,通过将数据投影到新的正交坐标系中,提取出数据的主要成分。这些主成分是原始特征的线性组合,能够最大程度地保留数据的方差。
独立成分分析(ICA):
ICA是一种用于分离混合信号的技术,它假设数据是由独立的非高斯信号源线性混合而成的。ICA的目标是找到这些独立的信号源。
线性判别分析(LDA):
LDA是一种监督学习方法,用于在保持类间差异最大化的同时,减少数据的维度。LDA通过找到一