handsomestwei
Preview Image

Kaggle泰坦尼克号幸存者预测项目实践

Kaggle泰坦尼克号幸存者预测项目实践 Kaggle Titanic: Machine Learning from Disaster 是典型的小规模表格二分类 + Accuracy 评测:样本少、特征混有类别与数值,却足够覆盖特征工程、验证方式、泄漏、集成与调参等通用课题。下文从「该怎么做」的角度整理套路,便于照搬到同类竞赛或工作中的表格建模。 一、推荐的建模迭代顺序 这一类题目...

Preview Image

Softmax算法使用简介

Softmax算法使用简介 Softmax 函数把任意长度的实数向量(常称 logits)唯一地变换为同一长度的向量:各分量在 (0,1) 上,且和为 1,因而常作为多类分类输出层的归一化概率表示。与 Sigmoid 处理二分类或逐元素“概率”不同,Softmax 在类别之间是互斥、竞争的;实现上多配合 对数似然/交叉熵 作损失。在大语言模型中,同一形式还用于下一词分布与注意力权重;采样温...

Preview Image

Z-score标准化与聚类应用

Z-score标准化与聚类应用 Z-score 标准化(又称标准分)把每个特征上的取值变换为「相对该特征均值偏离了多少个标准差」,使不同量纲、不同尺度的特征在数值上可比。它本身不是聚类「算法」,而是特征预处理中常用的线性尺度变换;在 K-means、高斯混合模型等依赖欧氏距离或二次型距离的聚类前,常与 Min-Max、稳健缩放等方法并列选型。 一、名称由来与在统计中的位置 标准分(...

Preview Image

BIRCH平衡迭代削减聚类层次算法简介

BIRCH平衡迭代削减聚类层次算法简介 流式与实时聚类:使用 BIRCH 时不必一次加载全量数据;样本按流或按批持续到达,算法只维护有界大小的中间状态——CF 树及其上的聚类特征——并对每条或每批样本执行增量更新。在此形态下,可在数据不断写入的同时完成聚类或准实时聚类。 一、算法定位与全称 BIRCH(Balanced Iterative Reducing and Clusteri...