技巧1:快速读取数据
现在很多Kaggle比赛,数据集都比较大,大于3GB是非常常见的事情。在读取数据集时,可能会遇到一些困难。
你可以尝试以下的方法加速数据读取:
在 pandas
读取时手动设置变量类型使用 cudf
代替pandas
完成读取转为 parquet
或feather
再进行读取
技巧2:扩充数据集
当比赛数据集非常小时,外部数据集就非常关键了。此时可以寻找相似的外部数据集来完成预训练。
例如对于QA任务,可以选择以下的数据完成预训练。
https://rajpurkar.github.io/SQuAD-explorer/ http://nlpprogress.com/english/question_answering.html
当然也可以从伪标签
和数据扩增
和回译
来增加数据样本。
技巧3:深入文本数据
文本分析
EDA
有助于更好地理解数据。在开始开发机器学习模型之前,应该阅读/做大量的数据文本,这有助于特征工程和数据清洗。
文本长度规律 语种规律 标点符号规律 特殊字符规律
文本清洗
文本清理是NLP赛题中的重要组成部分。文本数据总是需要一些预处理和清理,然后我们才能用合适的形式表示它。
Remove HTML tags Remove extra whitespaces Convert accented characters to ASCII characters Expand contractions Remove special characters Lowercase all texts Convert number words to numeric form Remove numbers Remove stopwords Lemmatization
技巧4:文本表示
文本表示方法影响文本的表示形式,也决定了模型的精度。基础的词向量包括:
Pretrained Glove
vectorsPretrained fasttext
vectorsPretrained word2vec
vectorsPretrained Paragram
vectorsUniversal Sentence Encoder
也可以考虑组合上述词向量以减少OOV的情况,当然同一个单词也可以拼接或平均多种词向量。
也可以直接考虑直接使用高阶嵌入方法:
Bert
Roberta Bert
XLNET
技巧5:模型构建
损失函数
二分类 Binary cross-entropy
多分类 Categorical cross-entropy
二分类 Focal loss
多分类 Weighted focal loss
多分类 Weighted kappa
优化器
SGD RMSprop Adagrad Adam Adam with warmup
Callback
Model checkpoint Learning rate scheduler Early Stopping
# 竞赛交流群 邀请函 #

添加Coggle小助手微信领取代码(ID : coggle666)
每天Kaggle算法竞赛、干货资讯汇总
与 28000+来自竞赛爱好者一起交流~
文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
Hologres x 函数计算 x Qwen3,对接MCP构建企业级数据分析 Agent
阿里云大数据AI技术
639次阅读
2025-05-06 17:24:44
一页概览:Oracle GoldenGate
甲骨文云技术
503次阅读
2025-04-30 12:17:56
GoldenDB数据库v7.2焕新发布,助力全行业数据库平滑替代
GoldenDB分布式数据库
482次阅读
2025-04-30 12:17:50
优炫数据库成功入围新疆维吾尔自治区行政事业单位数据库2025年框架协议采购!
优炫软件
369次阅读
2025-04-18 10:01:22
XCOPS广州站:从开源自研之争到AI驱动的下一代数据库架构探索
韩锋频道
318次阅读
2025-04-29 10:35:54
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
阿里云大数据AI技术
303次阅读
2025-04-27 15:28:51
Coco AI 入驻 GitCode:打破数据孤岛,解锁智能协作新可能
极限实验室
255次阅读
2025-05-04 23:53:06
优炫数据库成功应用于晋江市发展和改革局!
优炫软件
204次阅读
2025-04-25 10:10:31
首批!百度智能云向量数据库以优异成绩通过中国信通院向量数据库性能测试
百度智能云
192次阅读
2025-05-08 19:35:25
优炫数据库四个案例入选《2024网信自主创新调研报告》
优炫软件
191次阅读
2025-04-22 10:12:23