2024年(第7届)“泰迪杯”数据分析技能赛(国二+代码)

   日期:2024-12-14     作者:ira0v      
核心提示:目录一、前言 二、原题分析 2.1、研究背景与意义 2.2、问题重述 2.2.1、预期目标 2.2.2、任务要求 三、任务一:数据预处理

目录

一、前言

二、原题分析

2.1、研究背景与意义

2024年(第7届)“泰迪杯”数据分析技能赛(国二+代码)

2.2、问题重述

2.2.1、预期目标

2.2.2、任务要求

三、任务一:数据预处理

3.1、第一小问求解

3.2、第二小问求解

3.3、第三小问求解

3.4、第四小问求解

四、任务二:数据可视化

4.1、第一小问求解

4.2、第二小问求解

4.3、第三小问求解

4.4、第四小问求解

4.5、第五小问求解

五、任务三:特医食品推荐

5.1、问题分析

5.2、问题求解

六、总结


作为一名在校计算机烟酒生,深感师兄就业形势之严峻,我开始慌了,想着多水一些比赛来写写简历,提高自己的就业竞争力吧。

两年前做副业接到一个大学生单子,python进行数据分析,要在两小时内写给她,她要写文档,然后和她成为朋友,通过她了解了这个比赛,泰迪杯。

个人感觉这种比赛非常锻炼能力,在八个小时内对相关的数据进行分析求解并撰写解题报告提交,首先是锻炼数据分析的解题能力,然后锻炼AI工具运用能力(许多代码你要让AI帮你写)、还有就是文档编辑能力、团队协作能力(我负责代码编写调试,感谢我的队友,两个小姐姐对我很信任,并且完成了几乎所有文档撰写功能)。

个人还是非常推荐这个比赛的,我第一次参加,参赛队伍接近一千六百支队伍,总获奖率百分之四十(一等前8%,二12%-20%,三等20%-40%,最终我们队B题用了接近六小时,取得了二等奖这个结果,也是非常意外,下面我将对本次比赛的数据、问题、解题过程根据我们所撰写的结果文档做一个分享。

特殊医学用途配方食品简称特医食品,是指为满足进食受限、消化吸收障碍、代谢紊乱或者特定疾病状态人群对营养素或者膳食的特殊需要,专门加工配置而成的配方食品,包括 0 月龄至 12 月龄的特殊医学用途婴儿配方食品和适用于 1岁以上的特殊医学用途配方食品。在降低死亡率、减少并发症、提升患者生活质量、缩短住院时间、降低医疗费用等方面起到重要作用,是为特殊医学状况人群开的“小灶”。特殊医学用途配方食品为全年龄段人群提供针对性营养支持,作为现代医疗保健体系中不可或缺的一部分,其弥补了传统饮食在特殊医疗需求前的不足,对整个医疗公共卫生领域产生了深远影响。
特殊医学用途配方食品在生产和销售前需要经过严格的审批和注册过程,包括安全性、有效性的评估。所以在我国对于特殊医学用途配方食品的审核有着非常严格的规定。截至 2024 年 4 月,国内仅审批通过了 182 款特医食品(含已注销)。分析 182 款特医食品的相关信息,统计特医食品生产概况并可视化,对特医食品产业发展现状不断完善及其治理意义重大。

2.2.1、预期目标

对我国目前 182 款特殊医学用途配方食品(含已注销)的相关信息进行整理、统计和分析。具体目标如下
1. 提取 182 款特殊医学用途配方食品产品标签、说明书(以下简称特医食品说明书)中的相关数据及 data.xlsx 数据进行预处理。
2. 统计 182 款特医食品生产概况并可视化。
3. 构建特医食品推荐系统。

2.2.2、任务要求

任务一:数据预处理
a) 读取 182 款特医食品说明书,按照表 1 的要求提取【营养成分表】中“每 100kJ”列的指定营养成分数据,将提取的数据保存到文件“result1.xlsx”中,同时在报告中列出每 100kJ(千焦)中蛋白质含量最高的三种特医食品(注意营养成分的单位)。注:格式见表 1;若该特医食品没有对应营养成分,填充为 0。PDF截图如下

打开其中一个,截图如下

表1截图如下

b) 提取 182 款特医食品说明书中【产品类别】、【组织状态】、【适用人群】的数据,在 data.xlsx 数据中新增“产品类别”、“组织状态”、“适用人群”三列并将提取的数据保存到文件“result2.xlsx”中,同时在报告中列前 5 款特医食品的结果(须说明特殊情况的处理)。注:格式见表 2;若该特医食品没有对应信息,留空即可。表2截图如下

任务二:生产概况可视化

a) 统计不同登记年份不同产品来源的特医食品获批量,绘制双折线图,并在报告中对结果进行必要分析。
b) 根据特医食品产品来源与适用人群类别绘制内层为饼图的旭日图,其中内层表示适用人群类别,外层表示不同适用人群类别的产品来源分布,并在报告中对结果进行必要分析。
c) 统计不同产品类别的特医食品获批量,按获批量进行降序排列,绘制柱状图,x 轴为产品类别,y 轴为获批量,并在报告中对结果进行必要分析。
d) 在同一坐标系中,分别用不同颜色绘制 182 款特医食品脂肪和蛋白质含量的频数分布直方图,并在报告中对结果进行必要分析。
e) 根据 182 款特医食品的“适用人群”绘制词云图,并在报告中分析特医食品适用人群特征。

任务三:特医食品推荐

在任务 1 和任务 2 的基础上,合理运用现有数据完成推荐任务。基于客户的需求描述(如年龄段、症状、特殊说明,从 182 款特医食品中自动筛选出符合条件的产品选项,为客户提供个性化的特医食品推荐服务。实现方式不限,可以使用推荐算法或大模型,但须在报告中详细描述实现过程、推荐逻辑以及推荐结果。
基于构建的智能推荐模型(或系统,根据下列的客户需求进行特医食品的推荐。
a) 客户 1:婴儿、蛋白质过敏。
b) 客户 2:10 岁儿童、需要补充蛋白质、乳糖不耐受。

先给出代码

 

针对任务一的第一小问
首先,由于 182 款特医食品说明书给出为 pdf 版本,所以本文首先编程将182 款特医食品说明书的注册证号(pdf 版本文件名称)保存到“result1.xlsx”的A 列。接下来,编程将 182 款特医食品说明书的 pdf 版本的所有数据(包括换行符)逐页提取出来。其次,编程提取出 182 款特医食品的营养成分,以字符串方式切分,从“【营养成分表】”开始提取、到“【配方特点/营养学特征】”结束提取。这样就得到了 PDF 中的营养成分表格数据,表格数据行与行之间用分隔符隔开,就把每行数据根据分隔符切分放到营养成分列表中。

接下来观察每个表格数据,存在以下特殊情况:首先是表头有六种类型,分别为‘营养成分 每 100mL 每 100kJ’,‘营养成分 每 100g 每 100mL 每 100kJ’,‘营养成分 每 100g 每 100kJ’,‘营养成分 每 100mL 每 100kJ 每份’,‘营养成分 每 100g 每 100kJ 每份’,‘营养成分 每 100g 每 100mL 每 100kJ 每份’。其次有的表格在 PDF 中跨页存在,也就导致了数据中多出一个表头。然后,题目要求提取指定营养类型的数据,而不是全部。然后针对这三种特殊情况,我构建了一个匹配列表,元素为营养成分名称。
然后根据营养成分列表的第一个名称是否是六种表头之一来用 if 语句提取,如果满足前三种表头名称,则在营养成分列表中删除值还等于该表头名称的数据(分页会导致这种现象,判断匹配列表中的元素是否在营养元素列表中,若存在,则对营养成分列表中的元素把表头名称去除,用空格分割,取最后一个元素,也就是对应的该营养成分每 100kJ 含量结果。如果满足后面三种表头名称,则取倒数第二个元素,为对应的所需数据,提取简要算法流程如下

最后,提取完所有营养成分,将得到的结果存入“result1.xlsx”中。每 100kJ(千焦)中蛋白质含量最高的三种特医食品在表 2.1 中给出结果

先给出代码

 

根据任务一的要求,针对第二小问
首先,根据第一小问提取出的 182 款特医食品说明书的 pdf 版本的所有数据(包括换行符)编程提取出“产品类别”、“组织状态”、“适用人群”。以“产品类别”为例,从“【产品类别】”开始,到“ ”结束,提取出两者之间的数据保存到文件“data.xlsx”中并命名为“产品类别”列。其次,在“data.xlsx”中的最左侧增加“序号”列,并将所有数据保存到文件“result2.xlsx”中。
最后,根据上述所得工作表,前 5 款特医食品的结果在表 2.2 中给出

 

根据任务一要求,针对对第三小问
首先,通过统计“result2.xlsx”中“适用人群”列找出进行适用人群分类的关键数据。
然后,利用关键数据编程进行适用人群分类。“适用人群”列中出现“0~12”或“婴儿”输出为“特医婴配食品”,“适用人群”列中出现“10”或“1 岁以上”或“1~”或“18”时,输出为“1 岁以上特医食品”。
最后,将结果存放在”result2.xlsx”中。

 

根据任务一要求,针对第四小问
首先,读取“result2.xlsx”中“注册证号”列。
然后,由于我们需要的数据位于“注册证号”中,所以采用字符串切片的方式提取第 6 到 11 位字符,并将所得新字符串的前四位存放于“result2.xlsx”中的“登记年份”列,对所得新字符串的最后一位字符进行判断,为“5”输出“进口产品”,为“0”则输出“国产产品”并将结果存放于“result2.xlsx”中的“产品来源”列。
最后,在表 2.3 中给出前 5 款特医食品“适用人群类别”、“产品来源”、“登记年份”的相关信息。

4.1、第一小问求解

 

根据任务二的要求,针对第一小问,本文基于任务一所得产品来源数据,给出不同登记年份不同产品来源的特医食品获批量双折线图

由图可得,国产产品获批量在 2017-2021 年间随着年份的变化呈上升趋势,在 2021-2022 年间有所下降,但在 2022-2023 年间迅速增多,随后再次大幅减少。进口产品获批量在 2017-2019 年间呈上升趋势,随后则随着年份变化总体呈下降趋势。
对比两种食品来源数据的折线图可以得到,在 2017-2019 年间,国产特医食品获批量与进口特医食品获批量有所差距,而在 2019 年之后,国产产品获批量遥遥领先,进口产品获批量再次减少之后基本没有变化。从总体获批量趋势可得,国产产品占据的份额越来越多。

4.2、第二小问求解

 

 针对任务二第二小问,本文根据特医食品的两种来源与适用人群类别绘制内层为饼图的旭日图。如图 3.2,图中内层为特医食品适用人群分布,外层为两种适用人群的产品来源分布。

由图可得,一岁以上特医食品的占比为 72%,其中国产产品与进口产品的分布分别为 68%,4%;特医婴配食品的分布为 28%,其中国产产品与进口产品的分布分别为 15%,13%。
对比两种适用人群和产品来源分布可以得到,现今审批通过的特医食品(含已注销)大部分适用于 1 岁以上人群,且国产产品占比更大。在适用于婴儿的特医食品中,国产产品的占比仅以微弱优势领先进口产品。总体来看,国产产品目标更集中于一岁以上人群,进口产品则更专注于婴儿群体。

4.3、第三小问求解

 

针对任务二第三小问,将获批量按降序排列,绘制不同产品类别的特医食品获批量柱状图。 

由图可得,在已获批的特医食品中(含已注销,全营养配方食品数量最多,非全营养配方食品次之,随后为早产/低出生体重婴儿配方、无乳糖配方、蛋白质(氨基酸)组件、乳蛋白部分水解配方,其余产品数量很少。总体来看,市场上已获批的能满足某些特定人群的特医食品并不多。

4.4、第四小问求解

 

针对任务二第四小问,本文用两种颜色绘制 182 款特医食品脂肪和蛋白质含量的频数分布直方图。结果如图 3.4 所示: 

图中横轴代表特医食品的脂肪与蛋白质的含量,纵轴代表特医食品的频率数。由图可得,脂肪含量与蛋白质含量均在在[0,2]中的特医食品数量最多,此外,也有部分产品的蛋白质含量分布在[4.5,6]中。

4.5、第五小问求解

 

针对任务二第五小问,本文根据任务一得到的 182 款特医食品的“适用人群”数据提取词段绘制词云图,结果如下所示

由图可得,现有的已获批的特医食品适用人群的主要特征特征为:1-10 岁、10 岁以上、消化吸收障碍、代谢紊乱、需要补充营养,电解质、进食受限、特定疾病、医学。即 0-12 月、1-10 岁及 10 岁以上具有消化吸收障碍、代谢紊乱、进食受限或有特定疾病需要补充某些营养成分的人群。

由于任务一和任务二获得了 182 款特医食品的营养物含量信息以及使用说明等信息。要构建药品推荐系统,就要提取关键信息进行推荐算法的构建。本文借助文本相似度和 pyqt 图形用户化界面构建了一个简单的推荐系统。求解流程图如下

代码如下

 

第一步,本文先合并所有产品信息,然后将这些信息利用字符串相加的方式合并为一个新的字符串(除了推荐所用的产品名称)作为已有产品的全部信息的代表。由于适用人群类别字段取值为特医婴配食品和 1 岁以上特医食品较为专业,本文结合实际情况将适用人群类别字符串设置为婴儿、非婴儿。
第二步,利用 PYQT5 构建一个布局为三行一列的窗口。第一行是一个输入框和一个搜索框,用于用户输入需求信息及点击推荐按钮执行推荐算法,第二行是推荐结果展示,第三行是推荐得分的折线图可视化展示。
当用户输入需求并点击推荐按钮后,推荐算法会将用户输入的需求和产品的全部信息所代表的字符串转为 TF-IDF 向量,然后根据各自的向量计算输入需求和所有产品信息描述之间的文本余弦相似度,最后将结果按降序排列,输出相似度得分最高的产品作为系统推荐产品。
本文设计的推荐系统的初始化界面如下

在推荐系统中输入用户一的需求:婴儿、蛋白质过敏。得到的推荐结果截图如下

由图可得,系统推荐的第一款产品就属于蛋白质过敏的婴儿适用的特医食品,推荐结果较为准确。
然后输入用户二的需求:10 岁儿童、需要补充蛋白质、乳糖不耐受。得到的推荐结果截图如下

从图中推荐度得分可以看到对用户二的推荐结果也较为准确。若在用户二需求基础加上其他信息,如进口,年份,状态,即输入 10 岁儿童、需要补充蛋白质、乳糖不耐受、粉状、2017 年、国产产品,则推荐结果如下

从图中可以看到用户需求输入得越详细,推荐出得产品推荐相似度得分越高,即产品匹配值更高,推荐系统的有效性更强。

     本文地址:http://w.yusign.com/tjnews/475.html    述古往 http://w.yusign.com/static/ , 查看更多
 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0
 
更多>同类生活信息

相关文章
最新文章
推荐文章
推荐图文
生活信息
点击排行
{
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号