< 百分点科技:公众环境满意度与环境质量的关联分析研究_智能机器人案例_华体育app官网登录|华体会手机版

  编者按:生态环境部部长黄润秋指出“良好的生态环境是最普惠的民生福祉”。生态环境好不好,关键还是要看质量,看百姓对蓝天白云、清水绿岸的满意度和获得感。通过大数据、人工智能等先进的技术,可深入挖掘公众对生态环境的满意度,保障公众环境保护知情权、参与权、表达权和监督权。

  针对当前公众环境满意度与环境质量的关联分析需求,百分点数据科学实验室基于机器学习、文本分析等建模技术,从环境质量公众感受评价、敏感变化关联分析、生态环境质量改善成效评估三个角度进行了深入分析,为加强生态环境公众参与、提高生态环境管理决策能力提供技术支撑。

  近年来,环境污染事件对社会经济可持续发展和公众个人的生活产生的影响一直存在,而公众的环境意识也在不断的提高。生态环境保护既需要政府治理,也需要公众参与,从公众实际感受和反馈中提取意见有助于改进和提高环境治理能力。

  目前,环保部门仅通过环境监视测定设备对能够影响环境质量的一些因素进行测定,利用得到的具体数值,来评价环境质量(或污染程度) 及其变化的趋势,缺少了公众参与。

  为提升生态环境保护公众参与程度,提高生态环境管理决策能力,着重关注生态环境质量与公众感受“两张皮”现象,2021年5月,百分点科技通过环境质量监测大数据,结合在线问卷调查及互联网舆情数据,形成大小数据融合,分析公众环境空气质量满意度、改善成效、政府治理措施等情况,为加强生态环境公众参与、提高生态环境管理决策能力提供技术支撑。

  中国环境监测总站(以下简称总站)提供的2020-2021年至今环境空气质量监测数据,监测指标包括PM2.5、PM10、SO2、NO2、CO、O3等,共5000+个环境空气质量监测站点。

  样本来自全国400万在线调研样本库随机抽样,对全国339个地级以上城市,问卷调查的最终结果共收集31个省的317个城市10,500个样本,在对象选取上考虑了年龄性别、教育水平、行业职业等因素,尽量保证受访对象的随机性、均匀性。

  本次研究选取2021年5月的网络舆论情况数据,包括各地生态环境主管部门官网、中国环境报、中国环境新闻网和微博等主流媒体网站数据。研究重点覆盖26个关键词,包括7个空气相关关键词、8个水相关关键词、7个改善措施相关关键词和4个其他关键词,涉及微博1,309,188条、相关新闻网站15,026条数据。

  通过环境监视测定数据与在线问卷调查数据、主流媒体相关舆情数据来进行对比分析,利用文本分析技术分析挖掘公众感受与环境空气质量监测结果存在偏差的原因,分析公众不同时期对环保关注的重点、环境关注的热词、环境状况的情感。

  文本分析是指对文本的表示及其特征项的选取,它把从文本中抽取出的特征词进行量化来表示文本信息,文本分类的流程:文本预处理、特征提取、文本表示和分类器。

  “结巴”(jieba)分词是Python语言的一个中文分词包,它有如下三种模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  LTP是哈工大开源的一套中文语言处理系统,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。LTP 已经成为国内外最具影响力的中文处理基础平台。

  停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。停用词主要包括一些副词、形容词及其一些连接词。通过维护一个停用词表,实际上是一个特征提取的过程,本质上是特征选择的一部分。

  建立一个词典库,该词典库包含训练语料库的所有词语,每个词语对应一个唯一识别的编号,利用One-Hot文本表示。文档的词向量维度与单词向量的维度相同,每个位置的值是对应位置词语在文档中出现的次数,即词袋模型。通过Scikit-learn的CountVectorizer类来完成,这个类可以帮我们完成文本的词频统计与向量化。

  利用TF和IDF两个参数来表示词语在文本中的重要程度。TF指的是一个词语在一个文档中出现的频率,一般情况下,每一个文档中出现的词语的次数越多词语的重要性更大,IDF是体现词语在文档间的重要性。即如果某个词语出现在极少数的文档中,说明该词语对于文档的区别性强,对应的特征值高,IDF值高。

  当计算出TF和IDF值后,两数相乘即为TF-IDF:某词的TF-IDF值越高,说明其在这篇文章中的重要性越高,越有可能是文章的关键词。

  利用先构建好的情感词典,对预处理好的文本进行字符串匹配,从而挖掘正面和负面信息。情感词典包含正面词语词典、负面词语词典、否定词语词典、程度副词词典等四部分。情感词典在整个情感分析中至关重要,所幸现在有很多开源的情感词典,如BosonNLP情感词典,它是基于微博、新闻、论坛等数据来源构建的情感词典,以及知网情感词典等。

  逐个遍历分词后的语句中的词语,如果词语命中词典,则进行相应权重的处理。正面词权重为加法,负面词权重为减法,否定词权重取相反数,程度副词权重则和它修饰的词语权重相乘。利用最终输出的权重值,就可以区分是正面、负面还是中性情感了。

  运用在线问卷调查结果,构建公众环境质量满意度评价体系,以空气为重点、以城市为单位,分析公众对于目前环境质量满意度情况,并与环境质量状况作对比分析。

  利用各城市环境监测数据,分析环境监测数据骤升/骤降的开始时间、维持天数及平均变化值,并利用在线问卷调查数据和主流媒体相关舆情数据进行关联分析,通过挖掘监测数据和公众感受存在显著偏差的现象,研判各城市敏感变化的原因。

  运用在线问卷调查结果和政府官网、主流媒体相关舆情信息,以空气为重点、以城市为单位,分析公众环保关注的重点领域,通过舆情数据收集环境不满意的原因,提出针对性的改善建议。

  在本次全国范围公众满意度调查问卷中,近九成受访者对环境空气质量感到满意。通过区域及省市层面对比发现,公众感受与环境监视测定结果基本保持一致。

  针对各地市AQI敏感变化,将该区域群众的反馈信息及网络舆情信息进行关联,就可以分析敏感变化原因。比如,对全国339个城市当月AQI进行分析,采集来自中国环境报、中国环境新闻网、微博的新闻,筛选出有关生态环境的新闻,并对应上述AQI骤升的城市,就可以从新闻报道中发现部分地区AQI敏感变化的原因与影响公众感受的雾霾,沙尘有关。

  选取各地生态环境主管部门官网及中国环境报、中国环境新闻网、微博等主流媒体网站,采集了与环保相关数据,对数据进行处理分析后从中得到的主要关键词云如下:

  从上图可以看出,当月公众对环保比较关注的点为:雾霾、沙尘、恶臭、噪声、水污染等。生态环境主管部门可从公众关注的方向入手,解决环保工作中较为突出的问题,由此来提高公众的环保满意度。

  空气质量:A市5月份AQI在全国339个城市中排名305位,尽管排名靠后,但是和3月相比,在全国改善排名中上升至第13位,空气质量有较为突出的改善。

  满意度得到提升:A市5月份公众环境空气质量满意度77.8分,全国排名285名,3月份满意度76.6分,全国排名310名,5月比3月提升1.2分,上升25名。

  新闻舆情:5月份A市生态环境局对市各区扬尘污染问题进行检查,并对12起典型扬尘问题予以公开曝光。

  近些年政府环保投入和治理力度不断增强,生态环境改善取得了明显成效。然而政府环保监测数据不足以全面反映环境质量问题,需通过问卷、舆情数据挖掘监测数据无法体现的问题。

  与此同时,问卷及舆情数据也包含公众对当地政府环境治理成果的评价,充分利用好问卷及舆情数据去了解公众对环境的满意度,能够更好地捕捉他们的感受、需求、期待。

  从公众的角度反映环保工作的重点和难点,以及主要影响因素,为环境监视测定工作提供数据支撑、为生态文明建设提供决策依据,具有重要的理论和现实意义。

  未来可以通过融合企业用电数据、污染源数据、交通数据等更多维度的数据,逐步提升环境治理水平、改善环境质量、提高公众满意度。

  探索建立业务化机制,及时有效地发现环境治理工作落实滞后、治理效果不到位等问题,并发出预警信号;直观体现地方环境治理工作成效,并逐步加强环境治理经验宣传和推广。建立生态环境质量公众满意调查问卷定期更新机制,围绕生态环境重大政策行动设置专题,坚持小切口,不搞大而全,切实反映环境管理关心的问题与信息。

  加强环保政策的正面宣传和公众舆情的正面引导。收集公众意见反馈、个人诉求等,定期总结、及时反应,提高政府服务质量。当产生阶段性环境治理成果等正面舆情时,及时展开环保政策宣传、科普活动;当发现公众感受与环境质量出现长期异常偏离的现象,将开展专项调查,及时查找问题,避免对政府形象造成负面影响。

CONTACT US
欢迎随时与我们联系