数据预处理和基本数据安全意识
2021/4/30 18:55:24
本文主要是介绍数据预处理和基本数据安全意识,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
1.了解数据
01.数据量是多少? -总的数据个数,存储空间的大小 -分的数据个数,存储空间的大小 分: 数据类型有哪些? -- 文件夹 文件 时间周期 -- 02.了解数据分布 最大的数据多少,最小的呢,平均情况 有无异常文件--空文件夹 find ./ -maxdepth 1 -type d -empty 03.查看具体的数据示例 查看具体的文件-确认数据的格式 JSON--JSON文件的编码格式, JSON文件中的格式
2.数据预处理
复制 移动 : 本地移动 远程移动 转换格式 压缩文件夹 创建目录 上传数据 异常数据处理
3.流程总结:
01.事前有个预判,以期望寻求合适的解决方式 沟通前有个相应的思路 02.大批量执行前,应以小批量数据作为基准,进行全流程的测验后,再对大数据进行处理、 初次处理情况,做好显示执行过程,后续可以隐藏 03.慎重用 删除处理,非必要的情况下,可以用移动,或者复制 修改文件前,注意备份,删除文件可以换成移动 04.注意做事的阻塞点,及时反馈,必要时寻求帮助 05.注意存储和传输 存储的数量,空间大小,传输的介质,网络是否有专线,网络的占用的带宽,传输重试的次数 计算和处理: 处理数据花费的时间,处理数据耗费的资源,处理数据的量的时间 结构化数据预处理 图像数据预处理 抽帧 去重 去畸变 音频数据预处理: 文本数据预处理
4.命令行示例
01.Linux命令行 find ./ -maxdepth 1 -type f find ./ -maxdepth 1 -type d ls -l | wc -l scp -r user@IP:/home/oft /home/Data cd /home/test/collect_data find /home/test -name 'test_*' -type -d | xargs -i mv {} /home/T cp mv python3 /home/testdata.py /home/te -- 存储 df -h du --max-depth 1 -h --压缩-- 还要注意解压后的情况 --挂载-- 硬盘初次用的时候,可能未挂载,可以查看并挂载 mount umount -- 管道 02.HDFS命令行 hadoop fs -ls hdfs:/data hadoop fs -get hdfs:/data/test.zip /home/test hadoop fs -put /home/test/mytest.txt hdfs:/data
5 程序处理方式:
MobaXterm Filezilla Dbeaver listary 程序处理方式 增加异常判断和处理--比如文件不存在情况 删除要进行输入确认--同时对删除的内容进行限定 --防御式编程 压缩的时候,删除了源文件,异常推出了 功能解耦-装配式 多线程多进程增加效率 明确输入和输出 队列的形式--便压缩,压缩完成后,进行删除 断点--接着上次处理的地方,再进行处理
网络排查
lastb cat .bash_history >> history.txt, 查看文件history.txt. history echo $HISTSIZE echo $HISTFILESIZE
入侵排查以及渗透测试
sudo 提权 # root帐号外,其他帐号是否存在sudo权限-- # 查看sudoers文件 sudo more /etc/sudoers | grep -v "^#\|^$" | grep "ALL=(ALL)" # 查看该用户是否是sudo组的成员 more /etc/group | grep sudo 具有root用户权限的SUID文件 find / -perm -u=s -type f 2>/dev/null 排查: 01. /etc/passwd 和 /etc/shadow 02. Cron Jobs 提权
了解网络渗透:
渗透测试流程,应该包含以下 8 个步骤: 主机发现 > 服务枚举 > 实施攻击 > 获取shell > 权限提升 > 权限维持 > 内网渗透 > 痕迹清除 同时会 改变自己路由器或者电脑的MAC地址 进行数据加密以及IP地址隐藏 代理和肉鸡 追踪位置: 物理地址,使用端口,路由的MAC地址 DNS服务器--网址记录 概念: 横向扩展: 被攻陷的系统为跳板,访问其他主机,获取包括邮箱、共享文件夹或者凭证信息在内的敏感资源。
加强安全措施:
自我防护 修改密码:普通用户运行passwd只能修改它自己的密码 修改权限: chmod -R 500 /home/ddd 修改用户所在组: id groups 端口: 封锁端口 网络: trace
概念了解
HISTSIZE 和 HISTFILESIZE 有什么区别 说明: HISTSIZE 定义了 history 命令输出的记录数 HISTFILESIZE 定义了在 .bash_history 中保存命令的记录总数. history显示内存和~/.bash_history中的所有内容; 内存中的内容并没有立刻写入~/.bash_history, 只有当当前shell关闭时才会将内存内容写入shell
这篇关于数据预处理和基本数据安全意识的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-21《鸿蒙HarmonyOS应用开发从入门到精通(第2版)》简介
- 2024-12-21后台管理系统开发教程:新手入门全指南
- 2024-12-21后台开发教程:新手入门及实战指南
- 2024-12-21后台综合解决方案教程:新手入门指南
- 2024-12-21接口模块封装教程:新手必备指南
- 2024-12-21请求动作封装教程:新手必看指南
- 2024-12-21RBAC的权限教程:从入门到实践
- 2024-12-21登录鉴权实战:新手入门教程
- 2024-12-21动态权限实战入门指南
- 2024-12-21功能权限实战:新手入门指南