《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集
2021/6/29 11:20:48
本文主要是介绍《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
写在前面的话:
实例中的所有数据都是在GitHub上下载的,打包下载即可。
地址是: [ http://github.com/pydata/pydata-book ](http://github.com/pydata/pydata-
book)
还有一定要说明的:
我使用的是Python2.7,书中的代码有一些有错误,我使用自己的2.7版本调通。
# coding: utf-8 import pandas as pd unames = ['user_id','gender','age','occupation','zip'] users = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\users.dat', sep='::', header=None, names=unames) rnmaes = ['user_id','movie_id','rating','timestamp'] ratings = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\\ratings.dat', sep='::', header=None, names=rnmaes) mnames = ['movie_id','title','genres'] movies = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\movies.dat', sep='::', header=None, names=mnames) users[:5] ratings[:5] movies[:5] ratings data = pd.merge(pd.merge(ratings, users), movies) data.ix[0] mean_rating = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean') mean_rating[:5] ratings_by_title = data.groupby('title').size() ratings_by_title[:10] active_titles = ratings_by_title.index[ratings_by_title >= 250] active_titles mean_rating = mean_rating.ix[active_titles] mean_rating top_female_rating = mean_rating.sort_index(by='F', ascending=False) top_female_rating[:10] mean_rating['diff'] = mean_rating['M'] - mean_rating['F'] sorted_by_diff = mean_rating.sort_index(by='diff') sorted_by_diff[:15] sorted_by_diff[::-1][:15] ratings_std_by_title = data.groupby('title')['rating'].std() ratings_std_by_title = ratings_by_title.ix[active_titles] ratings_std_by_title.order(ascending=False)[:10] ratings_std_by_title [/code] ![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20210608151750993.gif)
这篇关于《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-25Python编程基础:变量与类型
- 2024-11-25Python编程基础与实践
- 2024-11-24Python编程基础详解
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器