「大数据处理」总结

Rehoni / 2017-11-23

关于大数据这个课

这学期选修的大数据是一门研讨课的形式，这就意味着学生本身是占据课上绝大部分时间的。而且在同学作报告的时候，以我的性格是绝对不会主动发言提出问题的。事实也就是如此，老师讲课的课时很少，更多其实是学生们作报告（作业好吧）。个人——两次报告，小组——一个系统。

其实内心是比较想要一个人做做报告，但还是和淼淼他们组了个队吧。想到一个人呢，报告的话自由度很高，而且一个人不怕拖累别人，毕竟本人太皮。而且这两个系统的选题，其实个人没有多大兴趣；没有兴趣驱动的东西最终能够做到差强人意哦不做到结束的原因大概也只有成绩原因了。

关于出勤

其实我想吧很多人都像我一样在短学期的时候斗志满满，做项目的时候像海绵一样疯狂地汲取着知识，在不断地学习中不断改善自己的项目，然后可以说是刚极易折吧，绷紧的弦一下子就断了，开学各种课程压下来，坚持了三四周的课，慢慢地无趣的课多了，鸽也就成了常事了。

关于大数据也就是这样一个…“循序渐进”的过程，因为大数据的课时安排的很紧吧，但其实内容不多也还算是枯燥（虽然老师真的很好超级好，尤其是到第七周第八周的时候，因为安排下来了，小组的第二次报告逐步接近deadline的时候，其实内心还是蛮紧迫的，但身体仿佛生锈行动不起来，拖拖踏踏到最后几天，几个皮皮才开始聚在一起，在Game#开始了这次征途，然后自然而然地，第七周第八周的大数据课基本没有去，虽然本着本来也就是同学在报告，其实去不去无所谓毕竟大家水平差不多，但这么一想那老师讲的就值得听了？大家讲的东西其实没有本质区别，大概也只是为了自己心里找个借口，而鸽了的课的时间其实也没有在做一些正事…作业也在那个时候压下来，就感觉弦慢慢绷紧的感觉，久违了

我做的我想到的

爬虫，大概是我一直在项目里做的部分，很简陋，就是urllib2+bs4就是一个简简单单的爬虫，当初迪凯也是这样说的，爬取一个这样的网页不需要什么高端的操作，（再说我也不一定学不会也算是学会了很多东西吧，关于py的bs4怎么爬取标签，关于urllib的request，关于pymysql的链接数据库操作，其他的几种有机会一定试试关于中途用py2.7后来又换用3.6的两种版本的一些小区别…最大的收获也是pycharm的调试，基本上是一边调试一边码代码，这个时候我能清清楚楚感受到自己的进展，比调bug有意思多了~虽然因为py的一些问题弄的迪凯不胜其烦…

可以说写这些代码的时候，是我最认真最专注最开心的一段时间，能学到东西是一方面，有人陪着也是一方面，能够并肩的时候，谁也不希望自己还一直孤独着不是吗？=-= 最后写出了一个奇怪的但是简单的spider，初窥爬虫的新世界。因为没有多线程的原因，爬取数据的时候爆炸慢，爬完一遍大概需要四五个小时，效率很低但是很欣慰，大概设计方面也有很多问题，没有要修改的意思一方面也是因为自己懒惰，借口就是自己是初学者呗233333

后续

后来，绷紧的弦断了…哦也不，大数据写完又和迪凯通宵撸了一手代码，整个人没有dalao多久，又变成了一个皮皮虾，(啊刚刚给我的vscode换了个字体感觉自己棒棒哒，等线中文很赞~~开始写不动东西，开始熬不动夜，开始四个人一起去吃麻辣香锅特辣…说来记忆中最深刻的，还是那天晚上四个皮皮,在梅4辅楼game#，弹着吉他喝着可乐码着代码聊着天，还有《倔强的罗皓不将就的歌单》..之类的神奇的操作。时间就这样悄悄地从指缝间溜走了外边的风就慢慢吹

除此之外，第八周的周二终于肝完就立马上课跑去pre了，看到橙子涵讲的其实心里虚得很，那句话怎么说的来着，努力了不知道结果如何，就算心里虚的很也要强撑。周三因为没有去大数据的最后一节结课，这又是另外一个故事了~23333是不是说明自己慢慢成为一个有故事的人呢?

这几天橙子涵借此机会用大数据的课程报告向学院做了个srtp的申请,虽然在我和淼淼看来，都不大抱着希望…就这样慢慢走过来，明天计算机268第一个答辩…就莫名虚的很,哪有大数据用mysql做数据存储的啊…还是我写的这串代码…

官方个人心得2333

关于这次大数据的项目的实现，我在组内更多的是做了一些数据爬取方面的微小的工作，在项目不断进展中，我对大数据的理解也不断加深，整个流程这样比较清晰摆在面前的时候，只感觉这样做下去就能够把它做好，虽然还有很多不足的地方，但是目标明确的情况下，在项目进展中才不会有挫败感，才会更自信要求更高地做好每一份工作。

关于数据爬取—爬虫，终于开始接触爬虫，这次参考了多方面的资料打算从安居客这个网站入手，是因为这个网站对爬虫比较友好，这次数据爬取过程中体会很多，关于爬虫的技术性问题没少请问别人，一方面是自己技术和经验上的不足，二是爬虫的定制化比较强需要自己不断理解和钻研，这次也算是碰到了挺多的难题和bug，虽然最后爬取的效率很低，没有框架没有多线程，但是从这次爬虫中除了对大数据的数据预处理和数据清洗的重要性有了深刻的认识，也是对简单爬虫整体的流程有了一个具体而清晰的认识，也算是提供了一份宝贵的经验和模板，同时也学会了pycharm的debug功能对爬虫的便利之处。美中不足的地方就是爬虫的优化确实不够，爬取的效率太低，一路坎坎坷坷才爬取所有的数据。