微信公众平台账号内容搜索引擎爬取技术实现
admin 7年前 (2014-02-23)
有人问:游迹语音助手中的“微信精选”和www.lewuxian.com怎样实现对微信公众平台内容进行爬取的,不会是像诸多所谓的微信内容聚合站人工维护的吧。 首先可以肯定的是:游迹团队不是白富美,没有魅力与微信团队...
admin 7年前 (2014-02-23)
有人问:游迹语音助手中的“微信精选”和www.lewuxian.com怎样实现对微信公众平台内容进行爬取的,不会是像诸多所谓的微信内容聚合站人工维护的吧。 首先可以肯定的是:游迹团队不是白富美,没有魅力与微信团队...
admin 7年前 (2013-11-09)
项目需要实现在多台服务器间做任务、账号资源、服务器资源的分布式调度、分发,需求场景不细说,你懂的。先考察了Celery、resque、Pyres几个典型的异步任务调度的开源项目,对比项目需求后,感觉要直接利用这几...
admin 8年前 (2013-09-30)
1、业务场景: 串行自动化调用一些第三方的程序(请求参数变化),程序自动抓取序的请求报文,在抓取到匹配报文后,调用自有程序进行相应的业务处理。 串行调用是指必须处理完上一个请求后,才发起下一请求 2、主要技术方案: 系统主...
admin 8年前 (2013-03-21)
由于项目需要,需要实现超大文件的上传,且要考虑上传请求的负载均衡、客户端往服务器的断点续传(上行)、服务器可扩展性等需求。对比ftp、自定义Socket协议、php等服务器脚本实现上传功能后,选择了基于Ngnix Upload Module+pycu...
admin 8年前 (2012-11-09)
1、 为何要使用HTTP Live Streaming 可以参考wikipedia HTTP Live Streaming(缩写是 HLS)是一个由苹果公司提出的基于HTTP的流媒体 网络传输协议。是苹果公司QuickTime X和iPhone软件系...
admin 8年前 (2012-10-27)
由于国内互联网管制政策,强大的敏感词过滤系统成为了每一个网站必须具备的基本功能,尤其是那些涉及UGC内容的站点。对敏感词过滤流行的方案是基于Double-array trie tree,更复杂的采用了“多模式匹配算法”,只不过Doubl...
admin 8年前 (2012-10-12)
iOS消息推送直接使用苹果消息推送协议,服务器端采用easy apns:http://www.easyapns.com/ Android消息推送采用MQTT协议,服务器端采用mosquito+PhpMQTTClient mosquito:http:/...
admin 9年前 (2012-07-11)
基于HTML5来制作iPad电子杂志,横屏及竖屏自适应是个大问题,查找了半天资料,没有一篇像样的文章可供参考。将思路及例子分享一下。例子并不严谨和规范,仅供参考。 大致思路: 1、对横屏(portrait)和竖屏(landscape)情况下...
admin 9年前 (2012-01-26)
以前总结过在slideshare上下载文件的方法(参考:从Slideshare.net 下载Slide的方法) ,只不过以上下载操作都需要手工操作,极其不人性化。尤其是在将swf格式的文件转化为pdf格式时候,要...
admin 10年前 (2011-09-24)
在《企业级搜索引擎Solr使用入门指南》及《企业级搜索引擎Solr交流》中对Solr的使用做了简单介绍。在数据库驱动的应用中,当时采用的方案是应用层面有数据的增删改操作时候,由应用通过调用solr的xml接口来完...