-
最新日志
最新评论
- 中国博客网 发表于《Hello world!》
- 黑暗中的天使 发表于《些许失落》
- 中博网友 发表于《HP V3808 Vista 转 XP》
- 中博网友 发表于《九月》
- w 发表于《“度日如年”》
存档页
分类
功能
Category Archives: Linux
修改larbin源代码增加url过滤条件
增加url过滤条件,比如在进行单个站点网页抓取的时候,可能由于网络或者时间原因,不需要对于该网站下所有页面进行爬取,而只是对特定某个感兴趣目录下页面进行获取,此时可以增加url过滤条件,使得只有满足一定条件的url才加入到队列中。比如昨天进行的一项任务就是把全国的行政区划都弄下来,地址是http://www.xzqh.org/quhua/index.htm,此时我们过滤条件就是必须http://www.xzqh.org/quhua/开头的url才进入队列,以节省时间和带宽流量等。大概从0:00开始到早上7:40在linux下跑了将近八个小时基本搞定,可以交差了。 修改源代码utils/url.cc 在bool url::isValid () 判断url是否有效的方法中加入如下代码 if (host == NULL) return false; //added by Roger 2009.6.3 char *p = giveUrl(); char ch[30] = "http://www.xzqh.org/quhua/"; int i; int len = strlen(ch); int flag … Continue reading
linux下使用cron每天定时执行java程序
环境: OS:Ubuntu 8.04 Hardy JDK:6.0 1.首先将默认包中的java源代码进行编译,得到class文件。 2.创建SHELL脚本,命令行执行java,同时将引用的第三方包路径(此处为/home/iems/htmlparser.jar)加入到环境变量CLASSPATH中,脚本search.sh内容如下: #!/bin/sh java -classpath .:/home/iems/htmlparser.jar NewsSearch 3.编辑crontab文件 #gedit /etc/crontab 4.在文件中加入一条如下记录,其中第一栏为分钟,第二栏为小时,即每天19:31执行该命令 31 19 * * * iems cd /home/iems && sh search.sh 5.重新启动cron进程,使得新的配置文件能够被重新读取,改变生效 #/etc/init.d/cron restart PS:若想查看crontab日志,访问/var/log/syslog即可。同时如果执行失败,可以选择发送邮件给管理员。 这样每天的新闻都会被自动抓取并且相关信息都能够存储到文本文件中了。 PS:最近网速好慢,好不容易上来发个日志。
linux终端(ZZ)
基本概念: 1. tty(终端设备的统称): tty一词源于Teletypes,或者teletypewriters,原来指的是电传打字机,是通过串行线用打印机键盘通过阅读和发送信息的东西,后来这东西被键盘与显示器取代,所以现在叫终端比较合适。 终端是一种字符型设备,它有多种类型,通常使用tty来简称各种类型的终端设备。 2. pty(虚拟终端): 但是如果我们远程telnet到主机或使用xterm时不也需要一个终端交互么?是的,这就是虚拟终端pty(pseudo-tty) 3. pts/ptmx(pts/ptmx结合使用,进而实现pty): pts(pseudo-terminal slave)是pty的实现方法,与ptmx(pseudo-terminal master)配合使用实现pty。 Linux终端: 在Linux系统的设备特殊文件目录/dev/下,终端特殊设备文件一般有以下几种: 1、串行端口终端(/dev/ttySn) 串行端口终端(Serial Port Terminal)是使用计算机串行端口连接的终端设备。计算机把每个串行端口都看作是一个字符设备。有段时间这些串行端口设备通常被称为终端设备,因为那时它的最大用途就是用来连接终端。这些串行端口所对应的设备名称是/dev/tts/0(或/dev/ttyS0), /dev/tts/1(或/dev/ttyS1)等,设备号分别是(4,0), (100375231, 4,1)等,分别对应于DOS系统下的COM1、COM2等。若要向一个端口发送数据,可以在命令行上把标准输出重定向到这些特殊文件名上即可。例如,在命令行提示符下键入:echo test > /dev/ttyS1会把单词”test”发送到连接在ttyS1(COM2)端口的设备上。可接串口来实验。 2、伪终端(/dev/pty/) 伪终端(Pseudo Terminal)是成对的逻辑终端设备(即master和slave设备, 对master的操作会反映到slave上)。 例如/dev/ptyp3和/dev/ttyp3(或者在设备文件系统中分别是/dev/pty/m3和 /dev/pty/s3)。它们与实际物理设备并不直接相关。如果一个程序把ptyp3(master设备)看作是一个串行端口设备,则它对该端口的读/ 写操作会反映在该逻辑终端设备对应的另一个ttyp3(slave设备)上面。而ttyp3则是另一个程序用于读写操作的逻辑设备。 这样,两个程序就可以通过这种逻辑设备进行互相交流,而其中一个使用ttyp3的程序则认为自己正在与一个串行端口进行通信。这很象是逻辑设备对之间的管道操作。对于ttyp3(s3),任何设计成使用一个串行端口设备的程序都可以使用该逻辑设备。但对于使用ptyp3的程序,则需要专门设计来使用 ptyp3(m3)逻辑设备。 例如,如果某人在网上使用telnet程序连接到你的计算机上,则telnet程序就可能会开始连接到设备 ptyp2(m2)上(一个伪终端端口上)。此时一个getty程序就应该运行在对应的ttyp2(s2)端口上。当telnet从远端获取了一个字符时,该字符就会通过m2、s2传递给 getty程序,而getty程序就会通过s2、m2和telnet程序往网络上返回”login:”字符串信息。这样,登录程序与telnet程序就通过“伪终端”进行通信。通过使用适当的软件,就可以把两个甚至多个伪终端设备连接到同一个物理串行端口上。 在使用设备文件系统 (device filesystem)之前,为了得到大量的伪终端设备特殊文件,使用了比较复杂的文件名命名方式。因为只存在16个ttyp(ttyp0—ttypf) … Continue reading
find命令详解
在目录结构中搜索文件,并执行指定的操作。此命令提供了相当多的查找条件,功能很强大。 语法:find [起始目录] 寻找条件 操作 说明:find命令从指定的起始目录开始,递归地搜索其各个子目录,查找满足寻找条件 的文件并对之采取相关的操作。 该命令提供的寻找条件可以是一个用逻辑运算符 not、and、or 组成的复合条件。逻辑运 算符 and、or、not 的含义为: (1) and:逻辑与,在命令中用“-a”表示,是系统缺省的选项,表示只有当所给的条 件都满足时,寻找条件才算满足。例如: find –name ’tmp’ –xtype c -user ’inin’ % 该命令寻找三个给定条件都满足的所有文件 (2) or:逻辑或,在命令中用“-o”表示。该运算符表示只要所给的条件中有一个满足 时,寻找条件就算满足。例如: find –name ’tmp’ –o –name ’mina*’ % 该命令查询文件名为’tmp’或是匹配’mina*’的所有文件。 (3) not:逻辑非,在命令中用“!”表示。该运算符表示查找不满足所给条件的文件 。例如: find … Continue reading
文件系统管理 之 Linux 查看磁盘分区、文件系统、使用情况的命令和相关工具介绍
作者:北南南北 来自:LinuxSir.Org 提要:Linux 磁盘分区表、文件系统的查看、统计的工具很多,有些工具是多功能的,不仅仅是查看磁盘的分区表,而且也能进行磁盘分区的操作;但在本文,我们只讲磁盘分区的查看,以及分区的使用情况的查看;本文只是给新手上路之用;关于分区工具的操作,我将在以后做专门介绍; 此文目的:主要是向初学者介绍一下入门必备的一点基础知识,有了基础知识才能进阶;如果把所有的磁盘操作工具都放在一个文档里,大家看了也累;基于这种想法,所以我写文档的时候,就想让新手弟兄一目了解,能轻松点就轻松点;生活、工作和学习无不是如此; 操作环境:Fedora core 4.0 i686 & Slackware 10.1 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 正文 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 一、df 命令; df 是来自于coreutils 软件包,系统安装时,就自带的;我们通过这个命令可以查看磁盘的使用情况以及文件系统被挂载的位置; 举例: [root@localhost beinan]# df -lh Filesystem 容量 已用 可用 已用% 挂载点 /dev/hda8 11G 6.0G 4.4G 58% / /dev/shm 236M 0 … Continue reading