임베딩은 숫자로 되어있다.각 임베딩은 벡터의 길이와 숫자를 결정하는 규칙이 다르다. 임베딩 모델이 사람과 LLM 사이 통역사같은 역할을 함.LLM은 자신의 임베딩 모델을 내장하고 있음. 출처:- https://www.youtube.com/watch?v=A5IU1onjh4c&list=PLgqm0A83muLPAZ-SrHQyUYCEm3zXHx-xH&index=8
GPT, T5, BERT, BART, CTRL: 1세대 언어모델여기서 T는 transformer를 의미함 LLama: 최근 언어모델 Transformer자연어의 세계는 트랜스포머 (2017) 이전과 이후로 나뉨 2017년의 Attention Is All You Need 제목의 논문으로부터 모든것이 시작되었음. attention: 중요한 부분은 더 집중하고 중요하지 않은 부분은 덜 집중하자; 라는 개념에서 시작되었음. 문맥을 잘 이해하는 것이 중요. > 문맥을 이해하기 위해 문장 내에서 어떤 부분에 집중하고 어떤 부분에 덜 집중하면 될지를 해당 논문에서 다룸. With transformers, 'Attention Is All You Need ' for context-understanding즉, 다른 ..
import jsonwith open('C:\\test.json', 'r') as f: json_data = json.load(f)
1. torchimport torch # torch importx= 34.0 print(type(x)) # cpu 레벨에 있는 타입 즉, 파이썬 내의 오브젝트 타입이다.# output: y = torch.tensor(x))print(type(y)) # tensor로 바꾸는 순간, 파이썬 내부의 오브젝트 타입이 아닌, pytorch 내의 오브젝트 타입이 됨.# output: 2. list to Tensor- list도 텐서로 매핑됨.- 텐서는 scalar, vector, matrix, n-dimension array를 모두 포함하는 개념이기 때문x = [1,2,3,4]y = torch.tensor(x)print(type(x))# ouput: print(type(y))# output: ..
빈도수를 토대로 단어의 특성값을 뽑아냄ex) feature_vector = {'text':2, 'mining':1, ...} 대상이 되는 말뭉치에 대해 하나의 단어 집합을 구성하고 이 단어 집합을 대상으로 각 문서에 대해 빈도 표시하나의 문서에서 사용한 단어에 비해 사용하지 않은 단어가 훨씬 많기 때문에, 대부분의 특성으 0이 됨. 이를 희소 벡터 (sparse vector)라고 하는데, 이는 저장공간과 연산 측면에서 비효율적이므로 효율적인 처리방법이 필요함. BOW 기반 특성 벡터 추출과정말뭉치 |토큰화, 불용어 제거, 정규화, 품사태깅 | 특성집합 생성 -> 특성 집합-> 특성벡터 생성 -> 특성 벡터
텍스트 전처리 (Text Preprocessing): 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 제거하고, 문장을 표준 단어들로 분리, 각 단어의 품사를 파악하는 것까지 포함되는 사전 작업들 텍스트 전처리 단계1. 정제 (cleaning): 불필요한 노이즈 제거, 불용어 (stopword) 제거2. 토큰화 (Tokenization): 주어진 텍스트를 원하는 단위(토큰)으로 나누는 작업 (i.e., sentence tokenization, work tokenization)3. 정규화: 같은 의미를 가진 동일한 단어임에도 불구하고 다른 형태로 쓰여진 단어들을 통일시켜 표준 단어로 만드는 작업 (i.e., go = goes), 방법에 따라 어간 추출과 표제어 추출로 나뉨.4. 품사 태깅: 단어를 문법적인..
학부 졸업을 할 때쯤 바로 중소기업/스타트업에 취업을 할지, 1년정도 더 컴퓨터 기초/알고리즘을 공부해서 대기업을 노릴지, 대학원을 갈지 이 3가지 선택사항에 대해 엄청나게 고민을 했던 것 같다. 특히 가고싶은 분야가 신입을 거의 안뽑는 곳이여서 1년 더 공부한다해서 대기업에 갈 수 있을지에 대해 매일 생각했었다. 다행히 열심히 교수님들 방에 문을 두들긴 끝에 어렵지 않게 졸업 전에 괜찮아보이는 중소기업에 입사하게 되었다. ('괜찮은' 이라는 기준이 사회초년생 입장에서는 너무 어려워서 교수님들한테 무작정 메일을 보내거나 좋은 회사 추천해달라고 찾아가는 등 지금 생각해보면 철면피도 이런 철면피가 없다...ㅋㅋㅋ) 그렇게 들어간 회사에서 상사가 정~말 정말 이상하고 남다른 꼰대력을 보여 1년만에 탈주하고 고..
Reference: Remzi H. Arpaci-Dusseau and Andrea C. Arpaci-Dusseau의 『Operating Systems: Three Easy Pieces』 Sector: 보통 512byte block Disk: 섹터들의 배열일뿐이다 (어렵게 생각 ㄴㄴ) - 많은 파일 시스템들은 4KB를 한번에 읽고 쓴다. 그러나 디스크 update를 할때는 512byte write만 가능하다.
Reference: Remzi H. Arpaci-Dusseau and Andrea C. Arpaci-Dusseau의 『Operating Systems: Three Easy Pieces』 - I/O는 컴퓨터 시스템에서 매우 중요한 부분이다. - 당연히 모든 프로그램에서 입력과 출력이 필요하기 마련이기 때문이다. 시스템 구조 컴퓨터 시스템에서 I/O 계층구조를 간단하게 표시하면, 다음과 같이 나타낼 수 있다. 1. Memory Bus - 그림의 가장 상위계층에 해당하며, CPU가 메모리 버스를 통해 메인 메모리와 연결되어 있음을 보인다 2. General I/O Bus - 어떤 장치들은 I/O 버스를 통해 연결된다. - 최신 시스템에서는 PCI가 된다. - 그래픽과 같은 높은 성능을 보이는 I/O 장치들이 ..